随着分布式成为主流的系统架构设计方案,业务系统的迭代速度越来越快,后端系统架构变得越发复杂,单一节点问题可能被无限放大,大规模分布式系统的稳定性保障能力越来越成为业界关注的重点;与此同时,在技术角色分工越来越细,技术专业化程度越来越深的大背景下,分布式系统的架构特性为其稳定性建设中的架构设计、组织设计等也带来了新的挑战。
稳定的系统是产品提供服务的基本前提,但是当前很多企业缺乏解决分布式架构下的系统稳定性、服务高可用建设相关问题的经验。《中国混沌工程调查报告(2021)》调查结果显示,“较多服务的稳定性相对较差,月事故率差强人意”;线下调研结果提示,SRE团队几乎都是从零开始摸索稳定性建设,在此过程中存在关键技术的建设路径不清晰、建设思路不明确的问题。
针对上述分布式系统稳定性的痛点问题,本文希望形成一份总体性的稳定性建设指南,从全局角度出发对分布式系统稳定性建设工作进行拆解和分析,力求务实、有效地输出有价值的观点。本指南期待能比较全面的帮助中国企业在分布式系统建设、配套组织、运营机制设计层面进行指导落地,实现国内软件发展向更高目标迈进。