在Google,我们有一个标准的事后总结模板,使我们能够始终如一地捕获事件的根本原因和触发因素,从而进行趋势分析。我们使用这种趋势分析来帮助我们确定针对系统性根本原因类型的改进,例如错误的软件界面设计或不成熟的变更部署计划。表C-1显示了过去7年中成千上万笔事后抽样的情况,显示了我们造成停机的八大诱因。
表C-1。2010--2017年排名前8位的中断触发因素
--- | --- |
---|---|
Binary push | 37% |
Configuration push | 31% |
User behavior change | 9% |
Processing pipeline | 6% |
Service provider change | 5% |
Performance decay | 5% |
Capacity management | 5% |
Hardware | 2% |
表C-2列出了最重要的五个根本原因类别。
表C-2。停机的前五种根本原因类别
--- | --- |
---|---|
Software | 41.35% |
Development process failure | 20.23% |
Complex system behaviors | 16.90% |
Deployment planning | 6.74% |
Network failure | 2.75% |