2025-07-28 | 分类分布式系统 | 标签 MIT 6.824 容错高可用 SLA 分布式系统

容错与高可用：打造稳定的分布式系统

一、生活化引入：飞机“故障”与乘客安全

想象一次飞行，飞机可能遇到发动机故障或气流颠簸。为了保证安全，飞机设计了多套备份系统和应急预案。分布式系统同样面临各种“故障”，如何保证系统稳定运行，是设计核心。

二、故障模型与故障处理

1. 常见故障类型

故障类型	描述	类比示例
节点故障	服务器宕机或崩溃	飞机发动机失灵
网络故障	网络分区、消息丢失或延迟	飞机通信中断
软件错误	程序BUG导致异常行为	飞行系统软件漏洞
硬件故障	硬盘损坏、内存错误	飞机仪表故障

2. 容错目标

检测故障：快速发现异常
恢复服务：故障节点替换或修复
保持一致：保证数据正确性

三、容错技术解析

1. 重试机制

在请求失败时，自动重新发起尝试，适用于暂时性故障。

// 简单重试示例
func Retry(op func() error, attempts int) error {
    for i := 0; i < attempts; i++ {
        if err := op(); err == nil {
            return nil
        }
        time.Sleep(time.Millisecond * 100)
    }
    return errors.New("all retries failed")
}

2. 检查点（Checkpoint）

定期保存系统状态，减少故障恢复时数据重做量。

Checkpoint示意：

运行状态 ----> [保存快照] ----> 新状态
  ↑                           |
  |---------------------------|
      故障恢复时从快照开始

3. 故障转移（Failover）

自动切换到备用节点，保障服务连续。

故障转移流程：

主节点故障
     ↓
监控系统检测
     ↓
启动备节点接管
     ↓
恢复服务

四、高可用性与服务等级协议（SLA）

1. 高可用性指标

可用性(Availability) = (正常运行时间) / (总时间)
常见目标如99.9%（三九）可用，对应年宕机时间约8.7小时

2. SLA定义

SLA明确服务质量和可用性承诺，涵盖响应时间、恢复时间等指标。

SLA指标	说明	示例
可用性保证	系统正常运行的百分比	99.9%
响应时间	请求到响应的最大时间	100ms以内
恢复时间	故障后恢复正常的时间	5分钟内

五、实战观察与调试建议

监控系统：实时检测节点健康，自动报警
日志分析：追踪故障原因，定位瓶颈
故障注入：模拟故障验证系统弹性
演练恢复：定期测试故障转移流程

六、术语对照表

生活化说法	技术术语	说明
备用发动机	备份节点	故障时接替主节点的服务器
修飞机	故障恢复	使系统恢复正常运行
重启尝试	重试机制	请求失败后的自动重发
安全网	检查点	定期保存的系统快照

七、思考与练习

怎样设计重试策略避免雪崩效应？
检查点与日志在故障恢复中如何配合？
实现一个简单的故障转移检测与切换模块。

八、总结：容错与高可用的工程智慧

分布式系统的容错技术和高可用设计是保障业务连续性的基石。理解故障模型、巧用重试与检查点机制、设计合理的故障转移和SLA，是每个分布式系统工程师必备的技能。

< Raft算法实战：分布式复制日志系统详解基于Raft的容错键值存储实战解析 >