第1页
分钟级故障恢复的高可用保障
梁耀斌 QCon/2015-04
第4页
两个例子:
2011上半年Gmail正常运行时间超过99.99% 2013年微博平台核心服务接口的可用性指标: 全年平均接口请求性能<100ms的比例为99.991%
第5页
衡量系统可用性的指标
u服 务平均无故障时间MTBF u服 务平均恢复时间MTTR u可用性=(MTBF/(MTBF+MTTR))*100%
第6页
常常碰到的场景
场景一
第7页
常常碰到的场景
场景二
第8页
常常碰到的场景
场景三
第9页
解决系统可用性的手段
u减少故障出现次数 ——不出问题
u缩 短故障处理时间 ——尽快解决
第10页
天下武功 唯快不破
u自 动恢复是最快的恢复 u一 键操作
第11页
单实例故障
原因: u网 络中断 u机 器故障 u程 序崩溃 u。。。
第12页
无状态单实例故障
u健康发现 u负 载均衡 u快速失败 u超 时时间 u控制重试 u自 动恢复
A1
item.taobao.com
VIP1
VIP2
A2 A3
A4 A5
B1 B2 … B3
DNS
A6 B4
第13页
有状态单实例故障
u第 三方仲裁者HA u数据库的主备切换
u自 动选举 uP axos uRaft
HA
Master
Slave
第14页
服务集群故障
原因: u容 量不足 u变 更引起 u网 络故障 u程 序bug 。。。
第15页
服务集群故障
自我保护 u限流——学会拒绝
u按系统负载限流 u按业务优先限流 u降级——有舍有得 u依赖模块的降级 u业务功能的降级
第16页
服务集群故障
快速变更 u容 量伸缩
u应 用规范 u自动部署 u变更管理 u变 更记录 u快速回滚
第17页
机房层面故障
u网络核心故障 u接入层故障 u机房断电 u 。。。 以不变应万变——多IDC容灾
第18页
同城容灾
u数 据主备切换 uD NS导流
DNS
50%
机房1
接入层
50%
机房2
接入层
应用层
应用层
缓存层
缓存层
主库
备库
第19页
异地容灾
第20页
异地容灾
u跨地域部署
u秒级切换 中心
cdn1 接入层
cdn2 。。。 cdnN
按用户分流 单元
接入层
中心服务层 缓存层
数据层
数据同步
中心服务层 缓存层
数据层
第21页
可靠性保障 u快 速定位:接入链路
第22页
可靠性保障
u快速定位:接入链路
第23页
可靠性保障
u快 速定位:内部链路
第24页
可靠性保障
u快 速定位 u故障恢复平台 u定期演练 u真实环境
u提 前通知 u不 提前通知
第25页
总结
u单实例层面
u无状态 u有状态 u自动恢复
u集群层面
u自我保护:降级,限流 u快速变更:伸缩,变更
u机 房和地域层面
u切 库,引流 u跨 地域容灾切换
u全局服务
udns故障 u骨 干网故障
第26页
灾难恢复标准
u国 际标准
uSHARE78
u国家标准
u《信息系统灾难恢复规范》GB/T 20988 - 2007
第28页
服务容灾等级
等级
1级 2级 3级 4级 5级 6级
单实例
分钟级 人工恢复
分钟级 人工恢复
秒级 自动恢复
秒级 自动恢复
秒级 自动恢复
秒级 自动恢复
集群层面 机房层面 地域层面 全局服务
不支持
小时级 人工恢复
分钟级 人工恢复
分钟级 人工恢复
秒级 自动恢复
秒级 自动恢复
不支持
不支持
小时级 人工恢复 分钟级 人工恢复 分钟级 人工恢复
秒级 自动恢复
不支持
不支持
不支持
不支持
不支持
分钟级 人工恢复
分钟级 人工恢复
秒级 自动恢复
不支持
不支持
分钟级 人工恢复
秒级 自动恢复
第29页
Thank
You