AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

分钟级故障恢复的高可用保障 by 梁耀斌@阿里

发布者 dber
发布于 1450313722208  浏览 4661 关键词 DevOps 
分享到

第1页

分钟级故障恢复的高可用保障 

梁耀斌    QCon/2015-04  第4页

两个例子: 

 

  2011上半年Gmail正常运行时间超过99.99%    2013年微博平台核心服务接口的可用性指标:  全年平均接口请求性能<100ms的比例为99.991%     第5页

衡量系统可用性的指标 

u服 务平均无故障时间MTBF  u服 务平均恢复时间MTTR  u可用性=(MTBF/(MTBF+MTTR))*100%

   第6页

常常碰到的场景 

场景一 

           第7页

常常碰到的场景 

场景二 

           第8页

常常碰到的场景 

场景三 

       第9页

解决系统可用性的手段 

u减少故障出现次数   ——不出问题 

u缩 短故障处理时间   ——尽快解决 

 第10页

天下武功 唯快不破 

u自 动恢复是最快的恢复  u一 键操作 

   第11页

单实例故障 

原因:  u网 络中断  u机 器故障  u程 序崩溃  u。。。 

   第12页

无状态单实例故障 

u健康发现  u负 载均衡  u快速失败  u超 时时间  u控制重试  u自 动恢复 

A1 item.taobao.com VIP1 VIP2 A2  A3 A4  A5     B1  B2  …  B3     DNS 

A6  B4 第13页

有状态单实例故障 

u第 三方仲裁者HA  u数据库的主备切换 

u自 动选举  uP axos  uRaft 

 

 HA Master Slave 第14页

服务集群故障 

原因:  u容 量不足  u变 更引起  u网 络故障  u程 序bug      。。。 

 

       第15页

服务集群故障 

自我保护  u限流——学会拒绝 

u按系统负载限流  u按业务优先限流  u降级——有舍有得  u依赖模块的降级  u业务功能的降级 

 

 第16页

服务集群故障 

快速变更  u容 量伸缩 

u应 用规范  u自动部署  u变更管理  u变 更记录  u快速回滚 

 

 

 第17页

机房层面故障 

u网络核心故障  u接入层故障  u机房断电  u 。。。  以不变应万变——多IDC容灾 

 

     第18页

同城容灾 

u数 据主备切换  uD NS导流 

       DNS

50%

机房1

接入层 50%

机房2

接入层 应用层 应用层 缓存层 缓存层 主库备库第19页

异地容灾 第20页

异地容灾 

u跨地域部署 

u秒级切换      中心  cdn1  接入层 cdn2  。。。 cdnN 按用户分流  单元接入层 中心服务层  缓存层 数据层数据同步 中心服务层  缓存层 

数据层第21页

可靠性保障  u快 速定位:接入链路   第22页

可靠性保障 

u快速定位:接入链路 第23页

可靠性保障 

u快 速定位:内部链路 

 第24页

可靠性保障 

u快 速定位  u故障恢复平台  u定期演练  u真实环境 

u提 前通知  u不 提前通知 

     第25页

总结 

u单实例层面 

u无状态  u有状态  u自动恢复 

u集群层面 

u自我保护:降级,限流  u快速变更:伸缩,变更 

u机 房和地域层面 

u切 库,引流  u跨 地域容灾切换 

u全局服务 

udns故障  u骨 干网故障 

 第26页

灾难恢复标准 

u国 际标准 

uSHARE78 

u国家标准 

u《信息系统灾难恢复规范》GB/T 20988 - 2007 

       第28页

服务容灾等级 等级 

1级  2级  3级  4级  5级  6级 单实例 

分钟级  人工恢复 

分钟级  人工恢复 

秒级  自动恢复 

秒级  自动恢复 

秒级  自动恢复 

秒级  自动恢复 集群层面  机房层面  地域层面  全局服务 不支持 

小时级  人工恢复 

分钟级  人工恢复 

分钟级  人工恢复 

秒级  自动恢复 

秒级  自动恢复 不支持 

不支持 

小时级  人工恢复  分钟级  人工恢复  分钟级  人工恢复 

秒级  自动恢复 不支持 不支持 不支持 不支持 不支持 

分钟级  人工恢复 

分钟级  人工恢复 

秒级  自动恢复 不支持 

不支持 

分钟级  人工恢复 

秒级  自动恢复 第29页

Thank
 You支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。