第1页
阿里管控体系在双十一的实践
子矜
阿里巴巴中间件高可用架构团队
2016/4/22
第2页
2016-4-22
Microsoft Confidential
第3页
议程
阿里管控体系 在双十一的实 践
简介 阿里线上管控体系,应对挑战 关于我们
第4页
阿里中间件技术部
打造世界第一流的中间件
第5页
• 此处添加一个双十一的集体照
第6页
开关预案
阿里线上管控体系
限流
降级&流量调度
第7页
议程
阿里管控体系 的最佳实践
简介 阿里线上管控体系,应对挑战
关于我们
第8页
阿里线上管控体系 限流
第9页
场景一:零点零分小唐下单了
第11页
用户洪峰在双十一
天猫移动端销售金额 突破1亿
140000 笔/秒
销售金额破百亿
75 秒
创建订单当天峰值
38分钟
第12页
洪峰对系统意味着什么
短时大流量的请求 负载
单台服务器超负荷 服务器集群雪崩
交易链路崩溃
第13页
限流的考虑因素
①
允许访问 的速率
② 爆发量
③
爆发间隔 时间
第14页
来到的请求
令牌桶限流
按照每1/r秒的速度向桶中存放1令牌 继续发送
拦截器 存储量为b的令牌桶
丢弃
第15页
双十一零点:小唐下单
Token rate: r
承诺突发量:
第16页
如何把Token Rate转换成通过率?
桶的大小是300个令牌
系统的通过率为1000qps,把一
秒切成10 个格子, 每个格子的 时间窗口为100ms,每个格子 发放 1000/10 个令牌
洪峰场景: • 双十一0点之前,桶里放满
了令牌
• 在双十一0点到0点10分,每秒 的请求超过了10000
第17页
双十一系统表现
第18页
场景二:双十一零点零五分:小唐的 订单状态变为已经发货
第19页
系统间的回调洪峰
前5分钟包裹
处理量是484万
前38分钟包裹
处理量是3754
万
数据
特性
有时间间隔 调用量大 允许有延迟
第20页
漏桶算法
到达速率
丢弃/排队
漏桶
……
输出速率
第21页
小唐的订单什么时候回调完成?
第22页
限流框架的要素
监控模块
限流决策
规则变更
限流处理
实时监控 收集数据 反馈分析
区分场景 用户洪峰 回调洪峰 系统保护
动态调整 令牌桶容量 令牌产生速率
丢弃请求 等待队列
第23页
场景延伸
更多的场景
策略的平衡
限流处理的思考
第24页
阿里线上管控体系
限流
降级&流量调度
第25页
系统的可用性
第26页
系统的可用性
广告 业务
商品 浏览
用户 推荐
会员 系统
库存 查询
物流 系统
优惠 折扣
保险 系统
第27页
系统的可用性
N越大,小唐失败 的概率就越高
第28页
提高可用性的方式
降级弱依 赖应用
剔除应用 局部问题 机器
第29页
上游系统如何发现弱依赖应用不可用
能够在避免调用这个
RT变长
逻辑
异常数增多
3 2 Threads = QPS * RT
线程数随着rt的增长 而增长
第30页
弱依赖应用不可用
梳梳理理强强弱弱依依赖赖
梳理强弱依赖 自动降级
第31页
自动降级框架
第32页
提高可用性的方式
降级弱依 赖应用
剔除应用 局部问题 机器
第33页
应用局部不可用
分布式环境同一个应用不同机器由于硬 件、网络、超卖、程序自身等众多因素 出现服务状态的差异
通过流量调度策略,使分布式服 务具备自愈能力和自我隔离能力
第34页
全局探测与流量调度
hsf
tomcat
……
信息注入spi
应用
cpu
rt
Excepti on ratio
load
Thread Count level 业务 state
Restful Api
hsf
tomcat
……
信息注入spi
应用
cpu
rt
Excepti on ratio
load
Thread Count level 业务 state
Restful Api
hsf
tomcat
……
信息注入spi
应用
cpu
rt
Excepti on ratio
load
Thread Count level 业务 state
Restful Api
采集节点 快速
采集节点
采集节点
采集节点
采集节点
采集节点
流量调度平台状态收
实时
集模块
实时单机 视图
多维聚合 视图
近期归档 报表
第35页
小唐能够顺利下单
用户洪峰
限流排队
应用局部 不可用
全局探测以及 流量调度
回调洪峰
漏桶限速
弱依赖应用 不可用
自动降级
第36页
开关预案
阿里线上管控体系
限流
降级&流量调度
第37页
大促当天
透明的通知流
快速准确执行 标准化变更
第38页
标准化变更
开关管理 分机房执行
开关中心控制台
开关报表 开关分组
开关监控 定时开关
使用 简单
标 准
规 范
操作权限 通知机制
维护 便捷 高效
稳定性开关客户端
开关定义
使用开关
获取开关信 息
更新开关
控制台交 互
权限与日 志
内存态与持久 化
容灾机 制
安全机 制
定义开关 变更开关 校验开关
第39页
透明的通知流
隔离流程 权限控制 透明通知 角色视图 多维报表
第40页
议程
阿里管控体系 的最佳实践
简介 阿里线上管控体系,应对挑战
总结, 回说一下,关于我们
第41页
高可用架构团队 阿里双十一核心保障团队
想知道更多? http://jm.taobao.org/
EDAS
弹性容量
一键建站
异地多活
第42页
企业级信息系统演进的历程
系统上云
• •
传统的垂直的IT架构 自建数据中心
• 高并发性能存在瓶颈 • 没有线性扩展能力 • 数据孤岛 • 各垂直系统相同模块重复开发
无法持续沉淀积累和共享
• 新功能版本开发,更新困难 • 成本高
云上重构
• •
企业级互联网架构PaaS平台 IaaS(公有,专有,混合)
• •
传统的垂直的IT架构 IaaS(公有,专有,混合)
• 高并发性能仍然存在瓶颈 • 扩展能力对大系统不很灵活 • 数据孤岛依然存在 • 各垂直系统相同模块依然重复
开发,无法共享沉淀
• 新功能版本开发,更新仍然难 • 基础设施成本降低
• 高性能分布式计算集群框架,构建一平台 • 系统线性无限扩展,海量并发 • 任意节点链路故障高可靠性 • 数据化自动运维运营 • 数据共享打通,使能大数据 • 业务能力云化,自然沉淀共享公用服务 • 老系统平滑对接,第三方可控开放 • 能力开放可运营 • 新特性版本更新敏捷,创新快 • 低成本
基础设施云化
业务能力云化
第43页
• 旺旺-子矜 • 钉钉 – 子矜
Q&A