第1页
让机器学习得更快
科大讯飞 鹿晓亮
第2页
主要内容
深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑
第3页
计算智能
能存会算
感知智能
能听会说、能看会认
认知智能
能理解会思考
第4页
语音识别的血泪史
1920年代:RadioRex玩具狗 1950年代:Bell Lab Audry系统 6-70年代:DSP、DTW、Viterbi、HMM、DARPA 1980年代:特征提取、大规模语料、DARPA、NIST、Sphinx 1990年代:区分性训练、模型自适应、噪声鲁棒性、HTK 2000年后:更好的区分性训练技术等
第6页
深度学习应用于语音识别
猫 老虎 眼睛 嘴 鼻子 边缘特征 像素特征
第7页
深度学习应用于语音识别
声 语识 学 言别 模 模结 型 型果
HMM
第8页
深度学习应用于语音识别
DNN
RNN
LSTM
第9页
大数据及云计算应用于语音识别
2010年10月28日,“语音云”在业界率先发布,为手机、汽车、智能家电等 终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力
语音云启动仪式
周光召致辞
柳传志致辞
第10页
深度学习和大数据的力量
2012年5月 DNN技术正式上线
86.2%
95%+
2013年7月 DNN并行训练技术 获得突破,数万小时
训练数据
2011年1月 基于上线数据
首次更新
75.3%
2011年8月
81.2% 超大规模语言模型技
术第二次更新
60.2% 2010年10月28日
语音云正式发布
未来几年将语音识别的句正确率提升到90%!
第11页
图像识别同样获得巨大成功
系统 DeepID3 Face++ DeepID2+ DeepID2 DeepID DeepFace-ensemble FR+FCN GaussianFace Betaface.com TL JointBayesian
人眼
方法 DeepLearning
传统方法
效果 99.53% 99.50% 99.47% 99.15% 97.45% 97.35% 96.45% 98.52% 98.08% 96.33% 99.20%
第12页
主要内容
深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑
第13页
超算是人工智能的关键要素
• 深度学习技术的再度崛起,正在颠覆 统计模式识别、机器学习和人工智能 领域,相关专家成为“香饽饽”
• 大数据目前已经和深度学习融合,在 语音识别及图像识别等感知人工智能 方面发挥了巨大作用
• 超算平台是人工智能的基础,提供海 量数据处理、存储以及高性能运算解 决方案
第14页
CPU集群
组成部分
硬件组成
业务支撑
软件调度 支持业务
软件架构
业务场景
硬件架构
大规模数据预处理
数据 预处 理
特征 提取
Ngra m
……
资源调度系统
集群编程框架
Linux & 监控体系 & 运维体系
CPUs、4TB & 6TB、10Gb/s
进行GMM-HMM等经典模型的训练
第15页
GPU集群
组成部分 硬件组成 软件调度 支持业务
业务场景
业务支撑 DNN RNN CNN ……
软件架构 资源调度系统
集群编程框架
硬件架构
Linux & 监控体系 & 运维体系
GPGPUs、IB
并行文件系统
进行Deep Learning相关模型训练,如DNN、RNN、
CNN等
第16页
深度学习平台
业务支撑 DNN
RNN
CNN
HMM
GMM
……
软件架构 资源调度系统 融合调度界面 集群编程框架
硬件架构
Linux & 监控体系 & 运维体系
CPUs,10Gb/s
GPGPUs、IB
程序开 发
任务提 交
集群文件系统
并行文件系统
在硬件层面,全局设计网络方案、融合文件系统;在软件层面,重新设计
并揉和调度界面、使HPC&BigData开发一体化;以提升程序开发效率和流 程执行效率。
第17页
主要内容
深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑
第18页
深度学习应用于语音识别
Acoustic model
DNN-HMM VS GMM-HMM
Computation of DNN in SR
model parameters : more than tens of millions speech corpus: more than ten thousand of hours
Acceleration
CPU – GPU – GPUs
第19页
深度学习应用于语音识别
training corpus
Fig. 2 Model parallelism
training corpus
Fig. 3 Data parallelism
第20页
Tradeoff between Speed-up and Convergence
第21页
传统的异步SGD方案
Central Node
central node, high bandwidth requirement
conflict between model latency
GPU0
GPU1
GPU2
GPU3
and efficiency
training corpus
Fig. 4 ASGD applied to multiGPU in a server [4][6]
第22页
环形并行学习策略
③ GPU0
③ ①
② Training corpus
GPU1
GPU3
GPU2
Fig. 5 Ring structure parallel strategy for multiple GPUs
① get mini-batch from training corpus
② receive the model from the previous node, and merge the local gradient to generate a new model
③ send the new model to the next node and train the next mini-batch simultaneously
第23页
环形并行学习策略
GPU0 start point
GPU1
GPU2
GPU3
residual residual
merge time
asynchronous mode
transmit
time no central node, one
train time
transmission per mini-batch
for each node, low bandwidth
requirement
easy to hide transmission
...
and so on
...
Fig. 6 Timing analysis of the RSPS
第24页
环形并行学习策略
GPU0 start point
GPU1
GPU2
GPU3
residual
merge time
overlap of transmission and
transmit time
computation
train
time Tresidual Tcalc [nTtransmit (n1)Tmerge ] 0
n(Ttransmit Tmerge ) Tcalc +Tmerge
residual
...
and so on
...
Fig. 6 Timing analysis of the RSPS
n Tcalc Tmerge T Ttransmit merge
第25页
环形并行学习策略
Twait max{Tresidual , 0} max{nTtransmit (n 1)Tmerge Tcalc , 0}
Speedup Tsingle n(Tcalc Tmerge ) Tmultipe Tcalc Tmerge Twait
n
Speedup
TtTracnaslmc it TTmemrgerege
if
n
Tcalc Tmerge T Ttransmit merge
else
第26页
环形并行学习策略
Speedupmax
Tcalc Tmerge T Ttransmit merge
• Tcalc (larger mini-batch, eg. rectified linear units) • Ttransmit (compress transmission data, eg. quantize the gradient) • Tmerge (overlap merging, eg. pipelining, hierarchical merging)
第27页
speedup
实验结论
7 6 5 4 3 2 1 0
the number of GPUs
Fig. 7 Relationship between the speedup and the number of GPUs
第28页
主要内容
深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑
第29页
讯飞超脑计划
9,634,057 平方公里
……
英国
16410 平方公里
13.5404 亿人 口
中国
北京
2069.3 万
北纬 38°56'
3.1525
东经 116°20'
亿
北纬 38°53′
国家
日本
1.26亿
美国
377835 平方公里
9,629,091 华盛顿 平方公里
东京
北纬 35°44'
东经 2188 140°50'
平方公里
西经
77°02' 平方公里
• 讯飞超脑的三大研究方向:
– 更加贴近人脑认知机理的人工神 经网络设计,更好的支撑认知智 能的实现
– 实现与人脑神经元复杂度可比的 超大人工神经网络(相当于目前 感知智能网络规模的1000倍)
– 实现基于连续语义空间分布式表 示的知识推理及自学习智能引擎
第30页
讯飞超脑预期成果
实现世界上第一个中文认知智能计算引擎!
• 通过模拟人脑的知识表示达到联想和推理 • 通过自动学习获取新的知识实现不断进化 • 通过自然交互(语音、文字)更加拟人化
第31页
超算平台对讯飞超脑的支持
数千倍训练数据及数千倍模型参数的巨大挑战!
• 更大规模的超算平台集群建设 • 更优的深度学习并行化算法及集群调度算法 • 深度定制的人工神经网络专属芯片
第32页
THANK YOU!