AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

让机器学习得更快 by 鹿晓亮@科大讯飞

发布者 machinelearning
发布于 1436144994071  浏览 7075 关键词 机器学习, 人工智能 
分享到

第1页

让机器学习得更快

科大讯飞 鹿晓亮



第2页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第3页

计算智能

能存会算



感知智能

能听会说、能看会认



认知智能

能理解会思考



第4页

语音识别的血泪史

1920年代:RadioRex玩具狗 1950年代:Bell Lab Audry系统 6-70年代:DSP、DTW、Viterbi、HMM、DARPA 1980年代:特征提取、大规模语料、DARPA、NIST、Sphinx 1990年代:区分性训练、模型自适应、噪声鲁棒性、HTK 2000年后:更好的区分性训练技术等



第6页

深度学习应用于语音识别



猫 老虎 眼睛 嘴 鼻子 边缘特征 像素特征



第7页

深度学习应用于语音识别

声 语识 学 言别 模 模结 型 型果



HMM



第8页

深度学习应用于语音识别



DNN



RNN



LSTM



第9页

大数据及云计算应用于语音识别

2010年10月28日,“语音云”在业界率先发布,为手机、汽车、智能家电等 终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力



语音云启动仪式



周光召致辞



柳传志致辞



第10页

深度学习和大数据的力量



2012年5月 DNN技术正式上线



86.2%



95%+

2013年7月 DNN并行训练技术 获得突破,数万小时

训练数据



2011年1月 基于上线数据

首次更新

75.3%



2011年8月

81.2% 超大规模语言模型技

术第二次更新



60.2% 2010年10月28日

语音云正式发布

未来几年将语音识别的句正确率提升到90%!



第11页

图像识别同样获得巨大成功



系统 DeepID3 Face++ DeepID2+ DeepID2 DeepID DeepFace-ensemble FR+FCN GaussianFace Betaface.com TL JointBayesian

人眼



方法 DeepLearning

传统方法



效果 99.53% 99.50% 99.47% 99.15% 97.45% 97.35% 96.45% 98.52% 98.08% 96.33% 99.20%



第12页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第13页

超算是人工智能的关键要素

• 深度学习技术的再度崛起,正在颠覆 统计模式识别、机器学习和人工智能 领域,相关专家成为“香饽饽”

• 大数据目前已经和深度学习融合,在 语音识别及图像识别等感知人工智能 方面发挥了巨大作用

• 超算平台是人工智能的基础,提供海 量数据处理、存储以及高性能运算解 决方案



第14页

CPU集群



组成部分



硬件组成



业务支撑



软件调度 支持业务



软件架构



业务场景



硬件架构



大规模数据预处理



数据 预处 理



特征 提取



Ngra m



……



资源调度系统



集群编程框架



Linux & 监控体系 & 运维体系



CPUs、4TB & 6TB、10Gb/s



进行GMM-HMM等经典模型的训练



第15页

GPU集群



组成部分 硬件组成 软件调度 支持业务

业务场景



业务支撑 DNN RNN CNN ……



软件架构 资源调度系统



集群编程框架



硬件架构



Linux & 监控体系 & 运维体系



GPGPUs、IB



并行文件系统



进行Deep Learning相关模型训练,如DNN、RNN、



CNN等



第16页

深度学习平台



业务支撑 DNN



RNN



CNN



HMM



GMM



……



软件架构 资源调度系统 融合调度界面 集群编程框架



硬件架构



Linux & 监控体系 & 运维体系



CPUs,10Gb/s



GPGPUs、IB



程序开 发

任务提 交



集群文件系统



并行文件系统



在硬件层面,全局设计网络方案、融合文件系统;在软件层面,重新设计



并揉和调度界面、使HPC&BigData开发一体化;以提升程序开发效率和流 程执行效率。



第17页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第18页

深度学习应用于语音识别

 Acoustic model

DNN-HMM VS GMM-HMM

 Computation of DNN in SR

model parameters : more than tens of millions speech corpus: more than ten thousand of hours

 Acceleration

CPU – GPU – GPUs



第19页

深度学习应用于语音识别



training corpus

Fig. 2 Model parallelism



training corpus

Fig. 3 Data parallelism



第20页

Tradeoff between Speed-up and Convergence



第21页

传统的异步SGD方案



Central Node



 central node, high bandwidth requirement



 conflict between model latency



GPU0



GPU1



GPU2



GPU3



and efficiency



training corpus

Fig. 4 ASGD applied to multiGPU in a server [4][6]



第22页

环形并行学习策略



③ GPU0



③ ①



② Training corpus



GPU1



GPU3



GPU2



Fig. 5 Ring structure parallel strategy for multiple GPUs



① get mini-batch from training corpus

② receive the model from the previous node, and merge the local gradient to generate a new model

③ send the new model to the next node and train the next mini-batch simultaneously



第23页

环形并行学习策略



GPU0 start point



GPU1



GPU2



GPU3



residual residual



merge time



 asynchronous mode



transmit



time  no central node, one



train time



transmission per mini-batch



for each node, low bandwidth



requirement



 easy to hide transmission



...



and so on



...



Fig. 6 Timing analysis of the RSPS



第24页

环形并行学习策略



GPU0 start point



GPU1



GPU2



GPU3



residual



merge time



overlap of transmission and



transmit time



computation



train

time Tresidual  Tcalc [nTtransmit  (n1)Tmerge ]  0



n(Ttransmit  Tmerge )  Tcalc +Tmerge



residual



...



and so on



...



Fig. 6 Timing analysis of the RSPS



n  Tcalc  Tmerge T  Ttransmit merge



第25页

环形并行学习策略



Twait  max{Tresidual , 0} max{nTtransmit  (n 1)Tmerge  Tcalc , 0}



Speedup  Tsingle  n(Tcalc  Tmerge ) Tmultipe Tcalc  Tmerge  Twait



n



Speedup







 TtTracnaslmc it TTmemrgerege



if



n







Tcalc  Tmerge T  Ttransmit merge



 







else



 



第26页

环形并行学习策略



Speedupmax







Tcalc  Tmerge T  Ttransmit merge



• Tcalc (larger mini-batch, eg. rectified linear units) • Ttransmit (compress transmission data, eg. quantize the gradient) • Tmerge (overlap merging, eg. pipelining, hierarchical merging)



第27页

speedup



实验结论

7 6 5 4 3 2 1 0

the number of GPUs

Fig. 7 Relationship between the speedup and the number of GPUs



第28页

主要内容

深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 深度学习平台对讯飞超脑计划的支撑



第29页

讯飞超脑计划



9,634,057 平方公里



……



英国



16410 平方公里



13.5404 亿人 口



中国



北京



2069.3 万



北纬 38°56'



3.1525



东经 116°20'



亿



北纬 38°53′



国家



日本



1.26亿



美国



377835 平方公里



9,629,091 华盛顿 平方公里



东京



北纬 35°44'



东经 2188 140°50'

平方公里



西经





77°02' 平方公里



• 讯飞超脑的三大研究方向:

– 更加贴近人脑认知机理的人工神 经网络设计,更好的支撑认知智 能的实现

– 实现与人脑神经元复杂度可比的 超大人工神经网络(相当于目前 感知智能网络规模的1000倍)

– 实现基于连续语义空间分布式表 示的知识推理及自学习智能引擎



第30页

讯飞超脑预期成果

实现世界上第一个中文认知智能计算引擎!

• 通过模拟人脑的知识表示达到联想和推理 • 通过自动学习获取新的知识实现不断进化 • 通过自然交互(语音、文字)更加拟人化



第31页

超算平台对讯飞超脑的支持

数千倍训练数据及数千倍模型参数的巨大挑战!

• 更大规模的超算平台集群建设 • 更优的深度学习并行化算法及集群调度算法 • 深度定制的人工神经网络专属芯片



第32页

THANK YOU!



支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。