让机器学习得更快 by 鹿晓亮@科大讯飞

AirJD

没有录音文件

00:00/00:00

加收藏

让机器学习得更快 by 鹿晓亮@科大讯飞

发布者 machinelearning

发布于 1436144994071 浏览 8452 关键词 机器学习, 人工智能

分享到

第1页

让机器学习得更快

科大讯飞鹿晓亮

第2页

主要内容

深度学习在感知智能中获得巨大成功面向感知及认知智能的深度学习平台深度学习平台训练算法并行方式探讨深度学习平台对讯飞超脑计划的支撑

第3页

计算智能

能存会算

感知智能

能听会说、能看会认

认知智能

能理解会思考

第4页

语音识别的血泪史

1920年代：RadioRex玩具狗 1950年代：Bell Lab Audry系统 6-70年代：DSP、DTW、Viterbi、HMM、DARPA 1980年代：特征提取、大规模语料、DARPA、NIST、Sphinx 1990年代：区分性训练、模型自适应、噪声鲁棒性、HTK 2000年后：更好的区分性训练技术等

第6页

深度学习应用于语音识别

猫老虎眼睛嘴鼻子边缘特征像素特征

第7页

深度学习应用于语音识别

声语识学言别模模结型型果

HMM

第8页

深度学习应用于语音识别

DNN

RNN

LSTM

第9页

大数据及云计算应用于语音识别

2010年10月28日，“语音云”在业界率先发布，为手机、汽车、智能家电等终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力

语音云启动仪式

周光召致辞

柳传志致辞

第10页

深度学习和大数据的力量

2012年5月 DNN技术正式上线

86.2%

95%+

2013年7月 DNN并行训练技术获得突破，数万小时

训练数据

2011年1月基于上线数据

首次更新

75.3%

2011年8月

81.2% 超大规模语言模型技

术第二次更新

60.2% 2010年10月28日

语音云正式发布

未来几年将语音识别的句正确率提升到90%！

第11页

图像识别同样获得巨大成功

系统 DeepID3 Face++ DeepID2+ DeepID2 DeepID DeepFace-ensemble FR+FCN GaussianFace Betaface.com TL JointBayesian

人眼

方法 DeepLearning

传统方法

效果 99.53% 99.50% 99.47% 99.15% 97.45% 97.35% 96.45% 98.52% 98.08% 96.33% 99.20%

第12页

第13页

超算是人工智能的关键要素

• 深度学习技术的再度崛起，正在颠覆统计模式识别、机器学习和人工智能领域，相关专家成为“香饽饽”

• 大数据目前已经和深度学习融合，在语音识别及图像识别等感知人工智能方面发挥了巨大作用

• 超算平台是人工智能的基础，提供海量数据处理、存储以及高性能运算解决方案

第14页

CPU集群

组成部分

硬件组成

业务支撑

软件调度 支持业务

软件架构

业务场景

硬件架构

大规模数据预处理

数据预处理

特征提取

Ngra m

……

资源调度系统

集群编程框架

Linux & 监控体系 & 运维体系

CPUs、4TB & 6TB、10Gb/s

进行GMM-HMM等经典模型的训练

第15页

GPU集群

组成部分 硬件组成 软件调度 支持业务

业务场景

业务支撑 DNN RNN CNN ……

软件架构资源调度系统

集群编程框架

硬件架构

Linux & 监控体系 & 运维体系

GPGPUs、IB

并行文件系统

进行Deep Learning相关模型训练，如DNN、RNN、

CNN等

第16页

深度学习平台

业务支撑 DNN

RNN

CNN

HMM

GMM

……

软件架构资源调度系统融合调度界面集群编程框架

硬件架构

Linux & 监控体系 & 运维体系

CPUs，10Gb/s

GPGPUs、IB

程序开发

任务提交

集群文件系统

并行文件系统

在硬件层面，全局设计网络方案、融合文件系统；在软件层面，重新设计

并揉和调度界面、使HPC&BigData开发一体化；以提升程序开发效率和流程执行效率。

第17页

第18页

深度学习应用于语音识别

 Acoustic model

DNN-HMM VS GMM-HMM

 Computation of DNN in SR

model parameters : more than tens of millions speech corpus: more than ten thousand of hours

 Acceleration

CPU – GPU – GPUs

第19页

深度学习应用于语音识别

training corpus

Fig. 2 Model parallelism

training corpus

Fig. 3 Data parallelism

第20页

Tradeoff between Speed-up and Convergence

第21页

传统的异步SGD方案

Central Node

 central node, high bandwidth requirement

 conflict between model latency

GPU0

GPU1

GPU2

GPU3

and efficiency

training corpus

Fig. 4 ASGD applied to multiGPU in a server [4][6]

第22页

环形并行学习策略

③ GPU0

③ ①

② Training corpus

GPU1

GPU3

GPU2

Fig. 5 Ring structure parallel strategy for multiple GPUs

① get mini-batch from training corpus

② receive the model from the previous node, and merge the local gradient to generate a new model

③ send the new model to the next node and train the next mini-batch simultaneously

第23页

环形并行学习策略

GPU0 start point

GPU1

GPU2

GPU3

residual residual

merge time

 asynchronous mode

transmit

time  no central node, one

train time

transmission per mini-batch

for each node, low bandwidth

requirement

 easy to hide transmission

...

and so on

...

Fig. 6 Timing analysis of the RSPS

第24页

环形并行学习策略

GPU0 start point

GPU1

GPU2

GPU3

residual

merge time

overlap of transmission and

transmit time

computation

train

time Tresidual  Tcalc [nTtransmit  (n1)Tmerge ]  0

n(Ttransmit  Tmerge )  Tcalc +Tmerge

residual

...

and so on

...

Fig. 6 Timing analysis of the RSPS

n  Tcalc  Tmerge T  Ttransmit merge

第25页

环形并行学习策略

Twait  max{Tresidual , 0} max{nTtransmit  (n 1)Tmerge  Tcalc , 0}

Speedup  Tsingle  n(Tcalc  Tmerge ) Tmultipe Tcalc  Tmerge  Twait

n

Speedup



 TtTracnaslmc it TTmemrgerege

if

n



Tcalc  Tmerge T  Ttransmit merge

 



else

 

第26页

环形并行学习策略

Speedupmax



Tcalc  Tmerge T  Ttransmit merge

• Tcalc (larger mini-batch, eg. rectified linear units) • Ttransmit (compress transmission data, eg. quantize the gradient) • Tmerge (overlap merging, eg. pipelining, hierarchical merging)

第27页

speedup

实验结论

7 6 5 4 3 2 1 0

the number of GPUs

Fig. 7 Relationship between the speedup and the number of GPUs

第28页

第29页

讯飞超脑计划

9,634,057 平方公里

……

英国

16410 平方公里

13.5404 亿人口

中国

北京

2069.3 万

北纬 38°56'

3.1525

东经 116°20'

亿

北纬 38°53′

国家

日本

1.26亿

美国

377835 平方公里

9,629,091 华盛顿平方公里

东京

北纬 35°44'

东经 2188 140°50'

平方公里

西经

77°02' 平方公里

• 讯飞超脑的三大研究方向：

– 更加贴近人脑认知机理的人工神经网络设计，更好的支撑认知智能的实现

– 实现与人脑神经元复杂度可比的超大人工神经网络（相当于目前感知智能网络规模的1000倍）

– 实现基于连续语义空间分布式表示的知识推理及自学习智能引擎

第30页

讯飞超脑预期成果

实现世界上第一个中文认知智能计算引擎！

• 通过模拟人脑的知识表示达到联想和推理 • 通过自动学习获取新的知识实现不断进化 • 通过自然交互（语音、文字）更加拟人化

第31页

超算平台对讯飞超脑的支持

数千倍训练数据及数千倍模型参数的巨大挑战！

• 更大规模的超算平台集群建设 • 更优的深度学习并行化算法及集群调度算法 • 深度定制的人工神经网络专属芯片

第32页

THANK YOU!