AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

在线教育领域的机器学习应用 by 邓澍军@猿题库

发布者 machinelearning
发布于 1436145066411  浏览 11404 关键词 机器学习, 人工智能 
分享到

第1页

在线教育领域的机器学习应用

邓澍军 dengsj@yuantiku.com

2015.04.25



第2页

提纲



概述



小猿搜题 之

拍照搜题



猿题库 之

能力预测



猿辅导 之

老师推荐



总结



第3页

90-00年代 SVM

Boosting 随机森林



10年代 Deep Learning



机器学习



70-80年代 神经网络

50-60年代 感知机



第4页

10年代 互联网公司 进军在线教 育



2012移动互联网 在线教育



90年代 网校:远程 教育



00年代 传统教育转 战线上



在线教育



第5页

机器学习邂逅在线教育



机器学习



在线教育



第6页

应用之一:小猿搜题之拍照搜题



第7页

小猿搜题之拍照搜题



第8页

小猿搜题技术框架



图片 预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



第9页

图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



图片类别

 图片特征

 内容多样

• 语数英等10来个科目

 模糊图很多,占30%+

• 光照、扭曲、抖动等

 含有大量公式,数学占50%

• 上下标、分式、根号等



第10页

图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



模糊图片



第11页

图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



公式图片



第12页

图片

预处理 切分

CNN识别 NLP纠错

搜索 返回题目



插图 匹配



图片预处理



第13页

图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



字符切分



第14页

复杂公式切分



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



第15页

卷积神经网络模型



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



Softmax Full Connection

Dropout ReLU

Convolutions Max Pooling Convolutions Max Pooling Convolutions Max Pooling Convolutions



第16页

自动生成标注数据



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



 标注数据自动生成

 场景融合  旋转、拉伸等



第17页

Deep Learning优化



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



 Deep Learning的优化算法多种 多样,模型最终的效果也不尽 相同

 小猿搜题中尝试了多种不同优化 算法

 一般来说,先SGD再采用GaussNewton能够在更短时间内收敛



第18页

Deep Learning加速



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



 用GPU K40训练相比CPU模式 速度能够提升5-6倍

 GPU K40线上预测速度能够提 升2-4倍



第19页

辅助策略——NLP纠错



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



 利用语言模型进行纠错

 平行回边形  平行四边形  电灯炮  电灯泡  入  人  l  1



第20页

辅助策略——插图匹配



图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



 如果题目中的插图匹配(SIFT 等特征),则为加分项



第21页

图片

预处理 切分 CNN识别 NLP纠错 搜索 返回题目



插图 匹配



搜索

 搜索主要模块

 分词  倒排索引  排序

• Learning to Rank: GBRT



第22页

搜索示例



第23页

搜索示例



第24页

小结

 小猿搜题之拍照搜题

 Computer Vision

• 预处理 • 切分 • 训练数据自动生成

 Deep Learning

• 识别

 NLP

• 纠错

 Learning to Rank

• 排序



第25页

应用之二:猿题库学生能力预测



第26页

猿题库学生能力预测



第27页

猿题库学生能力预测(续)



第28页

传统教育模型

 项目反应理论(IRT)

 最简单的IRT模型

 题目难度b

• 标注

 学生能力𝜃

• 模型参数,优化得到



第29页

机器学习模型

 机器学习模型

 Offline model

• Logistic Regression

 Online model

• Follow-the-Regularized-Leader



第30页

特征

 所用特征

 用户相关特征

• 学校,地区,目标考试,……

 题目相关特征

• 知识点,关键词,难度,……

 时序特征

• 距离高考时间,……

 组合特征



第31页

预测分评估

100 90 80 70 60 50 40 30 20 10 0 理数 物理 化学 英语 生物

2014年广东省理科高考



真实平均分 预测平均分



第32页

小结

 传统教育模型

 项目反应理论(Item Response Theory)

 机器学习模型

 Offline model

• LR (Logistic Regression)

 Online model

• FTRL (Follow-The-Regularized-Leader)



第33页

应用之三:猿辅导老师推荐



第34页

猿辅导老师推荐



第35页

猿辅导老师推荐(续)

 推荐系统

 冷启动:Content-Based  Item-Based Collaborative Filtering

 机器学习

 Logistic Factorization Machine  Exploitation and Exploration(E&E)



第36页

总结

 小猿搜题之拍照搜题

 Deep Learning  Computer Vision  Learning to Rank

 猿题库学生能力预测

 传统教育领域的项目反应理论(IRT)  计算广告点击率预测模型LR、FTRL

 猿辅导老师推荐

 推荐系统  LFM,E&E



第37页

未来

 教育领域知识图谱

 学生的最优能力成长之路

 手写识别

 手写拍照搜题  解答题  自动判卷

 高考机器人

 机器自动出题  机器自动做题

 智能芯片  ……



第38页

Q&A? Thanks!

dengsj@yuantiku.com



支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。