第1页
在线教育领域的机器学习应用
邓澍军 dengsj@yuantiku.com
2015.04.25
第2页
提纲
概述
小猿搜题 之
拍照搜题
猿题库 之
能力预测
猿辅导 之
老师推荐
总结
第3页
90-00年代 SVM
Boosting 随机森林
10年代 Deep Learning
机器学习
70-80年代 神经网络
50-60年代 感知机
第4页
10年代 互联网公司 进军在线教 育
2012移动互联网 在线教育
90年代 网校:远程 教育
00年代 传统教育转 战线上
在线教育
第5页
机器学习邂逅在线教育
机器学习
在线教育
第6页
应用之一:小猿搜题之拍照搜题
第7页
小猿搜题之拍照搜题
第8页
小猿搜题技术框架
图片 预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
第9页
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
图片类别
图片特征
内容多样
• 语数英等10来个科目
模糊图很多,占30%+
• 光照、扭曲、抖动等
含有大量公式,数学占50%
• 上下标、分式、根号等
第10页
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
模糊图片
第11页
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
公式图片
第12页
图片
预处理 切分
CNN识别 NLP纠错
搜索 返回题目
插图 匹配
图片预处理
第13页
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
字符切分
第14页
复杂公式切分
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
第15页
卷积神经网络模型
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
Softmax Full Connection
Dropout ReLU
Convolutions Max Pooling Convolutions Max Pooling Convolutions Max Pooling Convolutions
第16页
自动生成标注数据
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
标注数据自动生成
场景融合 旋转、拉伸等
第17页
Deep Learning优化
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
Deep Learning的优化算法多种 多样,模型最终的效果也不尽 相同
小猿搜题中尝试了多种不同优化 算法
一般来说,先SGD再采用GaussNewton能够在更短时间内收敛
第18页
Deep Learning加速
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
用GPU K40训练相比CPU模式 速度能够提升5-6倍
GPU K40线上预测速度能够提 升2-4倍
第19页
辅助策略——NLP纠错
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
利用语言模型进行纠错
平行回边形 平行四边形 电灯炮 电灯泡 入 人 l 1
第20页
辅助策略——插图匹配
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
如果题目中的插图匹配(SIFT 等特征),则为加分项
第21页
图片
预处理 切分 CNN识别 NLP纠错 搜索 返回题目
插图 匹配
搜索
搜索主要模块
分词 倒排索引 排序
• Learning to Rank: GBRT
第22页
搜索示例
第23页
搜索示例
第24页
小结
小猿搜题之拍照搜题
Computer Vision
• 预处理 • 切分 • 训练数据自动生成
Deep Learning
• 识别
NLP
• 纠错
Learning to Rank
• 排序
第25页
应用之二:猿题库学生能力预测
第26页
猿题库学生能力预测
第27页
猿题库学生能力预测(续)
第28页
传统教育模型
项目反应理论(IRT)
最简单的IRT模型
题目难度b
• 标注
学生能力𝜃
• 模型参数,优化得到
第29页
机器学习模型
机器学习模型
Offline model
• Logistic Regression
Online model
• Follow-the-Regularized-Leader
第30页
特征
所用特征
用户相关特征
• 学校,地区,目标考试,……
题目相关特征
• 知识点,关键词,难度,……
时序特征
• 距离高考时间,……
组合特征
第31页
预测分评估
100 90 80 70 60 50 40 30 20 10 0 理数 物理 化学 英语 生物
2014年广东省理科高考
真实平均分 预测平均分
第32页
小结
传统教育模型
项目反应理论(Item Response Theory)
机器学习模型
Offline model
• LR (Logistic Regression)
Online model
• FTRL (Follow-The-Regularized-Leader)
第33页
应用之三:猿辅导老师推荐
第34页
猿辅导老师推荐
第35页
猿辅导老师推荐(续)
推荐系统
冷启动:Content-Based Item-Based Collaborative Filtering
机器学习
Logistic Factorization Machine Exploitation and Exploration(E&E)
第36页
总结
小猿搜题之拍照搜题
Deep Learning Computer Vision Learning to Rank
猿题库学生能力预测
传统教育领域的项目反应理论(IRT) 计算广告点击率预测模型LR、FTRL
猿辅导老师推荐
推荐系统 LFM,E&E
第37页
未来
教育领域知识图谱
学生的最优能力成长之路
手写识别
手写拍照搜题 解答题 自动判卷
高考机器人
机器自动出题 机器自动做题
智能芯片 ……
第38页
Q&A? Thanks!
dengsj@yuantiku.com