第1页
机器学习@美团
——吃喝玩乐中的算法问题
⺩王 栋 wangdong07@meituan.com
第2页
概要
•O2O行业及美团简介
背景
•机器学习在用户端的应用 算法应用 •机器学习在商户端的应用
•算法应用八大“坑”
总结
第3页
什么是O2O?
O2O
(Online
to
Offline)
=
本地服务(LBS)
+ 线上连接
平台
用户需求信息结构化
通过信息流动,减少物理流动
第4页
O2O⾏行业应⽤用图谱
来源:TalkingData及品途网 2014
O2O移动应用行业报告
第5页
来源:TalkingData及品途网 2014
O2O移动应用行业报告
第6页
垂直 vs.⽔水平(平台)
什么样的领域有机会?
用户获取成本 vs. 用户价值
酒店 机票
门票
渗透率 团购
微信 刷牙
打车 电影票
外卖
买房 租房
挂号 租⻋车
拼车 家政
频度 美业
All
That
Is
Solid
Melts
into
Air.
——
Karl
Marx
第7页
美团简介
美团团购
国内最大的本地生 活服务电商平台
美团酒店
国内第二大酒店 分销商
消费频度 vs 行业深度
猫眼电影
国内最大的电 影分销商
美团外卖
国内最大的外 卖平台
第8页
O2O的特点
市场规模大、增长速度快
美团网交易额(亿元)
1400
1200
1000
800
600
400
200
0
2010
2011
2012
2013
2014
2015e
O2O
vs 网络电商
共同:双边市场
差异:LocaEon
based,
消费距离受限
懒人经济:质优价廉
低价格
高品质
低成本
高效率
低毛利
高科技
第9页
移动化
美团移动交易占比
80
70
60
50
40
30
20
10
0
2011
2012
2013
2014
2014年12月:美团网拥有1亿多活跃移动用户, 移动端贡献>90%的交易额
第10页
场景化、即时化
分品类持券80%距离
分品类持券时⻓长
4500
4000
3500
3000
2500
2000
1500
1000
500
0
北广天福杭无合成
京州津州州锡肥都
美容美发 休闲娱乐 生活服务 运动健身 摄影写真 电影 酒店 美食
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
美团持券时⻓长及消费距离
0hr
3hr
6hr
9hr
12hr
15hr
18hr
21hr
day:1
day:3-‐3.5
day:5-‐10
电影 酒店 美发/美容/美体 美食 摄影写真 生活服务 休闲娱乐 运动健身 所有品类
第11页
O2O平台
商户
• 动态触达用户
• 提供丰富产品
用户
• 个性化
• 场景化
• 即时化
平台
• 获取用户/商户
• 匹配供给需求
传统模型:边际收益递减
平台模型:双边市场的网络效应=》边际收益递增 =》平台价值
第12页
平台:⽤用户端
吸引访 问/再访
• 自然流量 • 站外广告 • 主动推送
促成购 买
• 信息聚合 • 用户行为引导 • 运营拉新
提升多 次访购
• 搜索、浏览主动 引导
• 个性化推荐 • 跨品类转新
第13页
平台:商户端
• 销售拜访
商机发现 路线优化
商家入住 • 预测可能入住商户 及上单 • 自动写单提高上单效率
运营
• 风控防刷单 • 销量预估
第14页
概要
•O2O及美团介绍
背景
•机器学习在用户端的应用 算法应用 •机器学习在商户端的应用
•算法应用八大“坑”
总结
第15页
机器学习@美团
• 销量预估 • 电影票房预估
• ……
商户
• 动态触达用户
• 提供丰富产品
• 运营拉新
• 推送引导 • 流量转化
用户
• 个性化
• 场景化
• 即时化
平台
• 获取用户/商户
• 匹配供给需求
第16页
⽤用户端:运营拉新
背景:首购-‐>留存,吸引已注册用户完成首购
目标:少花钱,多办事
第17页
⽤用户端:运营拉新
方法:新用户画像 SVM分类
• 准确率:75%
• 召回率:68%
效果
• 拉新单位成本下降35%
单位用户营销成本=总花销/总新客数
• 总开支节省30%
第18页
⽤用户端:推送引导
背景:对不活跃用户发个性化推送消息,提升访问及购买
目标:提高用户转化,减少打扰用户
方法:
选择对象
发出消息
打开消息
• 选择准 则优化
• 目标:发出率 • 固定时间拉取改
为灵活推送
• 发送时机优化, 考虑用户的历史 联网时间,当前
位置
• 目标:打 开率
• 动态文案 (todo)
发出率提高100%+ 打开率提高21%
效果:有效降低了对用户的打扰。
浏览/购买
• 目标:转化 率
• 类似推荐的 优化方式, 提高访购率
综合转化率提高94%
第19页
⽤用户端:流量转化
搜索
意图
浏览强度 推荐
流量 规模
第20页
⽤用户端:流量转化
快速交互
位置
用户偏好
场景
第21页
推荐和搜索框架的统⼀一
搜索推荐平台
同义词挖掘
专名识别
新词识别
user profile 挖 掘
deal/poi profile 挖掘
query/deal 的 topic model
……
应 用 Poil化列表浏览 层
首页推荐
Query补全
排 序 人工规则干预 层 模 型 CTR model 层
排序机制 Action model
准 入 相关性模型 层
触
发 层
Query Retrieval
业务规则 User Retrieval
数 据 通用数据 层
个性化数据
关系数据
评估框架
模型训练
数据清洗
特征抽取
数据流
……
第22页
服务架构演进
Impression Log
Order/Click Log
Deal DB
Flume Agent
API Control Service
feature Labeled Data
Model 1 Model 2
…
Online train
Offline train
feature monitor
第23页
基于spark的离线训练平台
应
用 API
层
Command
模
型 LR
层
SVM
GBDT
Topic Model
选特 择征
Mutual
InformaEon
一特 化征
归
MinMax
Chi
squared
Standard
分级日志 高度可 配置
模型评估
第24页
美团搜索
查询补全
历史查询词
结果页
第25页
搜索系统实践
数据获取时效性 清洗提高准确性
系统架构调整 增加吞吐量 改进协议
查询引导 同义词挖掘 团单品类映射
特征工程 LR + GBDT 融合效果
实时品类偏好 实时下单位置 模型在线更新
基础数据获取
架构支撑
查询分析
重排序
实时化
第26页
查询分析
查询分析面临的问题
ü 用户意图多元化
• 精确/模糊查询 • 领域多:寻找吃喝玩乐,购物,旅
游,住宿…
ü 用户查询自然语言化 ü 检索基于字面匹配,缺乏语义
扩展 ü 语义漂移
分词/归一 化
查询纠错
意图识别 查询分类 紧密度计算 Term赋权 语义扩展
召回及 排序策略
Query suggestion
热搜词
相关搜索
第27页
意图识别
搜索意图歧义示例及解决方案
找门票还是酒店?
通过意图分类,将“旅 游”意图的POI排序提前
策略类型 及占比 改进前
改进后
商 品 商 地 酒 旅 商 电 复合 其 家 类 圈 标 店 游 品 影 意图 他 12% 8% - 3% - - - <1% - 76%
21% 17% 7% 5% 6% <2% <1% 4% 9% 28%
第28页
团单品类细分
品类内差异对用户造成的困扰
“咖啡/酒吧/蛋糕”在后 台配置为同一个类目下的 品类 通过文本分类拆分子品类, 或者说打标签
人工定义体系+SVM学习,构建覆盖全面合理的品类类目,更好满 足用户精确品类检索的意图
第29页
美团频道筛选
第30页
频道筛选实践
数据清洗 在线获取训练 所需特征
新单推荐
使用位置信息
使用位置信息 引入排序模型
Agdrdoivtievse 使用位置 分品类细化
实时品类偏好 实时下单位置 实时特征更新
数据及特征工程
冷启动
粗排序
重排序
实时化
第31页
重排序:特征
deal特征
•C TR/CVR
•C VR
•折扣力度
•是否新单
•是 否促销
deal-‐user特征
•商 圈
•品 类
•价 格
poi特征
•#评论数
•# 有图评论/优质评论
•C TR/CVR/CXR
•CPR
user特征
•终端类型
•地理位置
•消费水平
•品类偏好
poi-‐user特征
•当前距离
•历史距离
•最近点击/下单/支付
•历史点击/下单/支付
第32页
重排序:框架
详情页特有特 征
列表页特有特 征
数值类特征
GBDT
LR
Additive Groves
rank
第33页
数据实时化
• 预测结果随数据更新而变化
• 2小时销量数据
• 2小时内数据预测用户实时偏好
• 进入列表页请求用户地理位置,下单率提升3%
• 模型天级更新
• Online
learning继续尝试中
第35页
美团推荐
其他展位:
搜索无结果推荐,购买后推荐,评价后推 荐,附近推荐
第36页
推荐系统实践
user/ item cf 相似性调整
附近热单 异地浏览 时间上下文
销量预估 用户分群 地理位置偏好
经典算法改进
上下文筛选
冷启动
LR GBDT 融合效果
重排序
特征实时化 偏好实时化 算法实时化
实时化
hap://tech.meituan.com/mt-‐recommend-‐pracEce.html
第37页
⽤用户冷启动
• 行为少,找不到有意义的相似用户
• LocaEon,locaEon,locaEon
• 基于地理位置计算用户相似性:作为替
补策略,效果一般
• 浏览地附近热单,作为上下文信息使用
第38页
加⼊入context
• 附近热单
• “本地人热单”
• “本地热单”
下单率
baseline
20140609
20140610
20140611
20140612
20140613
20140614
20140615
20140616
20140617
20140618
20140619
20140620
20140621
20140622
20140623
20140624
20140625
20140626
20140627
20140628
20140629
20140630
hot_for_local
第39页
⽤用户端:流量转化
统一框架,快速迭代,经验共享
搜索
意图
浏览强度
推荐
流量 规模
第40页
商户端:不仅是算法挑战
训练数据规模小
标注标准复杂主 观
单用户特征不可 用
多团队
合作
挖掘可扩展的特征
采用非线性、鲁棒模型
复杂目标进行模型分解
交叉验证减少噪音
人机结合提取稳定因素
使用用户统计特征
协调各方预期和利益
第41页
团购单销售额预估
背景:在线deal数量众多,需要关注deal的质量
目标:评估deal的质量
方法:
分解问题
• 以销售额来代表质量
• 再分解销售额
根据问题特征/模型并迭代
效果:
1. 访购率预测准确率(R2):
0.8
2. 价格特征权重符合产品预期
hap://tech.meituan.com/mt-‐mlinacEon-‐how-‐to-‐ml.html
第42页
电影票房预测
背景:电影票房预测数据可以
指导片方发行/院线排片
目标:得到可用票房预测
机遇:
猫眼30%+市占的数据
用户其他行为及消费记录 挑
战:
东西方人情世故不同
演员/导演的名气不靠谱
度量搜索/社交媒体效果不理想
第43页
概要
•O2O及美团介绍
背景
•机器学习在用户端的应用 算法应用 •机器学习在商户端的应用
•算法应用八大“坑”
总结
第44页
学习算法应⽤用⼋八⼤大 “坑”
确实需要上算法么?
星际可以穿越,但特征不能!
算法一定要酷炫
算法准确率不到90%就是耍流氓?
重算法、轻速度(响应速度/迭代速度)
上线就是大功告成
线上AB定⼀一切 统计分析实时化
第46页
美团技术沙龙
筹办中,敬请关注
标题请注明 机器学习算法/架构工程师, 简历投递地址
相关问题探讨及咨询,
个人微信号:dwang97