AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

机器学习@美团——吃喝玩乐中的算法问题机器学习 by 王栋

发布者 machinelearning
发布于 1436144839741  浏览 7710 关键词 机器学习, 人工智能 
分享到

第1页

机器学习@美团
 

——吃喝玩乐中的算法问题
 

⺩王 栋 wangdong07@meituan.com



第2页

概要

•O2O行业及美团简介

背景

•机器学习在用户端的应用 算法应用 •机器学习在商户端的应用

•算法应用八大“坑”

总结



第3页

什么是O2O?


 
 
 
 O2O
 (Online
 to
 Offline)
 
  
  
 =
 本地服务(LBS)
 + 线上连接
 



平台



用户需求信息结构化
 



通过信息流动,减少物理流动
 



第4页

O2O⾏行业应⽤用图谱

来源:TalkingData及品途网 2014
 O2O移动应用行业报告



第5页

来源:TalkingData及品途网 2014
 O2O移动应用行业报告



第6页

垂直 vs.⽔水平(平台)



什么样的领域有机会?



用户获取成本 vs. 用户价值



酒店 机票



门票



渗透率 团购



微信 刷牙



打车 电影票



外卖



买房 租房



挂号 租⻋车



拼车 家政



频度 美业

All
 That
 Is
 Solid
 Melts
 into
 Air.
 
  ——
 Karl
 Marx



第7页

美团简介

美团团购 

 

国内最大的本地生 活服务电商平台 

美团酒店 


 

国内第二大酒店 分销商 

消费频度 vs 行业深度



猫眼电影 

国内最大的电 影分销商 

美团外卖 


 

国内最大的外 卖平台 



第8页

O2O的特点

市场规模大、增长速度快
 

美团网交易额(亿元)

1400
  1200
  1000
 

800
  600
  400
  200
 

0
  2010
  2011
  2012
  2013
  2014
  2015e
 



O2O
 vs 网络电商
  共同:双边市场
  差异:LocaEon
 based,

消费距离受限
 



懒人经济:质优价廉



低价格



高品质
 



低成本



高效率
 



低毛利



高科技



第9页

移动化



美团移动交易占比

80
  70
  60
  50
  40
 



30
 



20
 

10
 

0
  2011
 



2012
 



2013
 



2014
 



2014年12月:美团网拥有1亿多活跃移动用户, 移动端贡献>90%的交易额



第10页

场景化、即时化



分品类持券80%距离



分品类持券时⻓长



4500
  4000
  3500
  3000
  2500
  2000
  1500
  1000
 

500
  0
 

北广天福杭无合成

京州津州州锡肥都



美容美发 休闲娱乐 生活服务 运动健身 摄影写真 电影 酒店 美食



60.00%
  50.00%
  40.00%
  30.00%
  20.00%
  10.00%
  0.00%
 



美团持券时⻓长及消费距离



0hr
  3hr
  6hr
  9hr
  12hr
  15hr
  18hr
  21hr
  day:1
  day:3-­‐3.5
  day:5-­‐10
 



电影 酒店 美发/美容/美体 美食 摄影写真 生活服务 休闲娱乐 运动健身 所有品类



第11页

O2O平台



商户
  • 动态触达用户
  • 提供丰富产品
 



用户
  • 个性化
  • 场景化
  • 即时化
 



平台
  • 获取用户/商户
  • 匹配供给需求
 


 

传统模型:边际收益递减
  平台模型:双边市场的网络效应=》边际收益递增 =》平台价值
 



第12页

平台:⽤用户端



吸引访 问/再访



• 自然流量 • 站外广告 • 主动推送



促成购 买



• 信息聚合 • 用户行为引导 • 运营拉新



提升多 次访购



• 搜索、浏览主动 引导

• 个性化推荐 • 跨品类转新



第13页

平台:商户端



• 销售拜访

商机发现 路线优化



商家入住 • 预测可能入住商户 及上单 • 自动写单提高上单效率



运营



• 风控防刷单 • 销量预估



第14页

概要

•O2O及美团介绍

背景

•机器学习在用户端的应用 算法应用 •机器学习在商户端的应用

•算法应用八大“坑”

总结



第15页

机器学习@美团



• 销量预估 • 电影票房预估
  • ……
 

商户
  • 动态触达用户
  • 提供丰富产品
 



• 运营拉新
  • 推送引导 • 流量转化
 

用户
  • 个性化
  • 场景化
  • 即时化
 



平台
  • 获取用户/商户
  • 匹配供给需求
 


 



第16页

⽤用户端:运营拉新

背景:首购-­‐>留存,吸引已注册用户完成首购
  目标:少花钱,多办事



第17页

⽤用户端:运营拉新

方法:新用户画像 SVM分类
  • 准确率:75%
  • 召回率:68%
 

效果
  • 拉新单位成本下降35%
 

单位用户营销成本=总花销/总新客数 
 

• 总开支节省30%
 



第18页

⽤用户端:推送引导

背景:对不活跃用户发个性化推送消息,提升访问及购买
  目标:提高用户转化,减少打扰用户
  方法:



选择对象



发出消息



打开消息



• 选择准 则优化



• 目标:发出率 • 固定时间拉取改

为灵活推送

• 发送时机优化, 考虑用户的历史 联网时间,当前

位置



• 目标:打 开率

• 动态文案 (todo)



发出率提高100%+ 打开率提高21%

效果:有效降低了对用户的打扰。



浏览/购买

• 目标:转化 率

• 类似推荐的 优化方式, 提高访购率

综合转化率提高94%



第19页

⽤用户端:流量转化

搜索

意图

浏览强度 推荐



流量 规模



第20页

⽤用户端:流量转化



快速交互
 



位置
 



用户偏好
  场景
 



第21页

 



推荐和搜索框架的统⼀一

搜索推荐平台



     

  同义词挖掘 

  专名识别 

 

新词识别   

user profile 挖 掘   

deal/poi  profile 挖掘 

 

query/deal 的 topic model 

  …… 

 



   



     



应 用 Poil化列表浏览  层



首页推荐 



Query补全 



排 序 人工规则干预  层 模 型 CTR model  层



排序机制  Action model 



准 入 相关性模型  层







发 层



Query Retrieval 



业务规则  User Retrieval 



数 据 通用数据  层



个性化数据 



关系数据 



    评估框架 

  模型训练 

  数据清洗 

 

特征抽取   

数据流   

……   



第22页

服务架构演进



Impression Log

Order/Click Log

Deal DB



Flume Agent



API Control Service



feature Labeled Data



Model 1 Model 2



Online train



Offline train



feature monitor



第23页

基于spark的离线训练平台



 





用 API 





Command 





型 LR 





SVM 



GBDT 



Topic  Model 



 



选特 择征



Mutual
 InformaEon 



一特 化征





MinMax 



Chi
 squared
 

Standard 



分级日志  高度可  配置 

 

模型评估 



     



第24页

美团搜索



查询补全



历史查询词



结果页



第25页

搜索系统实践



数据获取时效性 清洗提高准确性



系统架构调整 增加吞吐量 改进协议



查询引导 同义词挖掘 团单品类映射



特征工程 LR + GBDT 融合效果



实时品类偏好 实时下单位置 模型在线更新



基础数据获取
  架构支撑
 



查询分析
 



重排序
 



实时化
 



第26页

查询分析

查询分析面临的问题 

ü 用户意图多元化 

• 精确/模糊查询  • 领域多:寻找吃喝玩乐,购物,旅

游,住宿… 



ü 用户查询自然语言化  ü 检索基于字面匹配,缺乏语义

扩展  ü 语义漂移 



分词/归一 化 

查询纠错 



意图识别  查询分类  紧密度计算  Term赋权  语义扩展 



召回及  排序策略 



Query suggestion 



热搜词 



相关搜索 



第27页

意图识别 

搜索意图歧义示例及解决方案 

找门票还是酒店?   



通过意图分类,将“旅 游”意图的POI排序提前 



策略类型  及占比  改进前 

改进后 



商  品  商  地  酒  旅  商  电  复合 其  家  类  圈  标  店  游  品  影  意图  他  12%  8%  -  3%  -  -  -  <1%  -  76% 

21%  17%  7%  5%  6%  <2%  <1%  4%  9%  28% 



第28页

团单品类细分 

品类内差异对用户造成的困扰 

“咖啡/酒吧/蛋糕”在后 台配置为同一个类目下的 品类  通过文本分类拆分子品类, 或者说打标签 

人工定义体系+SVM学习,构建覆盖全面合理的品类类目,更好满 足用户精确品类检索的意图 



第29页

美团频道筛选



第30页

频道筛选实践



数据清洗 在线获取训练 所需特征



新单推荐



使用位置信息



使用位置信息 引入排序模型



Agdrdoivtievse 使用位置 分品类细化



实时品类偏好 实时下单位置 实时特征更新



数据及特征工程
  冷启动
 



粗排序
 



重排序
 



实时化
 



第31页

重排序:特征



deal特征
 

•C TR/CVR
  •C VR
  •折扣力度
  •是否新单
  •是 否促销
 


 

deal-­‐user特征
 

•商 圈
  •品 类
  •价 格
 



poi特征
 

•#评论数
  •# 有图评论/优质评论
  •C TR/CVR/CXR
 

•CPR
 



user特征
 

•终端类型
  •地理位置
  •消费水平
  •品类偏好
 



poi-­‐user特征
 

•当前距离
  •历史距离
  •最近点击/下单/支付
  •历史点击/下单/支付
 



第32页

重排序:框架



详情页特有特 征 

列表页特有特 征 

数值类特征 



GBDT 



LR 

Additive  Groves 



rank 



第33页

数据实时化

• 预测结果随数据更新而变化
  • 2小时销量数据
  • 2小时内数据预测用户实时偏好
  • 进入列表页请求用户地理位置,下单率提升3%
 

• 模型天级更新
  • Online
 learning继续尝试中



第35页

美团推荐

其他展位:
  搜索无结果推荐,购买后推荐,评价后推 荐,附近推荐




第36页

推荐系统实践



user/ item cf 相似性调整



附近热单 异地浏览 时间上下文



销量预估 用户分群 地理位置偏好



经典算法改进
  上下文筛选
 



冷启动
 



LR GBDT 融合效果

重排序
 



特征实时化 偏好实时化 算法实时化

实时化
 



hap://tech.meituan.com/mt-­‐recommend-­‐pracEce.html



第37页

⽤用户冷启动

• 行为少,找不到有意义的相似用户
  • LocaEon,locaEon,locaEon
  • 基于地理位置计算用户相似性:作为替

补策略,效果一般
  • 浏览地附近热单,作为上下文信息使用



第38页

加⼊入context



• 附近热单
  • “本地人热单”
  • “本地热单”


 

下单率



baseline
 



20140609
  20140610
  20140611
  20140612
  20140613
  20140614
  20140615
  20140616
  20140617
  20140618
  20140619
  20140620
  20140621
  20140622
  20140623
  20140624
  20140625
  20140626
  20140627
  20140628
  20140629
  20140630
 



hot_for_local
 



第39页

⽤用户端:流量转化

统一框架,快速迭代,经验共享

搜索

意图

浏览强度

推荐



流量 规模



第40页

商户端:不仅是算法挑战



训练数据规模小
 

标注标准复杂主 观
 

单用户特征不可 用
 


  多团队
  合作


  
 



挖掘可扩展的特征
  采用非线性、鲁棒模型
  复杂目标进行模型分解
  交叉验证减少噪音
  人机结合提取稳定因素
 

使用用户统计特征
 

协调各方预期和利益
 



第41页

团购单销售额预估

背景:在线deal数量众多,需要关注deal的质量
  目标:评估deal的质量

方法:
  分解问题
 

• 以销售额来代表质量
  • 再分解销售额
  根据问题特征/模型并迭代
  效果:
  1. 访购率预测准确率(R2):
 0.8
  2. 价格特征权重符合产品预期
 

hap://tech.meituan.com/mt-­‐mlinacEon-­‐how-­‐to-­‐ml.html



第42页

电影票房预测

背景:电影票房预测数据可以
 


  指导片方发行/院线排片
 

目标:得到可用票房预测

机遇:
  猫眼30%+市占的数据
  用户其他行为及消费记录 挑
  战:
  东西方人情世故不同
  演员/导演的名气不靠谱
  度量搜索/社交媒体效果不理想
  
 



第43页

概要

•O2O及美团介绍

背景

•机器学习在用户端的应用 算法应用 •机器学习在商户端的应用

•算法应用八大“坑”

总结



第44页

学习算法应⽤用⼋八⼤大 “坑”

确实需要上算法么?
  
  星际可以穿越,但特征不能!
  
  算法一定要酷炫
  算法准确率不到90%就是耍流氓?
  重算法、轻速度(响应速度/迭代速度)

上线就是大功告成
  线上AB定⼀一切 统计分析实时化
  
 



第46页

美团技术沙龙
 

筹办中,敬请关注
  
 



标题请注明 机器学习算法/架构工程师, 简历投递地址



相关问题探讨及咨询,
  个人微信号:dwang97



支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。