第1页
微信复杂网络与应用
Randyling(凌国惠) 2016/04
第2页
2016-4-21
第3页
Question
对腾讯来说,什么数据最珍贵?
第4页
来自业务的需求
• 喜欢听周董歌曲的用户 • 有送儿童节礼物需要的用户 • 高端,守信用的用户
第5页
挖掘过程:数据体系&用户画像
WT层 RST层
MID层 RAW层 原始log
第6页
量的问题
纳尼?才一百万用户?我要二十倍! 分析共同点:社交性质
第7页
微信一度好友
第8页
微信社交网络(局部图)
第9页
社团识别算法简介
第10页
K-派系算法
相邻的 k-cliques Ø 两个 k-cliques 有共同的 k-1 节点
k-clique 社区 Ø k-cliques 的集合: 集合中的 clique 可以通过一系列相邻的 k-clique 相互 到达
k=3
第11页
K-派系算法
相邻的 k-cliques Ø 两个 k-cliques 有共同的 k-1 节点
k-clique 社区 Ø k-cliques 的集合: 集合中的 clique 可以通过一系列相邻的 k-clique 相互 到达
Community 1
Community 2
k=3
第12页
CNM算法(Clauset、Newman、Moore)
第13页
CNM算法(Clauset、Newman、Moore)
第14页
社团识别算法优化
• 算法差异
• K派系精准,复杂度高 • CNM效果差些,复杂度低些
• 存在问题
• 不是同一个圈被拉进去 • 该合并的没有被合并
• 深度优化
• 综合运用各种算法 • 叠加关系链之外的数据 • 特定条件下合并
第15页
社团识别结果
第16页
社团分类模型
第17页
社团分类
同 学
同 学
亲 人
同 学
同 事
第18页
计算难点
• 规模大
• 点:6.97亿+ • 边:千亿+
• 复杂度高
第19页
计算框架——微信资源调度系统
• 微信后台强大 的服务器集群
• 空闲时跑挖掘计算
• 白天是你的, 晚上是我的
第20页
复杂网络应用——广告
• 10多倍扩散 效果依然很好
• 任意标签社交 Lookalike
• 动态投放&闭环处理
第21页
复杂网络应用——社交模型
影响力 模型
拓扑特征 行为特征
关系类型 社交圈子数
微信群数
转发行为 转发影响
亲人 同事 同学
第22页
复杂网络应用——People Rank
• 网络+业务 用户分层
第23页
复杂网络应用——分析
• 微信人生——各关系类型随年龄变化
第24页
复杂网络应用——其它
• 征信、游戏、搜索、推荐……
第25页
深入方向
• 社会层次关系 • 全局计算 • 更多业务应用
第26页
谢谢!