AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

大数据分析技术在房产领域的实践 by 蔡白银@链家

发布者 big_data
发布于 1466470259122  浏览 2232 关键词 大数据 
分享到

第1页

大数据在房产领域的实践

蔡白银



第2页

2016-4-22



第3页

自我介绍

• 蔡白银

毕业于北京大学,在大数据数据 挖掘领域有多年的经验, 目前就 任链家网大数据架构师,负责链 家网大数据体系的建设,运用大 数据挖掘大数据价值助力房产领 域的O2O,提升房屋买卖体验, 使买卖房屋不再难



第4页

自我介绍

• 蔡白银

毕业于北京大学,在大数据数据 挖掘领域有多年的经验, 目前就 认链家网大数据架构师,负责链 家网大数据体系的建设,运用大 数据挖掘大数据价值助力房产领 域的O2O,提升房屋买卖体验, 使买卖房屋不再难



第5页

提纲

• 蜀道难难于上青天 • 行困难而正确之事 • 往事可鉴未来可追



第6页

蜀道难难于上青天

• 客少、物少———————数据来源少 • 买卖行为少周期长———行为数据稀少 • 线下行为重容易分流—线上线下难打通 • 业务复杂性—-————分析挖掘无坦途



第7页

提纲

• 蜀道难难于上青天 • 行困难而正确之事

• 往事可鉴未来可追



第8页

提升服务品质的环节

• 房源真实无虚假 • 合适的房屋给合适的人 • 房屋买卖不再难 • 缩短周期见效率 • 减少资源浪费



第9页

效果概述

1000万/天



数百万/天



数T级别/天



6000万



2300万



第10页

效果概述



经纪人 91/150维



33/81维



27/72维



业主/房 54/319维



23/55维



客户 32/107维



升30%



第11页

技术架构



应用 挖掘

分析 计算



市场报告解读 客源解读 A房 推荐 业主端 链家指数 数据频道 用户画像 房源画像 小区画像 业主画像 经纪人画像 房屋估价



BI Web可视化 Data Service



OLAP



RDBS



Nginx



Hue Adhoc



DW Hive



Meta



HBase



存储 计算



Hadoop



ETL



数据



DS



采集 SE TE Link



MR Spark Yarn

HDFS

Flume

Collector

Kafka

hdic log文件 日志流



调度 认证 系统 权限

安全

手动

其他



第12页

用户画像

• e统la上sticsearch,hbase,spark等成熟的开源数据存储、处理系 • e全la量st索ic引se以ar及ch热存数储据、索引融合层全量数据,线上用户行为数据 • hbase存储线上用户行为数据 • 线sp上ar日k完志成流批处量理和并流传式送数至据el处as理tic,se包ar括ch线集下群全。量/增量数据导入,



第13页

用户画像



第14页

用户画像

KV查询:如通过手机号查询客源的一切数据 数据筛选:如筛选西山商圈,近三个月新增房源的小区名、挂牌价和房屋状态,要求房屋必须是精装修或大于3居室 OLAP查询: 如查询海淀区2015年不同月份客源带看次数的分布



第15页

用户画像



区域特征倾向



居室特征分布



用户特征倾向



面积特征倾向



价格特征分布



第16页

行困难而正确之事



应用 挖掘

分析 计算



市场报告解读 客源解读 A房 推荐 业主端 链家指数 数据频道 用户画像 房源画像 小区画像 业主画像 经纪人画像 房屋估价



BI Web可视化 Data Service



OLAP



RDBS



Nginx



Hue Adhoc



DW Hive



Meta



HBase



存储 计算



Hadoop



ETL



数据



DS



采集 SE TE Link



MR Spark Yarn

HDFS

Flume

Collector

Kafka

hdic log文件 日志流



调度 认证 系统 权限

安全

手动

其他



第17页

房屋估价

90%



第18页

房屋估价



经纪人



业主/房



房屋价格



客户



第19页

房屋估价



第20页

房屋估价



估价准确:diff <= 5%



第21页

房屋估价



第22页

房屋估价



第23页

房屋估价

DataSource1 DataSource2 …. DataSourceN



ExtractFeature ExtractFeature FeatureTransform FeatureTransform

LOF-样本异常点处理



多模型并举 ANN

Hedonic GBDT



Best Model Evaluate Ensemble



第24页

房屋估价

• LOF(Local Outlier Factor)算法是一种机遇密度的异常检测算法, • 通过计算每个实例相对于其邻居的孤立情况来判断这个实例是否为离群点 • 为每一个每个实例计算一个异常分数,这个分数称为实例的局部离群因子(LOF) • 较高的LOF值指示这个实例可能是异常的,较低的LOF值指示这个实例可能是正常的



第25页

提纲

• 蜀道难难于上青天 • 行困难而正确之事 • 往事可鉴未来可追



第26页

往事可鉴未来可追

链家金融 智能家电 链家装修 家政服务



亿万 房产 O2O 服务 平台 打造 住的 入口



3D看房 VR看房 社区服务 海外置业



支持文件格式:*.ppt, *.pptx, *.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。