AirJD 焦点
AirJD

没有录音文件
00:00/00:00
加收藏

初创公司构建数据分析平台 by 桑文锋@SensorsData

发布者 docker
发布于 1461028166375  浏览 6371 关键词 创业, 路演 
分享到

第1页

初创公司构建数据分析平台

桑文锋@SensorsData



第2页

Why, What & How

·数据分析平台的概念 ·现有解决方案 ·推荐方案



第3页

数据分析的目的

Why



运营监控

·上个月销售表现如何? ·近期活跃用户数变化趋势?



产品改进

·用户粘性如何? ·新功能的使用情况怎样?



3 商业决策支持

·是否要开展天津地区业务?



第4页

数据分析平台的概念

What



第5页

如果现状是...

排队等待某个工程师跑数据?



第6页

工程师老王负责处理所有跑数据的需求



上个月的活动 效果究竟如何?



写了半天需求,又 是Excel又是MRD,老王

竟说看不懂!!!



这些数据都 什么意思?和我理解的

不一样啊…



��

麻烦又描述不清的 需求接踵而至……



💦 数据竟然

降了!肯定是跑的有

问题吧!?



什么时候才能 轮到我…



跑个数据这么 麻烦。算了,还是拍脑

袋吧……



第7页

如果现状是...

每个需求都是一个新的脚本?



第8页

工程师老王负责处理所有跑数据的需求, 直到有一天…



花了两天才写完 一个脚本……

��



半个月后…

💦



什么鬼? 自己都看不懂了!



再见!我要去看 更大的世界……



这么多脚本!看 都看不懂!?怎么维

护!?坑啊!

接手的小李



第9页

如果现状是...

只有仪表盘可看?



第10页

公司终于有了数据仪表盘...



真是高大上!



200 150 100

50 0 April

明明昨天 一个机房挂了,但是流

量还在涨……



100 75 50 25

May June July

用户量下跌 了,但是根本看不出来问题

来自哪里……



这些泛泛的指标很难 指导决策,不看也罢……



第11页

人人都是数据分析师

Self-service Data Analytics

让参与业务的人真正掌握数据!

💪



第12页

数据分析平台——

· 适应公司的快速发展 · 将繁杂数据抽象为简洁的模型 · 让每个业务参与者能够用数据驱动决策 · 数据可反馈于线上



第13页

数据分析解决方案



现有常用方案



1 第三方统计服务 2 业务数据库写SQL 3 基于日志写统计脚本



第14页

现有常用方案

1 第三方统计服务



第15页

现有常用方案

1 第三方统计服务



第16页

现有常用方案

1 第三方统计服务



第17页

现有常用方案

1 第三方统计服务

👍 好处

· 使用简单 · 免费



第18页

现有常用方案

1 第三方统计服务

👎 不足

·无法与业务数据交叉分析 ·分析能力较弱,无法覆盖深度分析 ·指标无法自定义 ·数据无法取回 ·数据安全存在顾虑



第19页

现有常用方案

2 业务数据库写SQL



业务数据库



SQL



导出数据



分析处理



第20页

现有常用方案

2 业务数据库写SQL

👍 好处

·可根据需求灵活定制 ·数据准确、实时 ·可分析业务数据



第21页

现有常用方案

2 业务数据库写SQL

👎 不足

·历史状态被覆盖

时间



业务数据库 数据仓库



第22页

现有常用方案

2 业务数据库写SQL

👎 不足

·计算能力有限,无法水平扩展 ·开发维护代价大

‣ 需额外开发工作量 ‣ 查询逻辑随着业务的演进复杂化,不好维护(SQL、脚本、结果数据) ‣ 和业务数据无法解耦 ‣ 随分析需求增加字段、数据表



第23页

现有常用方案

3 基于日志写统计脚本



第24页

现有常用方案

3 基于日志写统计脚本

👍 好处

· 与业务数据库解耦



第25页

现有常用方案

3 基于日志写统计脚本

👎 不足

·开发效率低(2天/个,重复开发) ·准确性无法保证 ·计算能力有限 ·有技术门槛

‣ 打好日志是一件很难的事情 ‣ 数据流难以管理



第26页

数据分析平台的推荐方案

How



数据记录



数据传输 (实时/批量)



数据建模 /存储



数据统计/ 分析/挖掘



数据可视 化/反馈



第27页

1 数据记录

·生成高质量的源数据 ‣全 ‣准



第28页

1 数据记录



·数据类型 ‣行为数据 ‣业务数据:用户、订单、库存

·数据规范 ‣行为数据:操作系统、应用版本、是否WIFI、 屏幕尺寸、设备型号、商品ID、商品价格等。 ‣用户属性数据:性别、年龄、婚姻状况、注册 时间、收入级别、是否有小孩等。



行为数据

e.g. 浏览、点击、 各种交互行为



+



业务数据

e.g. 用户、订 单、库存



第29页

1 数据记录

·数据格式 ‣非格式化文本 Vs. Json、Thrift、Protocol Buffer、Avro

·数据采集点 ‣尽量在后端打 ‣前端打(压缩、加密、批量)

·数据落地 ‣写网络 ‣写本地文件



第30页

2 数据传输



·需关注的问题 ‣时效性(实时?批量?) ‣可靠性(丢?重?) ‣扩展性



·方案 ‣FTP ‣Kafka ‣Scribe、Flume



第31页

3 数据建模/存储

·数据模型抽象

‣Event: - Event Type + Properties + UserID

‣User Profile: - UserID + Properties(年龄、所在地、Tag等)

·Event:记录所有的历史状态变更



第32页

3 数据建模/存储

·ETL (Extract, Transform and Load) ‣ID-Mapping ‣Merge ‣批量 or 实时



第33页

3 数据建模/存储

·存储 ‣单机文件 ‣关系型数据库(Mysql、Vertica、 Teradata) ‣Nosql (HBase、MongoDB) ‣HDFS



第34页

4 数据统计/分析/挖掘



·批处理



·交互式



第35页

4 数据统计/分析/挖掘

·OLAP (Online Analytical Processing)

‣维度 ‣指标 ‣数据魔方



销售额



北京 天津

城市



注册⽤用户



成单量

上海 Mac OS



Android

iO操S 作系统



第36页

4 数据统计/分析/挖掘





·分析模型





‣漏斗





‣留存



110 55



54% 120 73%



86%



88 76



访问



注册 加⼊入购物⻋车 购买



第37页

5 数据可视化/反馈

·展现方式 ‣曲线 ‣柱状图 ‣饼状图 ‣热力图 ‣地域分布



图⽚片来源:https://www.behance.net/gallery/Visual-Models-for-Data-Visualization/4078769



第38页

5 数据可视化/反馈

·可视化工具 ‣OpenCharts ‣HighCharts ‣ECharts ‣Tableau Software ‣Oracle BIEE



第39页

5 数据可视化/反馈

·数据分析的结果直接反馈到产品系统中,提升产品体验(BI只是数据 分析的很小一部分)

·反馈方式 ‣推送 ‣个性化推荐 ‣风控 ‣CRM集成



第40页

总体架构



数据导⼊入

批量导⼊入 各种 SDK



数据接⼊入 ⼦子系统



ETL ⼦子系统



数据流向

调度器 实时⼦子系统 批量⼦子系统

存储⼦子系统



监控⼦子系统 元数据⼦子系统



查询 ⼦子系统



前端展现 ⼦子系统



第41页

开发代价

·合适的人 ·3-5名数据工程师 ·开发6个月



第42页

完备的数据



要点



让团队轻松 获取数据



定义关键指标



第44页

产品定位与特点

·我们的定位: ‣ 私有化部署的大数据分析产品

·我们的特点: ‣ 私有化部署 ‣ 强有力的多维分析 ‣ 属于你的数据仓库



第45页

演示网址

demo.sensorsdata.cn (可联系微信sangwf申请试用)



第46页

功能1:用户事件分析



第47页

功能2:漏斗分析



第48页

功能3:留存分析



第49页

没有银弹

·数据与业务系统紧密相关,无孔不入 ·SensorsAnalytics 为中等规模(>= A轮)的互联网

公司解决核心数据分析问题,且具有足够的开放性



第50页

Q&A

小公司是否要一步到位? 数据源的打印是最关键的一步



第51页

Q&A

老板、产品、运营和技术 如何配合做好数据平台建 设?

老板支持,肯投入;产品、运营 抽象好需求,主动学习;技术授 人以渔。



第52页

Q&A

电商运营如何利用数据? 大众点评case。



第53页

Q&A

如何建立数据的技术及分 析部门?

人员配备(平台、策略、策略工 程化、BI工程师)



第54页

微信:sangwf



第55页

试用流程



业务介绍



需求梳理



需求确认



试用准备



开始试用



神策 介绍SA功能



1)需求梳理建议 2)需求梳理模板



1)确认需求满足情况 2)给出event梳理模板



1)给出试用SA的准备 工作清单(机器、 SDK、日志格式样 例)



1)产品使用指导



用户



介绍业务、及现有数 据统计情况



1)收集运营、产品、 市场、COO等岗位的 现有报表信息 2)相关数据需求方的 潜在需求以及日常工 作中的数据使用场景 3)梳理形成指标/维 度表格



1)根据报表需求和 event梳理模板,梳理 产品event list 2)确认日志升级计划



1)SA部署环境准备 2)日志升级准备 3)历史数据导入准备



1)开始数据分析 2)问题、效果反馈



耗时 2⼩小时



1周



2天



1周 2-4周



支持文件格式:*.pdf
上传最后阶段需要进行在线转换,可能需要1~2分钟,请耐心等待。