第1页
1 问题分析 解决思路 行业实践 总结
电子政务领域的大数据解决思路
演讲人:胡书能 2015年4月
第2页
2 问题分析 解决思路 行业实践 总结
问题 分析
解决 思路
行业 实践
总结
目录页
Contents Page
第3页
3 问题分析 解决思路 行业实践 总结
问题 分析
解决 思路
行业 实践
总结
目录页
Contents Page
第4页
4 信息资源共享难
问题分析 解决思路 行业实践 总结
分析利用 程度低
信息孤岛现 象严重
数据安全缺 乏保障
面临的问题
缺乏统一资 源目录
缺乏统一数 据标准
信息共享难 度大
第5页
5 电子政务建设的问题
缺少总体
顶层规划
条块分割 纵强横弱
IT资源利 用率低
项目建设 运维成本
高
电子政务
问题分析 解决思路 行业实践 总结
1 标准不一、重复建设、粗放 式建设
2 各自为政、信息共享难、业务协 同更难
3 基础设施利用率低、数据价值没 有发挥
4 投资成本高、缺乏专业运维团队 、运维成本高、时间成本高(部 署、开发)。
第6页
6 电子政务的大数据建设目标
问题分析 解决思路 行业实践 总结
(1)构建政务大数据处理的交换、整合、共享、分析与服务的软件平台 (2)建立覆盖政务数据定义、存储、管理、共享、分析与服务的标准体系 (3)不断整合各类基础设施资源、数据资源,支撑大数据业务的持续发展
第7页
7 问题分析 解决思路 行业实践 总结
问题 分析
问解题决 分思析路
行业 实践
总结
22 3
目录页
Contents Page
第8页
8 分布式数据中心架构
问题分析 解解决决思思路路 行业实践 总结 政府公共数据中心
教育 行业数据中心
卫生 行业数据中心
交通 行业数据中心
…
其他
交通监控系统
公交调度系统
停车引导系统 …
机动车/驾驶 员管理系统
摄像头
GPS
ETC … 传感器
…
第9页
9 逻辑库与物理库
资源检索
逻 辑 库
卫生
问题分析 解解决决思思路路 行业实践 总结
分布式查询引擎
资源定位
内存
闪存 硬盘
分级缓存
本地资源调度
缓冲库 本地物理库
远程资源调度
基础库
公安 远程物理库
教育
分
布
式
资
资源
源 调
索
度引
……
第10页
10 大数据生命周期
问题分析 解解决决思思路路 行业实践 总结
以数据流为主线,实现从数据采集、数据管理、数据服务到数据应用4个阶段的全过程管理
数据库
数据文件
数据接口
抽取 报送
Web直报
非结构化 数据
异构数据源
数据采集
清洗 转换 汇集 规整 标准化 质量控制
结构化数据库 分类 存储 元数据库
分布式文件库
数据管理
数据比对
资源目录 信息共享
数据仓库
数据 接口
分析服务
服务 提供
数据展现
报表服务
查询服务 数据服务
决策支持 ……
数据应用
第11页
11 相关技术
问题分析 解解决决思思路路 行业实践 总结
结非 构结 化构 大化 数数 据据 存存 储储
数数数 据据据 分一涉 散致密 不性不 规问能 范题落 问地 题问
题
数数数 据据据 标质安 准量全 不问性 一题问 致题
数数 据据 深可 入视 分化 析程 不度 够低
第12页
12 “三张皮”变“一张皮”
问题分析 解解决决思思路路 行业实践 总结
业务 业务 业务 应用 应用 应用
12N
资源 共享
应用1
资源 资源
共享 共享 应用2 应用N
数据 数据 数据
分析 分析 分析 应用1 应用2 应用N
大数据平台
业务库 OLTP
数据整合 共享数据
数据建模
共享库
三类数据资源
主题库 OLAP
第13页
13 政务大数据应用架构
问题分析 解解决决思思路路 行业实践 总结
发改委
应用 平台
财政
建委
……
资源共享、业务协同、决策分析、信息门户、……
应用 领导驾驶舱
安 全
支撑
工作流引擎
KPI 仪表盘
ESB
即席查询 SOA
业务报告 Office集成
防
护 社管
体 数据 系 中心 卫生
环保
交通 教育 ……
数据集市 主题域数据库
ODS
采集、整合、服务、监管
建交委 公安局 规划局
图表展现 监测警报
卫生局 教育局
……
基础 设施
资源整合、虚拟化管理、按需分配
服务器
存储
网络
标 准 规 范 体 系
第14页
14 达梦大数据平台
问题分析 解解决决思思路路 行业实践 总结
实现数据采集、交换、整合、管理及共享等全生命周期管理,能实现数据的集中及分布式 存储,为政府大数据项目提供基础支撑和保障
第15页
15 达梦大数据平台——数据存储类(DM7)
问题分析 解解决决思思路路 行业实践 总结
大型 通用 关系型 云数据库 安全 自主
DM7
联机分析处理 (列存库)
联机事务处理 (兼容 oracle)
安全保护
大数据处理 (MPP数据库)
ODBC
JDBC
PL/SQL
OCI
PDO
ADO
统一接口
列存表 DMMPP 并行加载 智能索引
第16页
16 达梦大数据平台——数据存储类(MGBase)
问题分析 解解决决思思路路 行业实践 总结
面向列的分布式 NoSQL型数据库
构建于分布式文件系 统之上
适用于半结构化和非 结构化海量数据存储
数据 服务器
数据 服务器
Master Master Master
列实例
列实例
数据服务器 列实例
第17页
17 达梦大数据平台——异构分布式查询
采用一致接口访问本 地、远程数据源
支持多级代理,适应 复杂网络部署
支持关系数据库、数 据文件、数据接口、 NoSql数据库
问题分析 解解决决思思路路 行业实践
内存
闪存
硬盘 本地分级缓存
综合查询系统
资源目录系统
分布式查询处理 缓存管理
数据访问代理
全 局 数 会安 据 话全 字 管管 典 理理 管 理
中心节点
数据访问代理
总结
TXT、EXCEL、XML 和WebService等其
他数据源
关系型数据库
业务节点
业务节点 数据访问代理
非关系型数据库
前置节点 数据访问代理
分数据中心节点 数据访问代理
各类数据源
各类数据源
业务节点 数据访问代理
各类数据源
前置节点 数据访问代理
各类数据源
各类数据源
各类数据源
第18页
18 达梦大数据平台——数据交换类(DMETL)
问题分析 解解决决思思路路 行业实践
解决不同单位、不同系统之间的数据采集、数据交换等要求。
总结
支持异构数据源采集
Oracle Sql Server DM dbms DB2 MySql Sybase Excel文件 其它文件 ……
支持多级单位间的数 据交换
交换管理
数据中心 达梦数据交换系统
…前置交换库 前置交换库 前置交换库 前置交换库
前置交换库
…业务信息库 业务信息库 业务信息库 业务信息库
业务信息库
发改委 建委 财政局 规划局
审计局
第19页
19 达梦大数据平台——数据交换类(DMHS)
问题分析 解解决决思思路路 行业实践 总结
达梦数据同步软件(DMHS)是支持异构环境的高性能、高可靠、高可扩展数据库实时同 步复制系统。对源系统的资源消耗低,数据同步速度快,支持故障恢复后断点续传。
1. 数据备份 2. OLAP\OLTP分离 3. 实时同步 4. 灾备
第20页
20 达梦大数据平台——数据交换类(请求服务引擎)
问题分析 解解决决思思路路 行业实践 总结
分布式请求服务引擎解决数据不能落地的远程数据访问问题。
分布式请求服务引擎
穿透内外网
请求转发
远程服务代理
中心/分中心一体
化服务
…
内网
请求响应列表 请求响应协调器
请求响应服务器
外网
任务池
比对 请求
交换 请求
查询 请求
请求监听列表 数据查询器
请求转发器
内网请求服 务数据库
数据交换平台
外网请求服 务数据库
第21页
21 达梦大数据平台——数据管理类(元数据管理)
统一数据标准,全过程元数据记录,……
问题分析 解解决决思思路路 行业实践 总结
数据标准 元数据仓库 自动获取 关系维护 版本管理 导入/导出 元数据应用
数据转换 工具
业务分析
数据仓库 业务主题
元数据
数据来源
数据仓库 设计
业务视图
第22页
22 达梦大数据平台——数据管理类(数据整合)
问题分析 解解决决思思路路 行业实践 总结
利用ETL工具
异构数据源支持
图形化设计器
丰富的清洗转换组件
基于插件模式扩展
…
实现数据的清洗、转换、规整、治理、标准化等
第23页
23 达梦大数据平台——数据管理类(数据资源管理)
问题分析 解解决决思思路路 行业实践 总结
数据管理
数据维护 数据权限 数据发布 备份/恢复 导入导出 …
基于元数据,通过快速配置实现对数据的基本管理、访问权限 控制与发布等功能
第24页
24 达梦大数据平台——数据管理类(资源目录)
问题分析 解解决决思思路路 行业实践
收集整理所有相关系统、相关数据、相关服务等资源信息 方便用户寻找有用的信息
总结
第25页
25 达梦大数据平台——数据管理类(数据质量管理)
问题分析 解解决决思思路路 行业实践 总结
实现数据质量监控、报 告及治理……
数据质量管理包括: 质量标准定义 质量规则设置 问题数据采集 问题数据管理 问题数据分析 数据治理
质 量 监 控
质 量 报 告 质 量 治 理
准确性
数 性校验 据 探 测 服 务
质 量 规 ETL 则 监 控
完整性 校验
数据源1
数据仓库
数据共享库
…………
数据源n
第26页
26 达梦大数据平台——数据管理类(服务管理平台)
问题分析 解解决决思思路路 行业实践 总结
……
网 络
异质异构服务集成; 分布式服务集成。
服 服务池 务 注 册 服务总 中 线(ESB) 心
服 务 调 度 器
用户
其它系统 ……
简化服务的提供和使用!
第27页
27 达梦大数据平台——数据仓库建模工具
问题分析 解解决决思思路路 行业实践 总结
1.用于数据仓库建模 2.辅助数据仓库实施人员完成
从数据仓库概念设计 到最终物理实现全程
第28页
28 达梦大数据平台——OLAP分析
问题分析 解解决决思思路路 行业实践 总结
1.支持ROLAP、MOLAP、HOLAP 2.支持星型模型、雪花模型 3.标准化MDX语言 4.二次开发: ► 支持OLAP访问接口 ► 支持XMLA协议 ► 图形化查询工具
第29页
29 达梦大数据平台——数据挖掘工具
问题分析 解解决决思思路路 行业实践 总结
► 数据源类型丰富 ► 文件 ► 关系数据 ► URL
► 多种挖掘分析算法 ► Apriori ► BFTree ► FarthestFirst
► 多种挖掘分析方式 ► 分类与回归分析 ► 聚类分析 ► 管理分析 ► 序列分析
► 可视化挖掘 ► 应用系统可集成
第30页
30 达梦大数据平台——BI工具
问题分析 解解决决思思路路 行业实践 总结
► 提供丰富的展现形式 ► 网络报表 ► 分组报表 ► 多维行列统计 ► 卡片报表 ► 线图 ► 面积图 ► ……
► 提供应用集成接口
第31页
31 达梦大数据平台——数据门户
问题分析 解解决决思思路路 行业实践 总结
第32页
32 达梦大数据平台——一张图呈现 基于地理信息、移动终端等多种方式呈现
问题分析 解解决决思思路路 行业实践
总结
第33页
33 问题分析 解决思路 行业实践 总结
问题 分析
解决 思路
行解业决 思实践路
总结
目录页
Contents Page
第34页
34 行业实践——公安行业
视频监控
卡口 PGIS 通信记录 旅店网吧
公安的 数据来 源?
……
问题分析 解决思路 行行业业实实践践 总结
容量大
公安数 据的特 点?
结构多样化 不断增长
价值密度低
物理分散
第35页
35 行业实践——公安行业
问题分析 解决思路 行行业业实实践践 总结
异构OLTP、OLAP一体化,应用层透明切换 数据量:1.6T(不含大对象)
Oracle RAC
DMHS
EP01 EP02
EP03 EP04
DM MPP
数据库并发连接:200-300个
对比项
人口统计 接处警统计
警务平台生产库
警务平台分析库
(oracle rac)平均响应时间 (dm mpp)平均响应时间
100秒
16秒
130秒
13秒
主机类型 DM-MPP Oracle RAC
节点数 4 2
CPU Xeon E5-2620 2.00GHZ * 4 Xeon E5-2680 2.70GHZ * 4
RAM 192G 256G
治安盘查统计 治安管理统计 案件查询统计
110秒 120秒 140秒
15秒 17秒 16秒
第36页
36 行业实践——公安行业
Xxx
问题分析 解决思路 行行业业实实践践 总结
大数据量性能支撑
DM MPP
Xxx省公安厅 最大单表:24.1亿行 数据存储方式:MPP,哈希分布 精确查询时间:< 1秒
第37页
37 行业实践——公安行业
问题分析 解决思路 行行业业实实践践
融合省厅、市局、外部数据资源,基于分布式查询,为领导、业务部门、外部用户 提供透明的数据即服务。
总结
警综系统 大情报系统
...
内网数据服务平台
公安边界安 全接入平台
公公 安安 内前 网置 服服 务务 区区
数据仓库 人口主题 案件主题
……
分布式查询引擎
010综01 合基础资 源库0011001011
0110101 0101110 1001100110
内网共享0资1001 源库 0011001011
0110101 0101110 1001100110
1001101 01
01 内网请求服务引擎
外网共享资01001
源库
0011001011 0110101
外网请求服务引擎
外网 数据 服务 平台
xxx市公安请求服务引擎 xxx市公安请求服务引擎
综合基础资
源库
……
综合基础资
源库
……
……
Xxx省公安云数据即服务
第三方系统
第38页
38 行业实践——公安行业
问题分析 解决思路 行行业业实实践践 总结
12万个数据项
370个数据元
标准
数据资源
建成全省统一标准
的数据资源目录
125个数据元标 准和1358个数
据项被公安部采 纳推广
该省被确定为全国
四个资源服务试点
单位之一
第39页
39 行业实践——公安行业 固化经验,服务实战
问题分析 解决思路 行行业业实实践践 总结
算法公式固定提取方法
各类技战法变成模型 保留在云中
技 战 法 100 余 种
业务 基于大数据的 业务 需求 动态专题模型库 模型
全警随时可以调用 提升了核心战斗力
模念
块 化
开发
应 用理
口袋、脑袋中的经验 放在云上共享
第40页
40 行业实践——公安行业 动态权限,方便全警应用 传统方式
问题分析 解决思路 行行业业实实践践 总结
动态权限管理 技术
高级权限
按需申请
侦查权限 普通权限
网上审批 自动收回
公安云动态 权限变更
侦查权限
高级权限
普通权限
第41页
41 行业实践——地质灾害行业
问题分析 解决思路 行行业业实实践践
地质灾害预警决策与应急指挥
分析处理应用
事务处理应用
应
预警决策支持与应急指挥系统
灾害立体地质图建设系统 OA管理子系统
用 层
地质灾害预测预报系统 防治工程措施分析及评估系统 预测预报分析及评估系统
治理工程设计信息系统 勘察信息系统 三维地质灾害体系统
系统管理子系统 数据管理平台 数据采集子系统
基于GIS的稳定性评价系统 数据维护子系统
服 务 层
分 析 处 理 层
操
作
处数
理
据 质
层量
管
理
工
具
源
数
据
层
基础环 境层
数据访问服务 查询 删除 修改 插入 订阅 发布
元数据
地质灾害防治 数据仓库
数据仓库管理
ETL
操作数据库
空间数据库
专业属性数据库
管理数据库
数据 管理
ETL
元数据 管理平台
建库 更新 审核 发布 存储 授权 查询 备份 恢复 导入 导出
数数
据 质 量 管 理 体
据 安 全 管 理 体
数 据 存 储 方 案
标 准 与 政 策
系系
敏感数据库
脱密数据 复制
基础数据库
元数据库
数据获取系统
单机版系统采集 直接输入 GPRS无线传输及短消息传输 通信平台传输 视频会议 采集数据 网络传输 数据中心连接
网络、服务器、存储设备,操作系统、ArcGIS
30多个业务系统
上千种地质数据,空间数 据、专业属性数据、管 理数据
网络整合、技术整合、数据整 合、应用整合、文档整合
总结
第42页
42 行业实践——政法行业
问题分析 解决思路 行行业业实实践践
基于全国产化软硬件平台构建
横向打通政法委、公安厅、检察院、 法院、司法厅、安全厅六个部门专 网,实现案件流转
纵向服务于省、市、县、乡四级用 户,提升办公效率
总结
第43页
43 行业实践——政府公共数据服务
问题分析 解决思路 行行业业实实践践 总结
智慧教育
智慧医疗
智慧交通
智慧社区
智 慧 …应 用
运安 维全 管保 理障 体体 系系
公共信息门户
信息资源目录
数据资源 管理平台
文档管理 平台
综合资源库
数据分析 平台
元数据库
WEB GIS 3D GIS
全文检索 数 标
据准
中规
主题数据仓库
心范 体
系
数据 集市
数据质量 平台
数据整合 平台
元数据 管理平台
数据交换平台
数据仓库 管理平台
SOA服务 平台
请求服务引擎
分中心
……
分中心
整合各委办局分散的数据资源, 构建全局的资源目录,提供数 据交换服务
构建基础信息库:人口、法人、 地理信息、宏观经济、…
为公共服务提供数据支撑
浦东新区公共数据中心 襄阳市数据中心 扬州市政务资源目录 武汉市资源目录和数据交换 ……
第44页
44 行业实践——其他案例
问题分析 解决思路 行行业业实实践践 总结
序号 1 2 3 4 5 6 7 8 9 10 11 12
项目名称 湖北省电子政务一期工程项目人口库 湖北省电子政务一期工程项目宏观经济库 辽宁省数字消防综合信息平台 温州市人口信息综合管理系统 安徽招商数据中心 公安部消防局决策分析平台 襄樊市工业数据中心 江阴市宏观经济库项目 成都数据中心 商务部产业安全平台 XX军区信息整合平台 XX厅综合信息管理平台 …
第45页
45 问题分析 解决思路 行业实践 总结
问题 分析
解决 思路
行业 实践
总结
目录页
Contents Page
第46页
46 总结
问题分析 解决思路 行业实践 总总结结
特点1:一体化数据采集、整合、管理、服务的软件框架, 有效支撑大数据时代的数据处理需求。
第47页
47 总结
问题分析 解决思路 行业实践 总总结结
特点2:基于自主可控的数据库及相关数据中心产品,实现 海量数据的存储和应用,提升数据安全性和访问性能。
政府的安全要求 海量数据的性能要求 信息资源的管理要求
第48页
48 总结
问题分析 解决思路 行业实践 总总结结
特点3:建立了多部门间的数据交换共享机制及自动化支撑 平台。
综合基础资源库
数据标准化 清洗服务
前置机
数据交换平台服务
前置机 公安
前置机 消防
专网、电子政务网
……
前置机
……
医疗
前置机 住建委
前置机
……
各委办局
……
第49页
49 总结
问题分析 解决思路 行业实践 总总结结
特点4:建立物理库与逻辑库,实现数据分布式存储,降低 数据存储压力,提高热点数据访问性能。
第50页
50 总结
问题分析 解决思路 行业实践 总总结结
特点5:基于传统BI与GIS结合的数据分析挖掘,基于 dashboard与“一张图”的信息展示。
第51页
51 问题分析 解决思路 行业实践 总结
谢谢