数据平台系列:数据平台架构
2015-06-13
特别说明:整理了一个 ppt,数据平台:初探.pdf
1. 概要
核心问题:
设计、实现数据平台,构建公司的数据能力
下文分开来说,简单拆解几个要点。
1.1. 为什么要构建数据能力:数据的价值?
数据有哪些价值?
- 服务质量:系统的监控、告警、自动降级,提升可用性;快速、准确定位服务瓶颈;提前预测服务能力(节假日)
- 系统运营成本:机器、带宽的利用率,耗电量等
- 业务运营成本:业务指标,用户停留时常、访问路径(漏斗模型)
- 用户体验/商业价值:用户的时间有限,如何有限时间内,尽可能多的达成交易
- 电商的推荐
- 电商的个性化搜索
- 电商的广告投放
- 战略方向:用户增长、市场突破口/竞争壁垒、业务发展的关键节点(年度计划)
- 投机/投资:量化交易等(群体收益,忽略单词的成败)
千头万绪,怎么入手?
1.2. 如何构建数据能力:整体脉络?关键点?
核心:Garbage In, Garbage Out
- (介绍含义:林家翘等)
- (插图:in,process,out)
思路很清晰:
- 输入:来源
- 处理:ETL、Model
- 输出:Value、View、Visualization(数据可视化)
时间维度,根据实时性不同:
- 批量处理,数据系统:1h~10d
- 准实时,数据系统:2s~10 mins (必要时,可以优化)
- 实时,数据系统:0~2s
1.3. 数据能力:演进?数据平台
自动化脚本 –> 系统 –> 平台
很重要的一点:数据平台自身的监控、升级、维护。
数据平台:Watchdog + Shackle
2. 数据平台架构
2.1. IN:数据
数据有哪些?
- 用户行为:停留时长、访问路径、来源、使用的设备
- 前端埋点
- 后端埋点
- 应用数据:业务数据、应用运行状态数据(访问量、响应时间)
- 系统数据:系统负载、内存、网络
2.2. 收集数据
可靠、快速、解耦。
数据的可靠语义:
- 数据不丢失
- 数据不重复发送
典型场景:
- 历史数据:Agent 启动之前,已经有数据了
- 间断数据:数据产生过程中,Agent 挂掉了,一段时间之后,重启
- 突发数据:海量数据产生,超过 Agent 处理峰值
Agent 的拓扑结构:树状、层级缓冲
2.3. 数据处理
ETL + Process
2 大类思路:
- 延迟处理:存储原始数据,需要结果时,触发任务计算结果
- 适用场景:高频低耗时交互操作、低频高耗时任务
- 及时处理:对数据经过一系列处理后,存储中间结果/最终结果
- 适用场景:推送类场景、事件触发的场景
数据里发掘规律:(切合业务)
- 分类
- 聚类
- 关联规则
- 时间序列
2.4. OUT:信息
回到原点:为什么要这么折腾?为了获取信息。
3. 实践
准实时数据处理系统(逻辑架构):
典型的数据收集系统(美团 16 年的方案):
原文地址:https://ningg.top/massive-data-series-data-platform-framework/