数据中台简介

  • Post author:
  • Post category:其他




1



什么是数据中台

从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。数据中台要在系统层面能把 OLAP 和 OLTP 去做对接。

“一切业务数据化,一切数据业务化”。



数据平台发展4阶段

数据中台

电商系统就是 OLTP 的典型应用场景,电商的单一业务系统阶段就是之前说的数据库(DB)阶段;而 OLAP 分析需求的增长,则带动业务进入了第二个阶段,也就是数据仓库(DW)阶段,主要处理分析报表的需求;对应业务平台化,第三个阶段是数据平台阶段,主要还是解决报表和 BI 的需求;第四个阶段,就是我们现在说的数据中台阶段,主要在把 OLAP 和 OLTP 去做对接。


回顾数据处理阶段

第一个阶段是

2003 年之前

,互联网黄页刚刚出现,数据来源大部分还是传统商业的 ERP/CRM 的结构化数据,也就是前面说的数据库阶段,这个时候数据量并不大,也就是 GB 的级别;

第二个阶段是

2004 年后

,随着 BBS 和搜索引擎的发展,互联网进入高速发展时期。和传统的结构化数据不同,互联网数据量最大的是非结构化的网页日志,90% 以上的数据都来源于点击(log),这时候数据量已经达到了 TB 的级别,需要使用很多的技术,比如 DW,去把非结构化的数据转化成结构化数据,存储下来。

第三个阶段是

2016 年之后

,IOT(物联网)发展起来,带动了视图声(视频、图像、声音)数据的增长,以后 90% 的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎 + 视频解析的引擎 + 音频解析的引擎来转换成结构化数据。这时数据量已经从 PB 级别迈向了 EB 级别。



能力


1. 数据模型能力


在业务层面,业务抽象能够解决 80% 的共性问题,开放的系统架构来解决 20% 的个性问题,但同时又要把平台上的业务逻辑分开,因为不同的业务逻辑之间可能有冲突。

这在数据中台就表现为数据的中心化,也就是数据的高内聚、低耦合,需要对共性问题抽象出业务的规则,建立数据模型,一个好的内聚模块能够解决一个事情,同时又要降低模块和模块之间的耦合度,让模块具有良好的可读性和可维护性。


2. AI 算法模型能力


要实现数据业务化,前提是做到数据的资产化。很多非结构数据的结构化过程需要AI算法来辅助。


3. 数据业务化能力


和数据中心化类似,数据业务化也需要很强的行业经验来指导,建立合适的业务场景,在场景里面去使用数据,从而体现数据的价值,来大大扩展数据在行业中的应用能力。



2

OLTP场景,特点高并发、单条数据简单提取和展示(增删改查);

OLAP特点,低并发,大批量(批处理)、面向分析(query + 计算,用于制作报表)。



名词解析

OLTP(联机事务处理),事务处理需求。主要指一线业务。

OLAP(联机分析处理),分析需求。探索并挖掘数据价值,为企业高层进行决策的参考。



常见问题



数仓与数据中台

数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库。



建模平台

建模平台要与数据(不出现数据表,字段)解耦。理想状况:业务人员,一点技术都不动。也可以通过平台实现建模。现阶段技术达不到,产品不断优化吧。



治理平台

不在数据中台内部实现建模和业务关联,无法构建数据血缘。系统也无法知道数据间的业务关系?

构建数据血缘的本质是什么?

构建数据血缘的必要,最小条件是什么?



资料



版权声明:本文为ThePromonkeyOf_HeLuo原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。