一文读懂数据血缘分析原理与建设方法

前言


有幸拜读成于念&赛助力老师的《数据血缘分析原理与实践》一书,对数据血缘这一概念与分析方法有了更充分的了解,无疑对企业数据建设、分析、数据治理等工作具有颇多指导意义。同时,对数据思维和数据大局观的锻炼,又提供了一种全新的视角,受益良多。

本文结合书中内容,对整本书的前半部分做简要概览,以帮助大家更好了解数据血缘分析及其建设方法。

01什么是数据血缘分析?数据血缘为数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉。主要内容包括数据的来源、数据的加工方式、映射关系以及数据的流出和消费。数据血缘分析就是针对数据分析中的血缘关系做分析,主要包含数据来源分析、数据血缘影响分析和数据全链条分析三个部分。


02数据血缘的特征有哪些?① 稳定性:一旦数据血缘关系收集完毕,通常不会再有大的变化② 归属性:即便数据从生产端流向消费端,数据的归属关系依然存在③ 多源性:一个数据可以来自一个或者多个数据源,也可以由多个数据源组合而成④ 可追溯性:数据从产生到消亡的整个生命周期都可以直观地记录和查询,进行追溯⑤ 层次性:层次性主要体现在数据的分类、归纳和总结过程中,构成层次结构
03数据血缘的重要性1、破除数据质疑数据血缘分析技术可大大提升数据排查效率,让用户自主对数据来源以及链路进行检查,直观地发现数据生产链路各环节有无异常,快速打消终端用户对报告数据可靠性的怀疑。
2、快速评估数据变更影响范围数据血缘可以对数据对象和数据流与数据图的连接进行可视化,以帮助数据架构师预测移动或更改数据将对数据本身及其下游流程和应用程序产生哪些影响,同时让整个流程的验证和更改也变得更加容易。
3、度量数据资产价值评估数据血缘可以作为数据资产价值评估的一个度量工具,将原始数据、数据资源到数据产品、数据资产的过程进行量化和显现,如数据成本的记录、数据资产的登记、数据资产化进度追踪等。
4、为数据滥用加上“道德枷锁”通过数据血缘的追踪,我们能确认数据的源头、OWNER和数据的流向,同时提供采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的具体信息,有利于数据确权后避免滥用的情况发生。
04数据血缘的组成部分1、元数据元数据是最基本的数据单元,更多是描述数据的数据,比如身份证号码,数字类型是18位,前两位是省代码,后面几位是出生年月日,这些确定身份证号码是怎么来的数据即是数据,元数据就像是组成数据血缘的基本元素,也可以说是构成数据血缘的编码规则或体系。
2、主数据主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如,可以是与客户、供应商、账户以及组织单位相关的数据。主数据的价值之一”统一数据标准、统一口径“对于数据血缘分析至关重要,如果缺乏主数据标准管理,数据血缘的流向以及关联的字段极有可能是错误的。
3、业务数据业务数据是指由企业在业务处理过程中产生的数据,也称交易数据。包括订单合同,营销价格等。数据血缘在业务数据监测与问题定位、数据交圈起到了可追溯可视化的作用,大大提升了业务数据的质量问题。
4、指标数据指标数据是基础数据按照一定业务规则或一系列公式计算加工得出的数据指标,它具有高价值性,更贴近业务场景的特点,代表着数据的最终业务价值呈现。通过数据血缘分析可以满足查看指标数据拆解过程、体现指标数据计算规则、展示指标数据的多源效果。
05数据血缘的建设数据血缘的建设贯穿了数据的全生命周期,通过一个周期、三种实体、五个类型、五个层级进行整体框架的规划和设计,同时,通过选择合适的数据建设方式,按照数据血缘建设六步曲进行建设。

一个周期:即数据的全生命周期,包括数据采集生产、数据加工、数据传输、数据使用消费、数据失效。

三种实体:即数据的颗粒度结构,它们构成了数据血缘的实体结构,包括数据库血缘、数据表血缘、表字段血缘。

五个类型:即数据血缘的五种类型,包括逻辑血缘、物理血缘、时间血缘、操作血缘和业务血缘。

五个层级:即数据血缘在全链路实现过程中所贯穿的各层级,包括血缘采集层、血缘处理层、血缘存储层、血缘接口层、血缘应用层。

数据血缘的建设方法

当前主流的数据血缘建设方法有采用开源系统建立数据血缘、引进厂商平台建立数据血缘、选择自建方式建立数据血缘三种方式。每家企业对于建设方式的选择各有不同,主要是由于企业资金投入、内部人员技术水平、人力资源投入等的不同等因素决定的。

数据血缘建设六步曲

数据血缘根据建设是进行数据血缘管理的前提,数据血缘工具需要具备数据从属谁、在何时、在何地、为什么和如何更改数据的问题。一个完整的数据血缘项目都应包含以下六大步骤:

诚如作者所说,数据血缘不仅仅是一种技术和方法,更是一种数据思维,它能够让我们更深层次理解数据、建设数据、治理数据、运营数据!

- END -

原创不易,喜欢内容就点个赞吧!❤

01 方法实践

> 一文讲透数据治理难点与应对策略(建议收藏)

数据治理项目为什么会失败【深度剖析】

数据血缘分析~全网最全原创精华(建议收藏)

关于SAP-MDG的主数据治理理论概述

区块链技术对数据治理的一些思考及启发

主数据治理工作八大难点

浅谈数据分析中的数据清洗方法策略

数据资产入表难点解析(三)【数据质量提升】

数据资产入表难点解析(二)【数据确权】

数据资产入表难点解析(一)【数据定价】

全国一体化政务大数据体系建设指南(建议收藏)


02 观点分析

聊聊国产ERP和国际ERP的差异

> 国家数据局正式亮相,详解三个关键问题

怎样才算一个合格的【数据管理部门】?


03 概念解读

> 一文带你了解什么是数据科学?

大数据是什么 | What's the Big Data?

大数据处理能力:数据算力到底是什么

DCMM《数据管理能力成熟度评估模型》完整解读

什么是数据供应链管理

Web3.0 到底是什么?


04 职业成长

> 一文教会如何拥有数据思维

> 数据治理工程师【考试秘籍】

数据治理CDGA考试重点70条(吐血整理!建议收藏!)

更多优质内容,持续输出中~

新书发售👇

听说你也是做数据的?👇


相关推荐

  • 橙单,一个免费的代码生成神器
  • Git版本管理工具,每个工程师都应该知道的基础操作!
  • Obsidian插件:Make.md为你量身打造一个完美的个人系统。
  • 从零预训练LLAMA3的完整指南:一个文件,探索Scaling Law
  • 开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了!
  • 拿下NeurIPS 2024金牌。
  • 博士申请 | 香港理工大学石杰明老师招收大数据/机器学习方向全奖博士/博后
  • 文末送书 | 连续25年美国统计类教材排名第一,这本统计学神书中文版来啦!
  • ICML 2024 | 图上的泛化挑战:从不变性到因果性
  • 转行跳槽做量化一定要注意的几个大坑。
  • 超强图解 Pandas 18 招!
  • 不是付费订阅用不起,而是“开源平替”更有性价比
  • [开源]自主研发基于SpringBoot + Activiti 开发的轻量级工作流框架
  • 终于有人讲明白了,数据资产、标签体系、指标体系、数据体系与用户画像(附案例+资料下载)
  • 看完这篇文章还不懂K-means聚类算法,就来找我
  • 图解 Kafka 架构 | 为什么那么快?
  • 冯·诺依曼的传奇人生
  • 何为“用户画像(Persona)”,它在产品设计和市场研究中发挥了什么作用呢?
  • 开眼!!!CODESYS竟然支持这么多协议
  • 37.4K Star 万人选择!!!做数据面板,用这个UI准没错