从0到1,聊聊货拉拉如何搭建数据指标体系

导读 本文分享的主题是指标体系的构建与应用

围绕下面 5 个部分展开:

1. 背景

2. 指标体系搭建

3. 指标标准化建设

4. 指标元数据管理

5指标应用&未来发展

分享嘉宾|黄永强 货拉拉 大数据技术与产品部

编辑整理|王丽燕

内容校对|李瑶

出品社区|DataFun

01

背景

指标体系是指一系列维度、有组织及结构的指标集合。构建指标体系主要是为公司业务目标落地做辅助决策,以及监控业务运行的稳定性情况等。具体从业务、技术及产品三个视角来阐述指标体系构建中的痛点:1. 业务视角:
  • 可信任性:业务口径不一致,导致指标数据不一致,影响到业务部门对数据的信任感;

  • 可理解性:业务术语不一致,导致不同人对业务的理解不一致,从而导致数据存在略微的差异,增加沟通成本;

  • 可衡量性:指标与业务的真实相关程度,能否准确衡量业务的变化,指导目标的达成;

  • 可追溯性:随着业务的发展,业务及数据口径的变更历史较难回溯。

2. 技术视角

  • 数据稳定性:数据的产出是否稳定及时;

  • 数据质量:数据是否准确,完整、一致。

3. 产品视角

  • 可访问性:数据是否易于访问;

  • 合规性:使用是否安全合规,如何防止数据泄漏的风险等。

02

指标体系构建

1. 指标设计

针对上述痛点,我们从以下三个方面去解决:
  • 解决业务痛点:在指标设计时首先选取核心业务成体系化的来搭建指标体系,并将整个建设流程标准化;
  • 解决技术痛点:将数据研发流程规范化,把握好数据模型的业务扩展性及 ETL 的性能问题,并做好数据链路及质量监控;
  • 解决产品痛点:将建设的元数据产品化,数据的使用做到服务化。
对于建设范围:先聚焦核心业务,快速将核心业务的指标体系搭建出来并落地应用,然后再迭代优化。切忌刻意地追求指标的业务覆盖面,避免导致需求范围过大,实现周期太长,导致指标的应用落地严重延期。整个核心构建过程如上图中所示,目标是围绕赋能业务去设计指标。2. 指标体系搭建

下面以货拉拉为例,简单介绍指标体系搭建的思路(例子与实际业务不一定相符,仅供参考):
  • 首先公司会制定业务的主要目标,然后依据参与人的业务轨迹梳理核心的业务过程;
  • 然后拆解负责各个核心业务的相关部门的具体目标,接着业务部门依此制定落地的方案或策略;
  • 最后为了指导目标达成,再梳理各业务具体的衡量指标。
3. 指标维度拆解

上图中列出了指标及维度拆解中的一些经典原则及常用数据模型。这里强调两点:
  • 遵循 MECE原则,尤其是在底层数据模型的设计过程中,最好将维度和指标拆解地互斥且不交叉,这样有利于保证上层应用层维度及指标组合的灵活性、同时也有利于提升复用率、降低整体的计算及研发成本;具体的拆分方法参考如上图所示,二(多)分法、流程法等。
  • 需要深入理解各核心业务场景的常用数据分析模型(比如上图中 AARRR 等模型),结合自己公司的业务特点,选取合适的业务数据模型来搭建部门内部的指标体系。
03

指标标准化建设

指标体系建设的标准化流程可以参考以上流程图,重点强调的内容有以下两点:
  • 数据需求准入评审:为了解决业务口径描述不一致、业务口径转换为数据口径的质量问题,一定要成立一个指标评审组织,至少由业务方、数据分析人员、数仓研发人员这三部分组成,此项工作人力投入价值最大,直接影响后续数据研发的效率、交付质量及是否返工修复数据口径等工作量。
  • 数据研发的标准化:为了数据模型设计工作的高质量开展,需要梳理好数据口径;核心工作内容是数据的维度及指标梳理,落地为指标维度矩阵,再进一步拆解到事实层(DWD)的维度及原子指标,这样可以更准确地评估后续数据研发的工作量。

指标体系建设过程中数据研发的工作重点:依据数仓的架构主要集中在汇总层各业务主题域的指标维度事实表的建设落地,其次是集市层,面向业务的多账期、跨业务主题域、衍生指标的建设工作等。04

指标元数据管理

指标建设完成后,则需要进行指标元数据管理,主要有四部分内容:
  • 首先管理好指标建设流程;前期可以先采用 SOP 等文档落地,后续再产品化;
  • 其次管理好数据模型,包括偏向技术的物理模型和偏向业务的逻辑模型;
  • 然后管理好指标及维度的元数据信息,包括业务数据域、业务口径、数据口径、血缘关系等;
  • 最后将数据封装成服务,并将业务应用方的使用和调用信息登记管理起来,以便后期的服务稳定性分级管理及指标体系建设的业务收益回收等。

对于指标元数据管理方面,介绍以下三个相关定义:
  • 数据需求=时间+维度+指标
  • 指标=时间+修饰词+原子指标
  • 维度=通用维度+个性化的业务维度
因此对应的具体管理内容主要是如上图所示的三部分元数据的管理,修饰词管理、指标管理和维度管理。05

指标应用&未来发展

对于指标体系的主要应用场景包括:业务报表和看板、特定的业务数据产品等,另外实际已落地的新场景是:结合 AI 大模型通过自然语言快速取数,具体框架如上图所示。

具体应用场景功能设计上,对于衍生指标,即基础指标的四则运算、派生及衍生维度,关联父子维度,或者简单关联转化的维度,我们都是通过元数据配置来实现的,这样极大提高了数据应用的灵活性,并大大降低了数据及后端数据接口服务研发的成本,同时提高了需求响应的及时性。对于指标体系应用在未来的热门发展方向主要体现在通过自然语言快速取数、归因诊断及智能运营这三个方面:
  • 自然语言快速取数及简单可视化,在货拉拉已经接近落地,相关云厂商或者头部互联网公司也基本都有相关产品。这个场景的主要挑战是如何降低错误率,个人理解在这个场景中可以拒答,但是不能给出错误数据。
  • 诊断归因,则处于探索逐步落地阶段,前期主要先基于业务部门的分析经验来配置归因的逻辑来实现,后续再探索如何让大模型通过对行业业务的理解学习,结合数理统计分析算法来自主归因。
  • 智能运营场景,为了提高运营效率,进一步对 AI 大模型提出了更高的定制化能力要求。传统运营早已深入各行业公司的具体业务,主要是基于个人经验和历史沉淀的经验知识等,因此需要更深入理解行业及公司业务的运营知识。同时由于涉及到具体的运营策略及业务数据,对于这部分的数据安全性也是一个挑战。为了这个场景能更好地落地及推广,还要求相关产品能具备通用化且安全的行业知识学习及更新能力,并最好将大模型行业知识的学习流程产品化,降低大家的学习使用成本,在保证运营效果的同时,大大减少公司的运营人力投入成本。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


黄永强

货拉拉

大数据技术与产品部

黄永强,货拉拉大数据技术与产品部,主要负责数据资产的建设工作,在数仓及大数据平台建设都有比较丰富的经验


往期推荐


领域模型生产指南

腾讯视频指标中台驱动湖仓一体建设实践

奇富科技朱杰:金融风控技术成熟度曲线全面解读

快手大数据安全治理实践

瓴羊董芳英:大模型时代下的数据分析

智能化转型的基石:构建有效的数据治理体系

ByteHouse如何将OLAP性能提升百倍?

第三代指标平台定义、能力与技术详解

ChatBI:基于文心一言的生成式数据分析技术探索

Kyligence 发布企业级 AI 解决方案,Data + AI 落地迈向新阶段

点个在看你最好看

SPRING HAS ARRIVED

相关推荐

  • Meta 如何将缓存一致性提高到 99.99999999
  • QCon全球软件开发大会(北京站)2024 优秀出品人与明星讲师名单揭晓
  • 独立站如何摆脱系统不稳定的“漏洞”?这家企业做到了!
  • 数据库的夏天!2024可信数据库发展大会如约而至,邀请你来!| Q推荐
  • 关于 Tab 与空格之争,暴躁老哥 Linus 又有新指示!
  • Mistral 不相信AGI,开源大模型CEO发出警告,科技带不来“新造的人”
  • 侯毅张勇收购盒马传闻不实;英伟达大跌10%;用于Llama3训练的高质量数据集首次公开!
  • 【每周一课#06】MidJourney 应用实战
  • 中科曙光董事长李国杰院士被证监会立案调查:涉嫌违法炒股
  • 奖金丰厚!KDD Cup 2024 检索增强生成CRAG挑战赛正式启动
  • CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
  • Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力
  • 「空想AGI」闹剧何时休?Science专栏:对AI前景预测过于乐观
  • 小洞不补,大洞吃苦:西交、麦马开源全新「拖动式编辑」框架&数据集
  • 2023年AAAS Fellow名单出炉!信息计算领域:浙大教授、中科大校友当选
  • 小扎自曝愿开源100亿美元模型!2025年AGI没戏,能源短缺成最大瓶颈
  • 清华系发布全新金融AI,数秒完成金融数据大海捞针!金融民工直呼要失业
  • 超越OpenAI,谷歌重磅发布从大模型蒸馏的编码器Gecko
  • 今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好
  • 2024,人形机器人爆发元年?从难点和时机出发聊聊可能性