导读 指标体系在数据分析、数据应用中有着重要的价值。本文从数仓开发的角度,分享在懂车帝业务中,指标体系建设工作如何开展落地,如何在数仓模型层面实现指标体系建设。
今天的介绍会围绕下面六点展开:1. 如何建立指标体系规范
2. 指标模型建设在数仓工作中的收敛
3. 指标体系质量监控策略
4. 构建全方位的指标应用场景
5. 未来展望
6. 问答环节
分享嘉宾|肖继哲 字节跳动 懂车帝资深数仓研发工程师
编辑整理|许通
内容校对|李瑶
出品社区|DataFun
01如何建立指标体系规范
首先让我们来了解一下懂车帝业务的一些情况。1. 懂车帝业务介绍
懂车帝是一站式汽车信息与服务平台,涵盖内容、工具和社区,致力于为用户提供真实、专业的汽车内容和高效的选车服务,同时为汽车厂商和汽车经销商提供高效解决方案。懂车帝的业务自成立以来,规模和体量在不断扩展,不论是线上用户还是内部业务场景,均需要数仓提供高质量的数据服务。 比如面向 C 端用户视角的热点文章推送、汽车销量榜单对比分析等,面向B 端商家视角的用户购车意愿等,以及内部业务的产品运营、经营分析、战略规划等场景,数仓一直为其提供数据分析、数据挖掘等数据服务。并且,数据服务包括多种时效场景:离线 T+1 场景、准实时(小时级、分钟级)以及纯实时场景。截止目前,懂车帝业务数仓的数据存储规模在百 PB 级别,日常例行生产任务数据量达数万,其计算资源消耗超十万 Core,共累计建设有 6000 多个有效指标。从数仓建设的规模也一定程度上反应出懂车帝业务的复杂性。2. 为什么要做指标体系规范
伴随着懂车帝业务的复杂多样和快速迭代,业务数据指标体系的建设相对应的也会变得非常复杂。这导致各相关团队在日常工作中使用数据,都会遇到诸多痛点。为了解决相关工作中的实际问题,数仓团队结合实际业务诉求,建立起持续围绕指标体系的数仓模型建设、数据 BI 分析需求、数据服务和数据应用的工作机制,以促进数据良性传播,全局降本提效,释放数据价值。3. DataLeap 指标管理平台
在介绍指标体系建设之前,我们先了解一下火山引擎 DataLeap 平台。DataLeap 的定位是建设公司范围内指标视角的统一资产(元数据)中心,解决“灵活数据分析”场景下的找数据和找口径的问题;维护可共享、可视化、服务化的业务指标体系。DataLeap 包含四大部分功能:规范定义、建模研发、指标应用和指标服务。懂车帝业务深度结合了 DataLeap 指标平台丰富的指标体系建设和管理的能力,并且在此基础之上,独立开发了指标观星台等业务 BI 平台产品,进一步丰富了指标应用能力的建设,最终实现整体指标体系的实践落地。4. 指标体系建设框架
我们整套指标体系建设包括三部分内容:基础能力建设、指标服务能力建设、应用能力建设。基础能力建设主要包括:5. 指标元数据管理规范
在指标体系建设中,首先要关注指标元数据管理规范,包括指标命名规范、指标业务定义、指标等级管理、指标目录管理、指标版本管理和指标业务命名管理等。指标命名规范,标准化指标中英文命名,通过指标的词根拆解来定义没有歧义、标准一致的数据指标体系,同时通过对词根进行规范管理,避免同名不同义、同义不同名等问题。指标业务定义,要结合业务场景,保证指标完善、准确、易懂、精要。指标等级管理,制定指标优先级,重点关注高级别指标。具体分级为:指标体系质量监控策略
指标查询中会遇到各种问题,如:查询失败、慢查询、指标产出时间延迟、不同业务找同一个指标查询结果不一致、指标生产资源浪费等问题,因此需要建立指标体系质量监控来及时发现和解决问题。 指标体系监控策略整体上包括三大部分:指标体系规范监控、指标查询服务监控和指标治理监控。1. 指标体系规范监控 指标体系规范监控包括:词根管理监控、指标业务定义监控、指标等级监控和指标版本监控四大方面。具体内容如上图所示。2. 指标查询服务监控 指标查询服务监控包括:构建全方位的指标应用场景
有了清晰的指标定义、稳定的指标模型生产、完备的指标监控体系以及统一的指标查询服务,我们整体为懂车帝内部分析业务和外部线上业务提供了多样化的应用场景。 比如面向业务内部管理层查看的核心指标看板,面向产品运营同学灵活业务分析的自助指标 BI 分析平台,以及面向汽车经销商门店、销售提效的商业化运营平台。 结合实际的业务使用场景,我们还建设了全链路指标血缘应用管理。血缘管理可以方便可视化地体现指标上游链路异动对下游应用的影响,方便 SLA 治理,也方便量化数仓工作价值。其中血缘管理包括前向链路和后向链路两个过程。所有指标服务接口的调用都要在使用前做好接口调用场景的登记。即使某个指标服务跳过 SOP 没有进行登记,我们也可以通过调用日志监控发现遗漏,然后反向推动服务登记。通过这样的措施,保证了数仓能够对所有指标服务应用场景进行全面的掌控,以做好服务质量的管理。05未来展望
指标体系是一个持续建设过程,还会继续完善。未来,我们会结合 BSC(平衡计分卡),将指标体系与业务管理结合。将战略目标、实现路径、策略打法这些业务战略规划体现在指标体系中。另外,要建设更加完整、统一的数据服务查询层。现在借助 DataLeap 提供的数据服务接口,基本实现了指标粒度的统一服务查询。未来要应对更复杂的查询场景,提供不限于指标粒度的统一接口服务,实现一体化数据查询服务。最后还将考虑指标体系与大模型的结合,提供数据智能的问答交互能力。通过自然语言交互模式为业务人员提供自主取数、快速找数、理解数据的能力。06问答环节
Q1:拆解好的指标体系是按照原子指标、修饰词、时间、维度,那么实际存储中是如何处理?A1:会区分原子指标、复合指标、衍生指标这几种场景。对于原子指标,直接从业务到度量,存储层面可以存在明细层。原子指标不存在跨域场景、不需要聚合。对于衍生指标、复合指标可能会涉及跨域的场景,在这种情况下需要考虑聚合到何种粒度。可以使用大宽表,也可以还在聚合层跨域查询。在存储层面,衍生指标、复合指标存储在 DM 层。对外服务中,指标在查询层面提供统一接口,原子指标直接查询明细层,衍生指标、复合指标通过路由调用最优的模型来处理。Q2:如何保证语义相同的词根不重复录入?A2:平台中有一些算法库,提供智能算法识别词根的近义词相似度。对于近似度高的词根,进行人工排查。发现近义词后,进行复盘,核实为近义词后进行词根剔出。Q3:对于同一个指标来自于不同的业务域、数据源、商品范围,数据应该如何处理?是先进行异构数据融合,还是分开建设。若是分开建设,如何保证这两个口径一致。A3:如果是同一个指标,数据源、业务域都不一样,首先需要判断是否真的是同一个指标。如果是同一个指标,需要明确指标的业务定义,涉及指标口径概念。比如,不同的商品范围会对应商品范围修饰词,在不同修饰词限定下是不同的衍生指标。指标开发中,结合不同的修饰词在实际业务范围中开发指标模型。可能在原子指标上是同一个概念、同一个过程、同一个度量词,在不同修饰词的背景下是不同的衍生指标,用不同的开发逻辑来处理。Q4:多模型绑定查询具体是什么?一个指标可以绑定多个模型吗?A4:参考从指标模型到指标实现的绑定这页 ppt。多模型绑定以 DAU 指标为例:可以通过每日活跃用户的明细表来处理,可以按照省份、渠道聚合后来处理。在模型层面上是不同粒度、不同维度的模型,但是都是 DAU 指标。不同模型的输出结果是一致的。不同维度分析的时候,可以更快的实现支持查询。在查询某个城市的 DAU 指标时,直接使用聚合后的模型更快速,不需要从明细表计算结果。路由查询通过查询维度选择最优的模型来实现查询。Q5:请再介绍一下指标血缘分析的方法。A5:血缘分析是一个全链路管理,包括生产链路和应用链路。生产链路中可以拿到数据的生产过程。不同的模型会有不同的数据生产上游。在 SLA 治理场景下,如果要提前数据产出时间,可以通过链路来分析上游各任务的生产时间,识别慢任务、卡点任务。发现上级任务中瓶颈点后,可以通过优化对应模型来改善。对于下游应用链路,主要是应用场景登记。通过应用场景登记,可以管控指标服务。比如,通过调用热度统计,发现下游调用方不再使用的指标服务,进行降级处理或者联系服务调用方后进行指标下线处理。Q6:指标绑定模型,还是模型绑定指标?A6:先有业务需求,先定指标,然后根据指标设计模型。指标模型做到一定程度,可以考虑数据进一步发挥价值。这种情况先有模型然后来生成指标。Q7:维度和修饰词划分的边界是什么?A7:维度是模型中的字段。修饰词是维度中的枚举值。比如:维度是省份,修饰词是山东省。以上就是本次分享的内容,谢谢大家。分享嘉宾
INTRODUCTION
肖继哲
字节跳动
懂车帝资深数仓研发工程师
2017 年加入抖音集团旗下懂车帝数仓 团队,一直从事业务数仓模型开发和数据服务建设的相关工作。先后负责离线/实时数仓模型开发、数仓开发规范制定、数据治理项目、数据工程服务应用等工作,目前主要聚焦于业务数据指标体系的建设工作。
课程推荐
往期推荐
谷歌关于AI技术与道德交叉点的思考与实践
京东BI智能分析产品演化及大模型实践探索
蚂蚁营销推荐场景上的因果纠偏方法
金融行业大数据治理的方向与实践
时间序列 AI 技术与大模型:蚂蚁集团的实践与应用探索
小红书推搜场景下如何优化机器学习异构硬件推理突破算力瓶颈!
如何从0到1构建一个好的用户画像平台?——快手画像平台服务端负责人
金融大模型的最优技术决策
腾讯音乐在音质 AIGC 的应用与实践
劳斯莱斯数据科学工程实践
EB 级存储规模 HDFS 在字节的探索与实践
全民K歌音频技术:灵魂歌手的升级神器!
LLM 在马上消费金融的应用实践
字节数据可视化 VTable——不止是高性能表格组件
兼顾降本增效,StarRocks 3.0 关于存算这对CP分离的最佳"姿势"
点个在看你最好看