火山引擎VeCDP: 如何0-1构建与应用标签体系

导读标签作为企业数字化营销的基石,在企业运营与营销场景下发挥着重要的作用,通过标签体系,企业可以更好地了解消费者的需求和行为,丰富用户画像特征,帮助企业优化产品设计和营销策略,提高产品的市场竞争力。因此,企业需要从业务场景出发,构建适用于自身业务模式和逻辑的标签体系,为企业的精细化运营及精准营销服务,进而深入挖掘潜在的商业价值。本次分享将介绍标签及标签体系的概念和应用,包括对业务对象的特征抽象和服务上层业务场景,以及标签体系的信息架构和分类设计思路。构建标签体系时需要兼顾合理性和灵活性,考虑可追溯性、实时性、权限管理等因素。标签体系的构建是一个完整的闭环,通过活动数据可以进行分析洞察,然后根据洞察结果留存好的标签,抛弃不相关的标签,形成企业合适的标签库。企业规划好的整套标签体系服务于各个业务部门,如果需要使用不同的标签,可以进行分类和授权标签,实现动态快速扩展。

本次介绍会围绕下面的内容展开:

1. 标签及标签体系介绍

2. 标签体系的核心设计思路

3. 标签体系建设流程与方法论

4. 标签应用的价值与典型案例

5. Q&A

分享嘉宾|黄杰 火山引擎VeCDP产品负责人编辑整理|天天内容校对|李瑶出品社区|DataFun

01

标签及标签体系介绍首先介绍标签和标签体系的基本概念。火山引擎VeCDP的标签最终服务于上层的业务场景,例如营销、分析等场景。而标签体系是对标签的一种组织方式,对标签进行分类,形成一套可以长期稳定使用并且适用性较强的框架。

02

标签体系的核心设计思路

在建立整体的标签体系之前,第一步是做好标签的设计。

标签设计,需要梳理好整个数据的流程,业务的场景。

在做营销活动的时候,会用到两个核心对象,第一是标签,第二是群组。接下来介绍一下这两者之间的关联和区别。

标签主要是提取客户特征,对客户进行一些画像洞察。群组主要是针对某场营销活动,圈选某个客群进行营销和分析。前者是进行特征的抽取,后者是做服务与活动。由于标签是特征的提取,所以在系统中留存的时间会更长。而群组主要是为了某个活动,服务完该活动,其生命周期理论上就结束了。另外一般对于品牌方或者说企业主而言,标签是数据分析师或IT人员去构建的。而群组,可能更多的是运营这样的业务角色去使用。概括而言,标签更多是面向客户数据的抽象加工,群组是面向活动进行的精准的人群圈选。

在构建标签时,通常会用到三类数据:行为数据、属性数据和业务数据。

  • 行为数据:是通过各个业务系统,或者其它第三方应用上的埋点采集得到的线上线下的数据。

  • 属性数据:是用户的一些基本资料、会员属性、微信基本属性等等。

  • 业务数据:比如订单类数据、消费类数据,或是客服的一些工单、咨询单之类的数据。

基于以上数据,可以通过标签规则或者模型去构建标签,基于这些标签,可以在上层构建分群。

构建标签体系的时候需要兼顾合理性和灵活性。合理性主要是从业务视角出发,而灵活性主要是工具的视角,需要满足各类业务场景。下面从四个细化的层面去介绍。

首先是可追溯性,指的是可以对标签做一些历史的回溯,通过洞察标签变化,可以了解到整个客群全生命周期的变化,同时也可以了解整个营销活动的执行效果。

其次是数据和计算的实时性,标签可以分为实时标签和离线标签。实时标签能够支持对营销要求更高的一些场景,例如金融行业储值金额达到一定数值的时候,需要实时去做一些营销,此时标签的构建是依赖实时数据,实时生产的。

再次是标签制作的灵活性,上文也提到在构建标签的一些数据和规则方面,执行频率都可以灵活配置。

最后是生产和使用流程的强可管理性,会体现在标签的权限方面,以及服务上下游的相关应用,例如对外提供的一些API,提供数据输出的能力,Kafka消息订阅的能力,记录标签的增删改查相关信息,标签的上下架操作,标签审批的管理等等。

03

标签体系建设流程与方法论

大部分客户在构建标签时会遵循一个标准流程,如下图所示。

第一步是明确需求,梳理业务场景和流程。之后就可以知道如何接入何种数据,上文也提到,接入的数据一般是包括属性行为,以及业务相关单据的数据。接入这些数据之后,接下来就可以构建规则,真正把标签构建出来,其中包括一些标签的分组以及层级的构建。标签构建之后,就可以去圈选目标人群,从而去做一些营销活动。对这些活动进行洞察,同时结合标签事件等各种信息就可以更好地去做标签管理,修改标签规则,重新上下架一些标签。其中也可以去做标签的价值评估,即哪些标签是更有意义的标签,标签后期的建设方向等。最后会产生优化策略,它会体现在新需求的输入,从而形成一个全流程的循环闭环。在企业内部,整个标签体系的构建,其实是一个持续构建的过程。构建标签时,会遵循5W2H的分析方法论。

首先是What,即针对何种场景,例如客户生命周期场景或是会员营销场景。然后是Where,即依赖什么样的功能模块,例如是否需要一个算法标签或是基本的规则标签,是否需要依赖于群组的一些信息。第三是When,即什么时候需要上线标签。第四是Why,即构建标签的原因,例如需要做洞察或者营销转化,又或是需要服务于客户,做一些客户关怀。第五是Who,即谁构建标签,如前文所述,可能是业务也可能是IT相关人员,其所用的标签工具也会不同。第六是How,即如何构建标签,例如构建RFM标签、统计标签,或是普通规则标签。最后是How much,即构建标签能够产生多少业务价值。

从标签体系的整体设计来看,第一步是最底层的规划主体。此时需要去梳理各个主体对象,梳理对象主体之间的关联关系,梳理数据源和具体数据类型。接下来就是探查数据,包括前文讲到的基本属性、行为数据、订单数据等,数据是实时还是离线,如何去接入。数据梳理清楚之后,接下来是构建标签类目,这是更偏业务层的设计。数据产生之后,会先做一些探查式分析,从而可以了解客户群体是何特征,之后再去构建标签类目,拆分类目,最后需要把标签内容设计出来。整个设计标签的过程中,前期规划,内部对齐,标签的口径的对齐以及数据梳理,都是非常重要的。接下来介绍标签内容和类目的设计。

上图中结合具体的业务场景,将客户按照不同的生命周期进行了分类,例如可以分为沉睡客户、潜在客户、活跃用户以及忠诚用户。有了这样的客户分类之后,就可以去做具体的规则定义。沉睡客户,可以定义为过去30天其浏览次数比较少的客户;潜在客户,可以定义为除了沉睡客户之外的那些没有互动的客户;而活跃客户是有一定互动的客户;最后忠诚客户是互动相对来说非常高频的,并且有邀约一些新的客户即老带新的一些行为。于是就可以去定义清楚整个客户的生命周期,以及对应的规则。有了这些规则及客户标签的定义,就可以针对不同的客户有相应的处理策略。针对沉睡客户,需要对其进行激活;针对潜在客户,需要进行持续的互动;针对活跃客户,需要促成订单转化;最后对于忠诚客户,需要持续地让其产生复购。接下来介绍标签体系的数据链路,具体包括VeCDP系统中数据采集的步骤和标签构建的方法。

首先要做标签相关数据的采集,需要连接外部各种各样的数据源。数据采集完成之后,需要做数据的加工处理,针对这些数据需要做ETL以及表间join操作。接下来是VeCDP系统中的一个核心能力,ID打通。会设计ID的优先级、生存策略以及参考关系,之后把各渠道ID做整体的融通。最后需要把数据落到VeCDP中,成为基础的属性数据,行为资料,以及业务订单的数据,还有一些其它的明细数据和维度数据。

主体又称实体或对象,针对不同的行业,规划出来的主体也是不一样的。例如汽车行业,通常将业务对象梳理成两个主体,即人和车。围绕着人的标签体系,包括基础属性信息,在一些媒体点位的互动行为信息,以及留资相关信息等。同时围绕车,会有一些汽车相关的信息,包括维修保养以及车联网采集到的信号信息。在其它行业,也是类似地,可以梳理出不同的主体。

接下来基于梳理出来的主体去构建标签。在火山引擎VeCDP中,提供了十几种标签构建的方法。其中规则标签是基于一些规则去组合,生命周期标签是围绕其生命周期去打标签。首末次标签是基于用户首次及末次行为去构建一些标签。偏好标签,需要统计用户行为信息,观察用户集中行为聚集在哪些方面,之后做一些排序,就可以得出偏好信息。

标签的更新频率,可以设置整体上是实时还是离线,如果是实时计算,理论上就是一个实时标签。如果是离线计算,可以去配置其更新类型,例如手动更新还是定时更新,执行的频率可以选择天级、周级或者月级等等。

离线标签和实时标签有着不同的适用场景,在规则和一些限制方面都会存在差异。从更新方式来看,离线标签会更强调手动更新或者按周期去更新,而实时标签则是实时计算,一般是由某个行为事件或者某个消息触发去做实时更新。从参与计算的数据来看,离线标签基本上是全量的业务数据都可以参与计算,而实时标签则需要考虑计算的性能,是有限的数据参与,针对一些时间序列数据,像订单数据和行为数据,可能会限制一定的时间范围,例如一天或七天内。从复杂性来看,离线标签复杂性相对会更高,实时标签相对低一些。从适用场景来看,离线标签主要用于画像分析,实时的要求不那么高。但是实时标签可能会在一些实时营销,当达到某个标准之后要实时地给用户发券或者是告警。

接下来介绍标签价值的评估。

在应用标签的过程中,可以采集到标签在系统中的使用信息,进行价值评估。首先是标签的覆盖量评估,包括标签覆盖数量和覆盖率。第二是标签值的分布,包括标签值随时间的变化以及趋势。第三是标签的使用热度,哪些标签是高频使用的,哪些是相对低频使用的。第四是标签稳定性,由于标签本身依赖于各种各样的上游数据,不同的上游数据会导致标签在实际计算的时候,整体稳定性是有差异的。第五是标签的关注度,主要统计标签收藏的相关情况。最后是标签优化率的评估,主要是指标签在持续应用的过程中,哪些标签可能会被频繁变更。通过评估以上维度,可以得知哪些标签是高频应用的,哪些标签是有价值的,哪些标签是可以持续去做一些优化的,从而指导后期标签体系的构建。

04

标签应用的价值与典型案例

接下来介绍标签应用的一些典型案例。

个行业都有不同的标签体系,零售行业会根据用户画像和订单行为构建标签和画像;汽车行业关注线索到店、线上互动和市场活动等流程;金融行业主要基于客户交易、资产和负债情况构建风险评估和客户价值评估。除此之外,火山引擎VeCDP还会在一些泛互联网行业中应用,所以整个标签更体现其工具性。

首先来看一下汽车行业。

会按照消费者生命周期以及使用流程,去构建其标签体系。包括一些基本信息,还有一些行为的数据。行为数据包括线上行为以及线下行为,另外还有一些消费信息以及相关的售后信息。由于汽车行业是高客单价的行业,所以会更注重售后的管理。另外,在一套标签体系下,不同部门关注的点是不一样的。销售部门会更关注线索、到店、下订、试驾这样的用户流程;运营部门则更关注线上互动,包括签到、评论、分享以及精品消费等等;市场部门会更关注整个市场活动的留资、下订行为。接下来介绍零售行业。

零售行业相对而言标签会做得更加精细化。围绕用户画像,通过其订单互动行为,基础信息,去构建整体标签规则和画像。另外,零售行业除了使用第一方的数据,同时也会去采集第三方的数据做一些补充,然后去构建其完整的画像。除了用户画像还会做商品画像,商品作为一个独立的主体,围绕商品的一些基本信息、价格策略、库存信息以及售卖情况去构建标签和画像。最后还有门店画像,包括门店地理位置、类型、门店业绩以及在售商品等。在零售行业会利用各个主体之间产生的关联关系来构建一些标签,例如用户和门店之间,用户会有到店的动作,用户在门店中有消费动作,包括用户买了何种商品、浏览了何种商品,通过这样的一些关联关系的组合去做营销。接下来介绍金融行业。金融行业标签大致有如下图所示的分类。

首先是原始信息,包括客户交易、客户资产、客户负债以及客户持有的产品情况。基于这些内容,可以去构建客户风险评估,以及客户价值评估,从而构建整个的标签体系。

标签体系的构建是一个完整的闭环,通过活动数据可以进行分析洞察,然后根据洞察结果留存好的标签,抛弃不相关的标签,形成企业合适的标签库。

在高客单价营销场景中,针对一些线索,会围绕线索做标签的打分,生成一些数字类型的标签。会有正向打分机制和负向打分机制。正分机制包括属性信息、信息完整度、最近的互动行为信息以及留资信息,还有客户本身跟销售员的互动信息。而负分机制主要包括客户在电话中明确拒绝,或者是有战败线索,此时会打上负分。最后会得到一个总分作为线索的评分。

精细化营销更多是体现在一些低价高频的营销场景,例如发放优惠券的场景。首先把一些客群批量圈出,围绕优惠券使用场景,比如最近180天用券次数,最近30天用券次数,近7天用券次数,以及客户对优惠券的敏感度。有一些客户可能会更关注低价优惠券,希望打折力度更大。基于优惠券使用的信息,可以给客户做一些标签画像,去服务于上层的营销场景。

基于标签可以去做一些分析洞察,比如客户行为分析、画像分析、流程分析等等。首先构建好标签,然后去做活动,之后会产生活动数据,基于活动数据,可以再做一些分析洞察。分析洞察后可以得知哪些标签可以促成转化,哪些标签跟整个活动效果是不相关的。从而可以把好的标签留存下来,去服务于下一个标签体系的构建。坏的标签就可以逐步抛弃掉,最终形成适合企业的标签库。以上就是本次分享的内容,谢谢大家。

05

Q&A

Q1:正向评分是直接加工标签出分数,还是根据标签转化分数?

A1:这个是直接以标签作为分数,基于一些原始的信息,即前文讲到的一些属性信息,一些行为的统计信息,还有一些订单信息,去把这个分值打出来。这个分值最终是落在标签上,这个标签其实是一个数值类型的标签。

Q2:标签形成人群分类如何做触达,通过什么技术能触达,效果如何?

A2:先讲一下标签如何做触达,其实一般来说就是前文讲的一个CDP的系统里面更多会去构建标签和分群。如果实际去做触达的时候,一般来说会结合一个MA的系统。MA系统里面触达的时候可能会做一些短信,APP Push,或者微信模板消息等其他的一些方式做触达。整个CDP加上MA会形成完整的营销系统的闭环。像火山这边,是有一个像GMP这样的一个产品去做MA的工具。

Q3:关于标签评分,例如满分40分,打了24分,具体是如何评分的?

A3:很多时候在评分前,如前文所述,围绕评分这个事情其实是有一点偏主观,但也是有一定策略的。一般在做标签规划的时候,前期是先做分析,围绕分析,先去把整个客群的洞察做好。然后就可以知道整个客群大概的情况。基于大概的情况,例如先把整体行为的一些统计,一些数字类型进行分析,就可以知道大概的分布情况。从而就可以知道要判断哪个分值是属于高价值的,哪个分值应该是属于低价值,结合第一次判断好之后,做好这样的一个规则并且打分,并实际服务于营销,之后再基于营销的结果,反过来去倒推之前做的打分是否合理。

Q4:根据手机号做唯一标识会出现误差,怎么避免类似误差?

A4:一般来说跨渠道的数据打通主要依赖的是手机号码。然而手机号码有可能会存在一定的误差,但一般来说企业方会去规避这种误差的方式,就是通过手机号码去做验证码验证。我们也会基于像微信生态的Union ID,做一些跨渠道的打通,相对来说也会更准确一些。

Q5:跨客服的标签能复用吗?

A5:一般来说企业规划好的整套标签体系就是服务于各个业务部门的。当然如果说要在不同的部门使用不同的标签,会做好标签上层的分类,以及相关的一些授权。

Q6:标签是否可以实现动态快速扩展,业务在极短的时间,如一天内能否要求生成新的标签及人群圈选做推送?

A6:这个是可以的。我们的标签工具是可以让业务人员在短期内快速去构建,只要配置好规则,点击保存生成这个标签,可能在1分钟之内就会快速给相应的客群打好对应的标签,之后就可以直接服务于下游的人群圈选和推送。

Q7:如何保证标签的质量?

A7:主要是从两个方面,一是业务,二是技术和工具。业务方面就是前期要做好标签整体的梳理,在技术和工具方面,首先会保证其稳定性和性能以及规则的合理性。另外前文也介绍了标签价值评估的一套体系。围绕标签价值评估,可以持续去迭代整个标签的质量。

Q8:标签底层存储和计算使用的是什么框架和技术,能够无缝迁移到云环境吗?

A8:火山引擎VeCDP主要是提供整体系统的一个解决方案的交付。底层用于标签的存储和计算,使用的是ClickHouse,我们也提供了一个云环境去服务客户的。

Q9:业务使用标签时经常会对标签的技术口径进行确认,花费较长时间确认。你们会面临这样的情况吗,一般怎么避免投入大量的时间和问题?

A9:标签口径的确认,如前文所述,经常是需要去做好这样一个整体口径的对齐,以前我面对的一些客户,他们有一些比较好的做法,即他们会把标签做好一些拆解,然后做每个原子的描述的定义。比如说最近七天,他会清晰的界定最近几天是怎样的一个定义。如果是订单,就会定义哪些订单参与这个标签计算,例如消费金额为零的要剔除掉,下单时间在某个时间的要剔除掉等等。客户会做好整体描述沟通的一个文档。每次跟技术同学去沟通的时候,都是基于这样的一个中间文档去做沟通。所以后面在上层去描述其标签规则时也会非常的顺畅。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


黄杰


火山引擎VeCDP产品负责人

2016年毕业于上海交通大学,同年加入Convertlab一直到2022年,这6年期间主要负责自动化营销产品(DM Hub)和客户数据平台(Data Hub)产品的设计工作,2022年入职字节跳动火山引擎,负责客户数据平台(VeCDP)产品。

限时免费资料



往期优质文章

往期推荐


纵腾湖仓全链路落地实践

知乎的缓存加速:Presto的进化实战(长文解读)

阿里巴巴数据模型设计与构建实践

B站数据质量保障体系建设与实践

轻松利用日志动态分析平台玩转Nginx运维管理

九章云极DataCanvas多模态大模型平台的实践和思考

开源数据库 MatrixOne 的 HTAP 分布式架构演进

Abase2: NoSQL数据库中的CRDT支持实践

国产开源湖仓LakeSoul--数据智能的未来方向

网易大数据智能运维平台 EasyEagle

(一文读懂大数据行业)-面向百度商业数据产品的全流程 DataOps 实践


关注我们获取更多信息......

相关推荐

  • 谷歌20亿美元砸向Anthropic:大模型军备竞赛升级
  • 首个人体动捕基模型面世!SMPLer-X:横扫七大榜单|NeurIPS 2023
  • Nature | 全世界1/3博士后每天使用ChatGPT,不用AI工具影响找工作
  • AI智能超越人类终破解!李飞飞高徒新作破圈,5万个合成数据碾压人类示例,备咖啡动作超丝滑
  • 更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA
  • 用50多年时间,探索最令人困惑的复杂性理论知识极限
  • 比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
  • 元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法
  • 比亚迪新招30000多名应届生!
  • 北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招
  • 多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大
  • 颠覆《时间简史》,霍金的终极理论面世
  • 起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7
  • 中国AI平台最新格局出炉!百度综合得分第一,第二梯队竞争激烈,大模型加速云厂商进化
  • 不愧是神级Java项目!
  • 老友记扮演者钱德勒去世,心脏骤停
  • 字节员工:房子跌的把我N+1赔偿给亏进去了
  • Contentsquare 使用微服务和 Apache Kafka 来发送通知
  • 2023 年 AI 与开源行业:今年第一篇盘点文章出炉了
  • 头脑正常的人绝不会创业!英伟达 CEO 黄仁勋:如果能够重来,宁愿放弃创办公司