导读 今天的分享主题是图技术在金融反欺诈中的应用。
主要围绕下面五点展开:1. 图在金融反欺诈中的应用背景
2. 图驱动的感知、研判、决策和处置
3. 图在金融反欺诈中的演进
4. 图在金融反欺诈中的总结和展望
5. Q & A
分享嘉宾|陈曦 蚂蚁集团 技术-应用-开发
编辑整理|罗佩
内容校对|李瑶
出品社区|DataFun
01
图在金融反欺诈中的应用背景首先来介绍一下图在金融反欺诈中的应用背景。1. 金融反欺诈的背景在金融信贷领域,随着黑产的欺诈能力不断升级,黑产的欺诈方式已经从早期的个体欺诈发展到了聚集性欺诈,并且从早先的单一欺诈模式演化出各种复杂多变的欺诈模式,形成了完整的黑色产业链,严重扰乱了正常金融秩序,给反欺诈风控造成了极大的压力。一方面,随着业务的发展,体系内数据量迅速膨胀且形式更加复杂;另一方面,我们与黑产的攻防是有很强时效性要求的,需要在早期萌芽阶段就进行预防,不能等到已经发展到很大规模才感知到,这样就太迟了,并且在风控的同时也需要做好风险管理与客户体验的平衡,以防误伤正常用户,影响客户体验。这些都要求风控策略具有比较高的精准度,也是反欺诈工作需要考虑的问题。2. 图在金融反欺诈中的作用
为什么我们要用图来解决反欺诈问题呢?这是由反欺诈的业务特性决定的。一个方面,反欺诈中黑样本的数量非常小,大部分用户都是正常用户,这导致了反欺诈数据集是极度不平衡的。如果采用传统的机器学习来做黑产的识别,并不容易达到比较好的效果。但我们可以通过构建关联关系网络,比如社区发现、标签传播等一些不依赖于样本平衡的图算法来解决数据稀疏的问题。另一方面,黑产是呈现聚集性风险的,从我们以往的经验来看,黑产行为之间其实具有很强的关联性,比如一个中介可能通过控制多个手机、多家店铺来进行骗贷,如果仅通过单用户的特征信息来看,很难发现这种聚集性风险。这种情况下通过图算法就可以实现数据升维,从更高的视角来看,更容易识别出黑产团伙。此外,黑产往往是有组织、有规模地进行欺诈,并且欺诈手段不断升级,演化出了许多复杂的欺诈模式,这种模式很难被信贷专家感知识别到。图挖掘技术可以帮助我们发现一些隐藏的风险模式,来打击黑产。3. 图在金融反欺诈中的案例
接下来通过一个具体案例来看图在金融反欺诈中是如何应用的。首先通过多维度视角配合对应的基础信息,比如特征、行为、资金等,我们通过对这些多源、异构的数据进行整合、抽取,可以构建出很多图资产,比如介质网络关系图、商户关系图、资金关系图谱。在这些图谱上,我们可以通过一些团伙挖掘的算法,识别出一些紧密关联的社区,然后根据这些社区中我们已经打标的黑实体,对社区进行打分,从而发现一些高风险的团伙,进行布控。 02图驱动的感知、研判、决策和处置
第二部分介绍图驱动的风控管理全链路的应用。整个风险管理主要分为感知、研判、决策和处置四个层面。 在风险感知的阶段,随着操作行为的发生,图谱也在不断变化,我们的系统会每天处理百亿级别的子图,去发现图中可能潜在的风险,比如通过实时的资金交易信息,我们可以实时进行一些资金异常的检测。在研判阶段,专家通过对一些已知黑用户的 case 进行案例分析,在这个阶段我们建设了研判平台,可以通过图可视化的方式对具体的案例进行分析,专家可以总结出一些常见的黑产套现模式,也可以进行手工打标,来丰富标签数据,沉淀专家经验。在决策阶段,我们可以将感知阶段的结果或者研判阶段专家总结的经验模式作为图特征应用到决策策略中去。最后根据决策结果,可以在处置阶段,对策略命中的人群或者商户进行处置,比如加入黑名单、降低额度等,也可以针对交易级进行实时的拦截生效。从这四个层面可以看出,图已经渗透在我们整个风险管理决策体系的全链路中。03图在金融反欺诈中的演进
图算法技术在金融反欺诈中经历了一系列演进的过程。图技术在金融反欺诈中的发展阶段:在最早期,没有使用图之前,风险管理大多是通过一些常规信息,比如收入、年龄,或者在行为上、时间上的一些统计性特征,比如历史的支用情况,信用情况等,提炼特征或者建立一些规则模型进行黑产打击。使用图之后,最初通过专家对一些案例的研判分析,发现一些图上具有高风险的行为模式,比如资金的闭环、资金的非正常流向关系等,我们依据专家经验所产生的这些风险模式,在图上进行精准地匹配,识别到这些风险模式所对应的具体客群集合,对这些客群进行个体打击。再进一步,我们从对个体的打击发展到对团伙的打击,通过一些图团伙挖掘的算法发现聚集性团伙,对团伙中的风险因子或者商户进行管控。由于反欺诈业务对图的依赖越来越强,我们也从历史的经验中沉淀了一些标准化流程,打造了一个风控图平台,通过平台来对风管的图数据构造、图研发任务、仿真、上线等流程进行整合,从而帮助技术同学进行研发提效,以更好的效能支持更多的业务,保证离线、在线、近线一体化,数据一致性、准确性以及业务稳定性,形成了一整套完整的图风控能力。近两年随着 AI 的发展,我们也期望能够通过技术算法的手段,自动发现一些风险模式或者特征,以补充专家经验,发现未知风险,为专家提供更多的防控思路。 下面具体来看一下每个阶段沉淀的一些能力。在第一个阶段,精准模式匹配时期,我们依赖专家通过一些黑产案例的研判分析,发现了一些图上具有高风险的行为模式,比如资金的闭环、资金的非正常流向关系等,在专家发现定义好黑产的风险模式后,需要根据这些模式精准定位到命中这些模式的具体的客群集合。传统解决方案中,所有的数据都是以二维关系表来进行存储的,对于这种匹配只能是通过多张表进行两两 join 的形式,而蚂蚁数据体量又十分巨大,每天的交易流水可能都有百亿级别,对于这种庞大流量的多次 join,二维数据库的性能极差,并且只能支持 T+1 做关联性的计算,无法做到实时拦截,并且对于不同的图结构要生成冗长的 SQL 语句,非常晦涩难懂。基于图结构进行建模以后,我们可以直接通过拖拉拽的形式生成一个图模式,平台可以自动解析为图 DSL 描述语言,并且通过图匹配算法可以在百亿/千亿图谱上进行快速匹配,在离线场景的性能比多次 join 大大提升,并且随着结构复杂性的提升,图匹配的性能提升越来越显著。同时,图的形式也很方便实现实时的检索,可以在毫秒级实时判断该流量是否具有风险,可以做到实时级别的交易拦截,实现极速的风险感知。 在第二个阶段,我们由点到面,实现了对团伙的管控。由于很多欺诈行为都呈现聚集性风险,许多欺诈节点之间都存在紧密关系,传统的人维度 embedding 的方法损失了许多关联关系信息,效果欠佳,且可解释性差。基于图,我们可以在动态图上采用图学习的方式,聚合时间空间等多维信息,以达到更好的模型效果。 在第三个阶段,由于业务对图的依赖越来越强,如果对每个需求单点研发,会需要大量的人力,且需求之间无法复用,效率较低,为了解决这个问题,我们沉淀了一个风控图平台能力,以实现规模化应用。该平台是基于蚂蚁内部中台基建TuGraph 提供的底层图能力进行搭建的,封装了图存储 PhStore、实时图查询Geabase、离线图计算引擎 Geaflow 等,来提供强大的底层存储和计算能力的支撑。目前 TuGraph 的部分工作已经开源,欢迎大家去 github 上去了解和试用。在 TuGraph 的基础能力之上,我们搭建了一整套完整的风控图平台能力,其中包括整合多源、异构数据的图谱数据定义、构建,图特征定义、图计算任务的研发、仿真、上线、调度与后续监控、运维等整套完整流程。平台目前已经沉淀了万亿图资产数据,可以支持在万亿图谱上实现大规模、长周期的仿真回溯计算。在整体流程基础之上,我们还将一些算法能力比如图模式匹配的能力、团伙挖掘等图学习的能力,封装为算法工具箱的形式,实现了开箱即用。至此,图在反欺诈中对于发现已知异常的技术能力建设已经相对完整。 进一步,我们开始考虑,如何脱离对专家的依赖,去发现一些未知的风险模式。因为实际还是存在很多业务无感知的风险模式,等专家发现问题总结出模式,这个周期会相对较久。我们希望通过一些自动化的算法能力,去挖掘未知风险,辅助专家进行分析。基于这个想法,我们又建设了图风险模式挖掘专项,来探索未知风险发现的问题。图风险模式挖掘的链路主要分为四个阶段,首先我们将体系内的关系数据做整合建模构建一张大规模底图,然后在底图基础上做图信息萃取,主要是为了过滤一些与风险无关的噪声数据。在萃取的图谱上,我们通过图挖掘技术挖掘出一些潜在的风险模式,并且通过图匹配技术完成对风险客群的召回,最终根据业务指标进行风险量化的评估,沉淀下来的风险模式,可以进行上线做实时策略的拦截或者异步/离线客群的处置,形成完整的闭环。图挖掘本身是一个 NP 问题,整个搜索空间巨大,我们在算法层面,采用了预剪枝与启发式的搜索方式,来实现快速图挖掘,并且通过与清华高校合作,用 GraphPi 算法解决匹配中的同构问题,实现大规模数据的高性能匹配。在工程层面,我们借助 phstore 的共享存储能力以实现百亿级别的图挖掘,并通过分布式的工程实现提升整体挖掘效率。本案例在中关村第 11 届数字金融大会获得了金融科技应用场景创新优秀案例奖项,并且与清华高校合作项目,多篇论文与专利在投。 04图在金融反欺诈中的总结和展望
最后对图在金融反欺诈领域的应用进行一下总结和展望。目前,图在整个反欺诈的事前-风险感知预测、事中-申请/支用拦截、事后-风险监控处置中都有广泛的应用场景。我们通过对业务图数据建模,再到风险研判分析、研发仿真测算、最终生效决策这样全链路的能力建设,实现了图风控的全链路应用,图的样本增强、数据升维以及风险强可解释这些特性,使得图成为欺诈防控的一大利器,在反欺诈的各个阶段都发挥了重要作用。 在未来,我们期望能够从已知风险的发现再向前一步。目前 AI 发展十分迅速,我们也期望能够进一步结合 AI 的能力,帮助我们发现更多业务无感知的未知风险,实现真正意义上的主动攻防,净化整个金融市场环境。 05Q & A
Q1:时序图模型现在有成熟的方案吗?A1:有的。时序图模型主要还是通过时间戳来完成,因为相当于是我们做整个仿真,就是站在某一个时间点去看历史的数据在当前时间点上的表现,这个在tugraph 引擎上有比较成熟的解决方案。Q2:另一块实时性的问题是,整个图 graph 实时度的接入和数据查询并发能力是什么样的?A2:这种实时的查询其实基本上都是通过,比如说一个具体的节点来去触发的。在 tugraph 上,我们的百亿甚至千亿的图谱,基本上两三度之内的大部分查询,都能在毫秒级别来做出响应。Q3:时序的图模型是怎么处理时序信息的?A3:我们这边对时序的处理,基本上还是把时间作为一个编码的方式融合到模型当中,来实现这种时序的识别。Q4:有时候图数据规模很大,而节点很少,这种图技术能解决问题吗?
A4:可以的,我们可以根据不同的场景去构建不同的图谱,进而解决相应的问题。我们在真实的案例中也是这样做的。以上就是本次分享的内容,谢谢大家。分享嘉宾
INTRODUCTION
陈曦
蚂蚁集团
技术-应用-开发
复旦大学硕士毕业,在蚂蚁集团主要负责图领域技术应用,致力于应用图挖掘技术解决风险管理业务中的实际难题,推动风管技术的创新与效率提升。
活动推荐
往期推荐
聚焦电商场景,详解抖音集团埋点及归因分析方案
金融场景中的指标体系建设与应用
指标归因在互联网平台的应用
弱监督建模技术在蚂蚁风控场景中的探索与应用
京东RaftKeeper2.1发布,让CK告别ZooKeeper!
Apache SeaTunnel——OLAP 引擎的数据动脉
DataFunCon北京站精彩回顾|附PPT 下载方式
数据在零售供应链领域的应用
在交叉小径的花园随机漫步
点个在看你最好看
SPRING HAS ARRIVED