中国工商银行软件开发中心自建广告智能投放平台的技术思考

作者 | 工行软开中心 01 数字化营销创新

在数字经济浪潮中,银行业的数字化转型不仅是跟随时代发展的必然选择,更是面对日益激烈的市场竞争所采取的关键举措,其中数字化营销和数字化运营成为重点。传统的银行业与新媒体广告投放的结合正在成为商业银行营销新模式,这种新型获客渠道的拓展有助于精准触达及获取更多外部用户。

中国工商银行软件开发中心(以下简称“工行软开中心”)引入主流新媒体广告模式,打造一站式广告智能投放平台——端外投放平台。与传统渠道触客模式相比,端外投放平台实现了外部新媒体流量的统一对接,截至目前已覆盖包括腾讯系、抖音系、快手、手机厂商流量联盟等广告位。平台将行内产品、权益等通过内容创作,以短视频、图片等多种形式投放到新媒体渠道上,通过人群定向技术与智能竞价模型算法实现客户的挖掘分析及广告位的智能竞价和自动投放,最终实现精准营销。

工行软开中心的端外投放平台建设和实施过程中,由于金融业在信息安全、数据使用合规方面有强监管要求,且各项业务的客户数量普遍较大,因此在用户识别、智能出价、广告竞价等环节存在一些技术挑战。比如,如何在数据不出域的前提下完成用户识别,如何保证海量数据传输时效等。本文聚焦这些技术主题,对所涉的技术方案和实现进行详解和分享。

整体业务流程图

02 技术实践

平台围绕广告创建、广告投放、数据回流的业务流程,构建了五大能力,包括广告管理、竞价引擎、算法引擎、数据中心、质量 / 风控管理,其中竞价引擎、算法引擎是平台最为核心的能力。

系统架构图

在竞价引擎的核心能力中,为保障在竞价过程中及时将参竞信息返回给媒体平台,必须做到系统中 40 毫秒内完成应答闭环。各环节主要包含证书卸载、媒体方适配、用户过滤、创意检索、创意过滤(时间过滤 / 状态过滤 / 流速管理)、资金安全水位过滤、疲劳度过滤、创意召回、智能竞价等。为达到 RTT(round trip time 往返时延) 的要求,我们做了以下两大优化。

存储查询优化:在上述环节中,凡涉及数据库、缓存系统查询的,一是要优化数据分布。通过分布键的设置,来解决键热点问题;二是要提高数据查询效率。通过批量数据查询的方式,来解决创意召回较多时出现大量超时的问题;三是要优化缓存。通过尽可能缓存数据,比如 ID 映射的数据需要定时批量缓存到缓存系统,小规模广告管理数据定频缓存到本地 JVM 中。

程序设计优化:当广告计划、广告创意、广告投放嵌套层数多时,会造成严重性能问题。我们通过优化循环算法来减少循环层数,提高计算效率,压低竞价延迟。

系统时序图

此外,我们在算法引擎上也引入了诸多优良的架构与模型设计方法,以满足低成本、高转化的业务场景需求。比如:

1) 人群优选

人群优选功能分为用户识别与人群扩展两部分。在用户识别部分,为实现外部媒体用户与行内用户的匹配,我们利用隐私计算技术实现行内客户与媒体平台用户信息关联及匹配,提升目标客群定位的精准性。在人群扩展部分,我们使用半监督学习中的 PU Learning(Positive Unlabeled Learning)技术,实现了人群扩展功能,解决了广告投放中起量慢、放量难的问题。通过不断重复训练与迭代正样本与伪标签样本,逐步提高伪标签样本上的正确率,使得模型收敛至最优解。最后使用该模型对样本外的用户进行预测,将预测为正样本的用户加入定向人群,从而实现对任意业务进行一键式人群扩展。

2) 创意召回

为保证召回质量,减少后续精排模型与出价策略的压力,同时提升召回服务的稳定性,我们构建了多路融合创意召回的能力。多路召回包括热度召回、规则召回、向量化召回等多个召回通道,各召回通道的召回数量由融合模块决定。融合模块是一个在线运筹求解问题,监测各召回通道的转化率、成本偏差等业务指标,求解在线最优化问题决定各召回通道的召回数量。

3) 广告出价

对于召回给出的创意列表,还需要进行预估与出价,从而得出当前流量下价值最大的广告创意,使单次竞价的收益最大化。在预估转化率的过程中,面临的最大难点是不同业务场景的出价点不一致,多目标模型难以收敛,我们为此构建了统一的多任务转化率预估模型。该模型使用一个共享子模型抽取各业务之间的通用信息,针对各业务场景转化目标不同的特点,分拆多个子模型用以拟合各场景特有信息,通过结合通用与特有信息,得出最终预测结果。使用多任务模型可以减少资源占用,提高信息利用效率。通过多任务转化率预估模型得出各创意的预估点击率、转化率之后,算法引擎将创意列表输入出价模块。我们综合考虑用户偏好、产品信息、创意素材等信息,基于实时数据、离线模型、反馈调节等技术,开发智能出价产品。相对于人工出价产品,智能出价产品可以达到资金、客户、渠道、创意的最佳匹配,以较低成本实现广告曝光、点击和转化。

03 未来展望

下一步,工行软开中心将持续推进端外投放平台建设,把大模型技术引入端外投放平台,收集标注数据基于 RLHF 构建行内广告投放业务专用大模型,利用 AIGC 能力加速广告创意生成,利用 RAG 技术(Retrieval Augmented Generation,检索增强生成)基于用户反馈文本内容指导广告投放策略等,探索技术应用更好地为广告投放赋能。

今日好文推荐

90 后华人团队真来砸程序员饭碗了!推出全球首个 AI 超级工程师:拥有全栈技能,一个指令就能完成整个开发过程

TikTok 拼死一战:弹窗 1.7 亿用户强势反击,国会 1 分钟 20 个电话被打爆

微软 Copilot 生成暴力色情图且拒不更改,内部工程师绝望举报至政府!

奥特曼无罪重返董事会!谷歌华人工程师被捕:号称自己能力“全球仅10个”;美国要求字节跳动半年内剥离TikTok  | Q资讯

相关推荐

  • 智谱、月之暗面、阿里、字节、vivo、达观数据等专家深入剖析 RAG 技术及其应用,AICon 邀你共鉴前沿
  • QCon 大会偶遇大佬,聊聊 ZingJDK 和 JVM
  • “微软已经沦落为 OpenAI 的一个 IT 部门”!资源倾斜引发微软内部员工不满、高管离职
  • Java程序员必备咖啡杯
  • 程序员逆袭CEO总共分几步?
  • 微信全新Linux版本开放下载——基于原生跨平台方案重构
  • 没事别想不开去创业!
  • 大学教师磨洋工的十大惯用招数
  • GPT-4.5 疑似面世,OpenAI 官网网页被索引,最快明天发布?
  • Kimi Chat ——愿称之为国内最好用的AI办公助手!
  • GitHub顶流"Web OS"——运行于浏览器的桌面操作系统、用户超100万、原生jQuery和JS编写
  • LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力
  • 4万亿个晶体管,单机可训练比GPT4大10倍的模型,最快最大的芯片面世
  • 智能体的ChatGPT时刻!DeepMind通用AI向人类玩家进化,开始理解游戏
  • 零一万物API正式上线:支持输入30万汉字,看不懂《百年孤独》的人有救了
  • 能说会看会行动,OpenAI机器人,一出手就是王炸
  • 大模型RAG问答技术扫盲:RAG的基本认识、演变、关键技术、增强方案及潜在挑战
  • 20240313大模型进展早报:兼论大模型FAQ生成及RAG多轮问答
  • 深度学习训练过程可视化(附github源码)
  • 深度学习模型加速方法详解:以ERNIE工业化部署为例(速度提升7倍)