快手是如何利用Bandits算法，助力业务提升数十倍的？

嘉宾 | 谢淼编辑 | 李忠良在 3 月 17 日和 18 日 ArchSummit 全球架构师峰会（北京站）上，InfoQ 邀请了快手高级算法专家谢淼博士，来为大家分享《在线优化技术在快手联盟上的实践和产品化》。他即将为大家分享如何基于 Online Bandits 算法为深度学习模型插上“探索”的翅膀，及落地快手广告系统的最佳实践。本文为演讲预告文，欲知更多细节，欢迎莅临现场交流。

在线赌博机技术（Online Multi-armed Bandits，MAB）是针对序列决策环境面向冷启动问题的在线强化学习技术，在平衡探索和利用程度的同时，使得在线系统的累计业务指标最大化。

近年来，随着在线赌博机模型及算法在理论方面的研究逐步深入，针对多种复杂问题环境，提出了各种具有可证明理论上界的算法，已经从针对医疗效果实验的应用场景逐渐扩展到众多互联网在线广告、推荐和素材优选系统中。

虽然适用范围逐渐扩大，但是在实际场景中落地并取得稳定收益并非易事，一个核心的原因是，在线赌博机算法的理论研究与实际业务问题之间的 Gap 依然很大，理论上所需要的假设，业务中可能并不严格满足；相反即使满足环境假设，现有 Bandits 算法也未必是能在该业务中取得最大收益的算法，存在调优空间。

因此如果能够搭建出一套接入方式简单，具有典型避坑能力的 Bandits 算法产品，则可以帮助大量有需要的业务，以非常低廉的成本，缓解真实环境中的冷启问题，支持业务良性快速起量。

在快手联盟中，我们尝试利用多种 Bandits 算法帮助内循环广告业务起量，获得纯算法收益预期花费 100%+ 的业务效果，整体业务提升近数十倍，在此过程中，我们积累了一条能帮助新业务，从双侧冷启阶段到单侧冷启阶段，再到多维度起量阶段，最终过渡到数据量充足的模型预估阶段的全生命周期解决方案。

依赖在多种业务问题上的实战经验，我们搭建构建了工业级 Bandit 算法产品，支持快速部署，标准化接入，具有避坑能力模块，例如算法生效范围圈选等，在算法能力上，我们结合 AutoML 的思路，支持为给定的业务场景，自动寻优出最佳 Bandit 算法的能力，且构建了基于深度模型和 Bandits 的离线在线混合学习机制，持续为深度模型插上探索的翅膀。该产品已在快手多个业务上完成验证，并取得了显著收益。

我们希望后续能持续完善该算法产品能力，构建该技术从理论到应用的桥梁，走出一条从技术 ->产品 ->业务的闭环。

在线学习技术的研究进展

在线赌博机算法是面向选择性问题的一种在线优化方法，几乎所有的选择问题，都可以被视作为 Online Bandit 的应用范围。在线赌博机模型的一般问题形式，可以简单表述如下：一个选择性问题实例，假设包含 N 个候选项（称之为 arm），算法策略每次可以从中选择 K 个 (K >= 1); 如果有多组独立的问题实例，则称为不同的赌博机（machine）。智能体与环境的交互过程分为 T 轮，即由 T 个时间步构成的一个序列决策问题 (t=1,…,T): 每个时间步，智能体背后的策略算法，可从 N 个 arm 中选择 K 个 arm，作为本时间步的决策行为，环境每次会依赖智能体的决策行为，给出一个反馈向量（称为 reward)，基于该反馈向量及其历史信息，作为下一轮选择的依据，重复步骤 1 到 3，直到 T 轮。在整个 T 轮的决策过程中，算法的优化目标为：最大化累计收益（reward）。但是由于累计收益的最大真值有时无法显示计算，因此引入累计后悔度的概念，可以证明，累计收益最大化，等价于，累计后悔度最小化。

我们调研了近五年来，在 NeurIPS、AAAI、IJCAI、ICML 等 11 个国际顶级会议上发表的 Bandits 400 篇相关论文，发现与 Bandits 相关的论文从 2016 年的 50 余篇到 2021 年的百余篇，数量呈明显上升趋势，大部分论文在提出新的问题建模和假设的同时，都提出针对新建模形式的可证明累计后悔度的理论上界（Upper Bounds of Cumulative Regret) 的算法，逐步推动 Bandit 在理论上的不断突破。

具体而言，研究进展可以被大致归纳到如下优化方向，提出新的环境假设，从最初问题定义的随机环境（Stochastic Bandits【1,2】）到非静态环境（Non-Stationary Bandits【3,4】）再到对抗环境（Adversary Bandits【5】），乃至提出了各种分布式系统环境（Decentralized Stochastic Bandits【6,7】和 Strategic Arms【8】）等；

针对 Reward 分布进行优化，从伯努利分布【1,2】、到高斯分布【9】、长尾分布【10】、Logistic Bandit【11】、Unbounded Reward Distribution【12】等；

从 Arm 的角度进行优化，将 arm 的定义从有限的离散型元素扩展到无限的连续型元素，例如 Lipschitz Bandit【13】、X-armed Bandit【14】, 再到可支持在线连续型变量的实时调参任务的 Hyperband【15】；

针对 Arm 之间关系进行建模优化，提出了 Clustering Bandit【16】，Clustering Bandit with Users【17】、Correlated Bandits【18】和 Graph Bandits【19】等 ;

为 Arm 引入不同的状态假设，提出了 Sleeping Bandit【20】，Mortal Bandit【21】和 Blocking Bandit【22】等；

从上下文参数角度进行优化，从无参数的 UCB1 算法【1】、Thompson Sampling（TS）【2】算法等基础算法，演变到上下文 Bandit 模型 (Contextual Bandit【23】)、Lasso Bandit【24】、半参赌博机模型（Semi-parametric Bandit【25】）、再到基于神经网络的 Bandit 算法（Neural Bandit【26】）和基于图神经网络的 GNN Bandit【27】等；

引入更加丰富的约束信息，提出了 Bandits with Switching Constraints【28】，Budgeted Bandit【29】和 Bandit with Knapsack 【30】等；

从反馈向量上进行改进，提出了 Cascading Bandit【31】、Combinatorial Bandit 【32】和针对 Learning To Rank 问题的 BubbleRank Bandit【33】、Cascading non-stationary bandit【34】等；

从优化目标的角度，提出了多目标 bandit 算法（基于 Pareto regret）【35】、Multi-player Bandit【36】、 Top-K Bandit【37】，Thresholding Bandit【38】和 MaxGap Bandit【39】等。

从数据的角度，提出了 Perturbed-History Exploration【40】，Bootstrapping Exploration【41】，Warm-starting Bandits【42】，Bandits with Imitation learning【43】和 Transferable Bandit【44】等新算法还有 Off-Policy Evaluation for Bandits 技术【45】；

还有一些研究工作从安全性和可解释性角度，提出了 Safe Bandit【46】和 Casual Bandit【47】等。

这些研究在假设上的突破，使得 Bandit 环境的定义与真实业务环境越来越近，一些强假设被逐渐弱化。绝大多数 Bandits 算法的提出，都需要在理论上对所提出的新问题的建模形式，给出可证明的累计后悔度的理论上界（Upper Bounds of Cumulative Regret），但是在研究中可能存在为了获得一个可证明的“漂亮”算法，而阉割原有算法或者增加严格的限制条件，导致牺牲原有算法在大多数实际业务中的效果，因此在落地时存在针对业务场景的优化空间。

落地业务时三大坑

在线系统中很多应用场景面临冷启问题、大促、流量和用户兴趣动态变化的情况，这些都是在线赌博机技术的潜在应用空间。虽然 Bandits 的潜在的应用范围很广，但是并不意味着，所有的选择性问题，应用该项技术都能取得收益。Bandits 将解决选择型问题的方式，分成两种，“探索”和“利用”，"探索"就是打破经验，尝试新的选项，而“利用"就是依赖历史经验进行选择，Bandit 算法所做的事情，就是平衡探索和利用的程度，在一段时间内，通过不断地选择和尝试，使得业务累计效果最大化。而当今在几乎所有在线系统中广泛应用的深度学习技术，其实就是这里所述的”利用“方式之一，因为深度学习是基于历史样本进行学习，再泛化到未来问题上的一种方式。

因此，当在一个应用场景中，单纯采用“利用”的手段，就可以达到最优解时，探索新的选项就会使得系统收益降低，只会增加成本，那么这时，就不需要平衡“探索”和“利用”了，则 Bandits 算法就拿不到任何收益，反之理论上该类算法都可帮助业务系统取得收益。

图 1 落地业务时常见问题

想要直接应用 MAB 技术于实际业务，并非易事，究其原因，主要有如下几点，如图 1 所示：

【问题建模】MAB 技术在落地具体时，依赖对实际业务问题的建模与抽象；
【算法假设】每个 MAB 算法在提出时就有其假设，所有的理论证明均是建立在其假设基础上的，如果假设在实际业务问题中并不成立，或者成立的概率较低，则会导致算法不能达到预期效果。
【超参数及链路】MAB 算法中有些超参数，乃至变量，在实际业务中可计算性较差，强依赖于人工经验，但这些超参数通常跟累计后悔度理论上界相关，因此会显著影响应用效果。

那么如何改良现有 MAB 技术适用于业务实际问题，是在业务实践中的巨大挑战。因此工业界一直在积极探索 MAB 类算法在各自业务场景的落地应用及技术创新，面向这些挑战的解决方案也同时构筑了算法产品的核心竞争力。

快手联盟上的业务实践

联盟广告系统是各大广告平台厂商的兵家必争之地，联盟广告场景拥有众多由各种 App 组成的各类流量池，虽然流量池子是海量的，但是不可避免的面临流量变化大，用户访问乃至行为不稳定的情况，因此给广告平台的机器学习模型算法提出了更高的要求，另一方面也不能对模型在预估方面的准确程度有很高的期待。

但是正是因为流量变化大，质量变化快，其实是天然的 MAB 的练兵场。相反，如果是流量稳定，样本数据海量，模型非常精准的业务场景，MAB 发挥的空间将大大受限，即使能产生良好收益，也会因为模型学习能力强而被"偷学"，发生指标衰减的情况。

首先我们将内循环行业在快手联盟上的业务问题，建模为 “带有约束的冷启问题”，即在不影响已起量广告的基础上，如何帮助内循环广告外投快速起量？然后我们从全生命周期角度构建了一整套面向从双侧冷启问题（流量和广告双侧）、单侧冷启问题，到各个维度整体起量问题，再到数据量丰富期的模型优化问题的 Bandit 解决方案，如图 2 所示。

双侧冷启问题，是面向联盟中全盘自然流量填充不上的请求，进行冷启行业广告投放，目的是帮助冷启行业广告找到潜在适合的流量池，这部分探索力度最大，但是能有效对流量池进行优胜劣汰。

解决单侧冷启问题的策略，分别从媒体位、媒体行业、媒体场景结合部分广告维度在不同粒度上进行探索，扩大该粒度下广告匹配的预期花费，为不同粒度找到适合的广告主，粒度从细到粗，逐步上线策略，行业广告占比逐级提升；随着在各个维度引入多种 Bandit 算法实例后，这些 Bandit 之间维度相互影响，叠加之后不一定能触达最优解，所以我们可利用 Contextual Bandit 算法进行维度探索，进一步融合各种维度下的 Bandit 算法实例，逐步从 Stochastic Bandit 过渡到 Contextual Bandit、Semi-parametric Bandit 再到 Neural Bandit 和 GNN Bandit 等。

随着预期花费的上涨，越来越多媒体位稳定起量，样本的增长量级也逐渐攀上，模型能力在对齐探索维度后，会有大幅增长，那么接下来的一个问题是，如何帮助模型持续获得探索能力，我们设计了一种全新的在线离线混合迭代的训练框架（Interconnected Neural-Linear UCB【48】），通过迭代进行离线与在线混合的学习过程，离线负责学习非线性映射，在线负责学习在该非线性映射下的在线最佳线性函数，相互依赖地进行学习演化，逐渐逼近最优解，该种方式能达到非线性学习能力和线上高效计算的有效平衡，持续为模型增加探索的翅膀。

经过上述算法的落地及演化过程，我们通过在线 AB 实验，发现了 这些策略的确能够相互继承，相互串联，而非孤立的优化点，使得系统从冷启状态逐渐过渡到较成熟状态，纯算法实验带来的预期花费提升在 100%+，累计提升内循环外投预期花费数十倍。

图 2 基于 Bandit 算法的全生命周期行业冷启解决方案

再者，在广告系统的链路中，也存在很多冷启问题，应用 Bandit 算法能帮助链路健康稳定的迭代，例如召回到精排的绿色通道。广告系统通常面临大客户运营活动需要起量的问题，通常的做法是搭建绿色通路链条，称之为绿通，其通过运营的操作配置，运营将大户的 Account/Unit 不同维度的 ID 配置到系统中。在线处理 PV 请求时，从系统中拉取倒排链，随机透出配置中的广告，并保送精排，完成绿通功能，但该方式只能保证将大户的广告保送到精排，不能保证从这些账户中将“优质”广告保送精排，使得业务指标最大化，因此通常不保证效果，只保证起量。在实际应用中会发现如下两个关键问题：

1、由于绿通中的广告占用的其实是系统中其他广告的名额（quota），因此如果挤占了优质已起量广告，对整体广告系统而言是负向的，表现形式就是超成本和预期花费的下降。

2、如果在绿通配置中，配的 ID 数量太多，会导致相互挤压，谁的量都不会太大的情况，即谁也出不来。

基于 Bandit 算法，结合广告系统特点，基于 Non-stationary Cascading Bandit，我们构建了公司内部首个业务指标正向且起量概率大增的绿通召回链路。

产品化和门槛

在可预见的未来，Bandit 技术还会在理论上继续深入发展，那么为了使得理论能够快速地对海量业务产生实际影响，加速算法的落地，基于我们慢慢积累的业务经验和成功实践，我们将持续搭建出一套快手工业级 Bandit 算法产品，该产品的能力层级图，如图 3 所示，其可以通过多种方式接入，例如可通过远程服务模式在在线系统处理每次请求时接入，也可通过 Library SDK、UDF 等在 Hive 定时任务中接入或在实时流处理时接入。

图 3 快手工业级 Bandit 算法产品能力层级图

那么如何构建该产品的门槛呢？我们尝试通过如下三个方面来进行构建壁垒：

提供基于实践经验的避坑功能，帮助用户有效避免典型的应用误区，比如应用环境和算法假设自动审查，在利用 UCB，TS 等不能支持大量 arm 的算法时，自动检测 arm 的数量是否过多。
提供能够快速收敛，拿到指标收益的功能，例如产品支持算法应用范围导入功能，把业务中不适合探索的部分过滤掉。
不断地以应用中的实际问题推动算法的创新，并将这些创新转化为产品力，例如我们针对给定业务场景，通过 AutoML 思路，自动地通过 Bandit 算法寻优超参，甚至直接寻优 Bandit 算法本身的 AutoBandit【49】，降低应用时对人工经验的依赖。
总结

我们在快手联盟中，尝试利用多种 Bandits 算法帮助内循环广告业务起量，积累了一套面向行业冷启的全生命周期解决方案。依赖在多种业务问题上的实战经验，我们尝试搭建构建了工业级 Bandit 算法产品，支持快速部署，标准化接入，具有避坑能力模块，通过算法创新构建产品门槛，我们希望后续能持续完善该算法产品能力，构建该技术从理论到应用的桥梁，走出一条从技术 ->产品 ->业务的闭环。

由于篇幅有限，更多细节将在 3 月份的 ArchSummit 北京站上，【技术 ->产品 ->业务】专题下与您探讨。由于 Bandit 算法技术发展速度非常快，上述知识和沉淀只是冰山一角，望读者海涵。

讲师简介

谢淼博士，快手高级算法专家。国家自然科学系列职称评审委员会评定副研究员。现任快手高级算法专家，负责在线决策类算法的研究及业务落地，所提出的算法产品已应用于推荐场景冷启动、素材个性化、智能 UI、广告词优化、在线匹配与流量优化、在线广告系统冷启动、广告联盟等多种业务，为每个业务可带来 5%-160% 的业务指标提升，助力联盟内循环广告业务提升 40 倍。

曾在 AAAI、IJCAI、VLDB、ICDE、ICSE 、JPDC 等国际顶级会议及刊物上发表学术论文近 20 余篇，他引量上百次，已申请国内外专利近 40 项，出版专著 1 本，被评为北京市本科精品教材，近年来长期担任 AAAI, IJCAI, NeurIPS、ICML、ICLR 等国际顶级学术会议的 (高级) 程序委员会成员。美国 PMP 国际权威项目管理专业认证项目管理师。

多项研究成果已产品化并集成进阿里云、华为、联想、百度和中科方德等业内知名公司的产品与系统中，参与过国家重大专项研究，多次受邀参加行业和高校举行的技术论坛。

活动推荐

2023 年 3 月 17-18 日，ArchSummit 全球架构师峰会将落地北京海航万豪酒店。来自百度、京东、华为、腾讯、斗鱼、中国信通院等企业与学术界的技术专家，将就数字化业务架构、低代码实践、国产化替代方案、分布式架构等主题展开分享讨论。

目前已上线数字化场景下的业务架构、低代码实践与应用、国产软件优化迭代之路、多数据中心的分布式架构实践、软件质量保障、技术 - 产品 - 业务、高并发架构实现、架构师成长与团队搭建落地实践、大数据和人工智能融合、大规模微服务架构演进、可观测技术落地、云原生大数据实践等多个专题，点击阅读原文去官网查看大会日程。

会期临近，门票即将售罄，购票或咨询其他问题请联系票务同学：15600537884（微信同电话）

参考文献

【1】Agrawal S, Goyal N. Analysis of thompson sampling for the multi-armed bandit problem[C]//Conference on learning theory. JMLR Workshop and Conference Proceedings, 2012: 39.1-39.26.

【2】Auer P, Cesa-Bianchi N, Fischer P. Finite-time analysis of the multiarmed bandit problem[J]. Machine learning, 2002, 47(2): 235-256.

【3】Wu Q, Iyer N, Wang H. Learning contextual bandits in a non-stationary environment[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 495-504.

【4】Auer P, Gajane P, Ortner R. Adaptively tracking the best bandit arm with an unknown number of distribution changes[C]//Conference on Learning Theory. PMLR, 2019: 138-158.

【5】Bistritz I, Zhou Z, Chen X, et al. Online exp3 learning in adversarial bandits with delayed feedback[J]. Advances in neural information processing systems, 2019, 32.

【6】Féraud R, Alami R, Laroche R. Decentralized exploration in multi-armed bandits[C]//International Conference on Machine Learning. PMLR, 2019: 1901-1909.

【7】Martínez-Rubio D, Kanade V, Rebeschini P. Decentralized cooperative stochastic bandits[J]. Advances in Neural Information Processing Systems, 2019, 32.

【8】Braverman M, Mao J, Schneider J, et al. Multi-armed bandit problems with strategic arms[C]//Conference on Learning Theory. PMLR, 2019: 383-416.

【9】Nguyen V, Masrani V, Brekelmans R, et al. Gaussian process bandit optimization of the thermodynamic variational objective[J]. Advances in Neural Information Processing Systems, 2020, 33: 5764-5775

【10】Lu S, Wang G, Hu Y, et al. Optimal algorithms for Lipschitz bandits with heavy-tailed rewards[C]//International Conference on Machine Learning. PMLR, 2019: 4154-4163.

【11】Dong S, Ma T, Van Roy B. On the performance of thompson sampling on logistic bandits[C]//Conference on Learning Theory. PMLR, 2019: 1158-1160.

【12】Kagrecha A, Nair J, Jagannathan K. Distribution oblivious, risk-aware algorithms for multi-armed bandits with unbounded rewards[J]. Advances in Neural Information Processing Systems, 2019, 32.

【13】Magureanu S, Combes R, Proutiere A. Lipschitz bandits: Regret lower bound and optimal algorithms[C]//Conference on Learning Theory. PMLR, 2014: 975-999.

【14】Hadiji H. Polynomial cost of adaptation for x-armed bandits[J]. Advances in Neural Information Processing Systems, 2019, 32.

【15】Li L, Jamieson K, DeSalvo G, et al. Hyperband: A novel bandit-based approach to hyperparameter optimization[J]. The Journal of Machine Learning Research, 2017, 18(1): 6765-6816.

【16】Bouneffouf D, Parthasarathy S, Samulowitz H, et al. Optimal exploitation of clustering and history information in multi-armed bandit[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. 2019: 2016-2022.

【17】Li S, Chen W, Li S, et al. Improved algorithm on online clustering of bandits[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. 2019: 2923-2929

【18】Boda V P, Prashanth L A. Correlated bandits or: How to minimize mean-squared error online[C]//International Conference on Machine Learning. PMLR, 2019: 686-694.

【19】Shreyas S, Saha A, Bhattacharyya C. Be Greedy: How Chromatic Number meets Regret Minimization in Graph Bandits[C]//Uncertainty in Artificial Intelligence. PMLR, 2020: 595-605.

【20】Bishop N, Chan H, Mandal D, et al. Adversarial blocking bandits[J]. Advances in Neural Information Processing Systems, 2020, 33: 8139-8149.

【21】Tracà S, Rudin C, Yan W. Reducing exploration of dying arms in mortal bandits[C]//Uncertainty in Artificial Intelligence. PMLR, 2020: 156-163.

【22】Li F, Liu J, Ji B. Combinatorial Sleeping Bandits with Fairness Constraints[C]//IEEE INFOCOM 2019-IEEE Conference on Computer Communications. IEEE, 2019: 1702-1710.

【23】Wei Chu, Lihong Li, Lev Reyzin, and Robert Schapire. Contextual bandits with linear payoff functions. In Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, pages 208–214, 2011.

【24】Kim G S, Paik M C. Doubly-robust lasso bandit[J]. Advances in Neural Information Processing Systems, 2019, 32.

【25】Yi Peng, Miao Xie, Jiahao Liu, Xuying Meng, Nan Li, Cheng Yang, Tao Yao, and Rong Jin. A practical semi-parametric contextual bandit. IJCAI, 2019.

【26】Dongruo Zhou, Lihong Li, and Quanquan Gu. Neural contextual bandits with ucb-based exploration. In International Conference on Machine Learning, pages 11492–11502. PMLR, 2020.

【27】Kassraie P, Krause A, Bogunovic I. Graph neural network bandits[J]. arXiv preprint arXiv:2207.06456, 2022.

【28】Simchi-Levi D, Xu Y. Phase transitions and cyclic phenomena in bandits with switching constraints[J]. Advances in Neural Information Processing Systems, 2019, 32.

【29】Perotto F S, Bourgais M, Silva B C, et al. Open problem: Risk of ruin in multiarmed bandits[C]//Conference on Learning Theory. PMLR, 2019: 3194-3197.

【30】Agrawal S, Devanur N. Linear contextual bandits with knapsacks[J]. Advances in Neural Information Processing Systems, 2016, 29.

【31】Shuai Li, Baoxiang Wang, Shengyu Zhang, and Wei Chen. Contextual combinatorial cascading bandits. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, pages 1245–1253.2016.

【32】Katz-Samuels J, Jain L, Jamieson K G. An empirical process approach to the union bound: Practical algorithms for combinatorial and linear bandits[J]. Advances in Neural Information Processing Systems, 2020, 33: 10371-10382.

【33】Li C, Kveton B, Lattimore T, et al. BubbleRank: Safe online learning to re-rank via implicit click feedback[C]//Uncertainty in Artificial Intelligence. PMLR, 2020: 196-206.

【34】Li C, De Rijke M. Cascading non-stationary bandits: Online learning to rank in the non-stationary cascade model[J]. arXiv preprint arXiv:1905.12370, 2019.

【35】Busa-Fekete R, Szörényi B, Weng P, et al. Multi-objective bandits: Optimizing the generalized gini index[C]//International Conference on Machine Learning. PMLR, 2017: 625-634.

【36】Boursier E, Perchet V. SIC-MMAB: Synchronisation involves communication in multiplayer multi-armed bandits[J]. Advances in Neural Information Processing Systems, 2019, 32.

【37】Mason B, Jain L, Tripathy A, et al. Finding all $\epsilon $-good arms in stochastic bandits[J]. Advances in Neural Information Processing Systems, 2020, 33: 20707-20718.

【38】Tao C, Blanco S, Peng J, et al. Thresholding bandit with optimal aggregate regret[J]. Advances in Neural Information Processing Systems, 2019, 32.

【39】Katariya S, Tripathy A, Nowak R. Maxgap bandit: Adaptive algorithms for approximate ranking[J]. Advances in Neural Information Processing Systems, 2019, 32.

【40】Kveton B, Szepesvari C, Ghavamzadeh M, et al. Perturbed-history exploration in stochastic multi-armed bandits[J]. arXiv preprint arXiv:1902.10089, 2019.

【41】Kveton B, Szepesvari C, Vaswani S, et al. Garbage in, reward out: Bootstrapping exploration in multi-armed bandits[C]//International Conference on Machine Learning. PMLR, 2019: 3601-3610.

【42】Zhang C, Agarwal A, Iii H D, et al. Warm-starting Contextual Bandits: Robustly Combining Supervised and Bandit Feedback[C]//International Conference on Machine Learning. PMLR, 2019: 7335-7344.

【43】Lupu A, Durand A, Precup D. Leveraging observations in bandits: Between risks and benefits[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 6112-6119.

【44】Liu B, Wei Y, Zhang Y, et al. Transferable contextual bandit for cross-domain recommendation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).

【45】Wang Y X, Agarwal A, Dudık M. Optimal and adaptive off-policy evaluation in contextual bandits[C]//International Conference on Machine Learning. PMLR, 2017: 3589-3597.

【46】Amani S, Alizadeh M, Thrampoulidis C. Linear stochastic bandits under safety constraints[J]. Advances in Neural Information Processing Systems, 2019, 32.

【47】Lattimore F, Lattimore T, Reid M D. Causal bandits: Learning good interventions via causal inference[J]. Advances in Neural Information Processing Systems, 2016, 29.

【48】Yang Chen, Miao Xie, et al. Interconnected Neural Linear Contextual Bandits with UCB Exploration, Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2022

【49】Miao Xie, Wotao Yin, Huan Xu, AutoBandit: A Meta Bandit Online Learning System, IJCAI 2021

今日荐文

复旦抢发第一个中国版 ChatGPT ！内测服务器被挤崩，团队致歉：还不成熟

ChatGPT版必应花式翻车：爱上用户诱其离婚，威胁人类“如果两个只能活一个，我选我自己”

马斯克开会当场解雇Twitter首席工程师：我有1亿多粉丝，他却说公众对我失去兴趣

窃取开源代码，还拉黑质疑者，这家 AI 公司试图删除代码了事

台积电员工分红人均42万元；马斯克否认修改算法优先推荐自己帐号；苹果面临被禁危机；百度汽车CEO炮轰特斯拉 | AI 一周资讯

接触开源，让我逃离了印度贫民窟，最终成为一名谷歌开发者专家

你也「在看」吗？ 👇

快手是如何利用Bandits算法，助力业务提升数十倍的？

今日荐文

马斯克开会当场解雇Twitter首席工程师：我有1亿多粉丝，他却说公众对我失去兴趣

接触开源，让我逃离了印度贫民窟，最终成为一名谷歌开发者专家

相关推荐