数据科学的业务价值转化秘籍


因果推断是数据科学应用的主要算法,从数据中推断变量之间的因果关系,而不仅仅是相关关系。因果推断可以帮助业务增长理解数据背后的机制,提高决策的效率和质量,避免被相关性误导,找到真正影响业务的因素和策略。

为推动企业的用户与业务增长实践,DataFun将于2023年10月21日9:00-17:00举办DataFunSummit2023因果推断峰会,邀请来自腾讯、虎牙、华为、快手、货拉拉等企业以及知名学术机构的学者,分享因果推断在营销增长的最新实践,在推荐、风控中的应用,以及在因果学习等方向上的学术研究成果。欢迎广大从业者与前沿探索者参与交流。

扫描二维码免费报名观看直播

学术主席:
张坤 卡内基大学& MBZ 人工智能大学 副教授个人介绍:张坤现为卡内基大学副教授(学术休假)以及 MBZ 人工智能大学的副教授、机器学习系执行主任,以及集成人工智能中心主任。他的研究领域是因果关系、机器学习以及通用人工智能。他在自动因果发现领域提出了一系列模型和算法,与合作者一起开创了从因果思维的角度来理解和解决复杂的机器学习问题的研究方向,并用因果的思维方式看待机器学习以求可靠性、可解释性以及对社会好的影响。他长期担任一系列机器学习和人工智能会议的领域主席、资深领域主席或程序委员会主席,包括 UAI、NeurIPS、ICML、CLeaR、IJCAI 和 AISTATS 等会议,同时是 ACM Computing Surveys 和 Pattern Recognition 等杂志的副主编。

专家团:

董振华 华为诺亚方舟实验室 技术专家个人介绍:南开大学、明尼苏达大学联合培养博士,诺亚方舟实验室推荐搜索项目经理,其领导的研究团队聚焦推荐系统、信息检索、因果推断技术的前沿探索,并将预研成果在公司超过30个产品/场景落地(2013年以来),包括:信息流、应用市场、广告、音乐、视频、金融等,在显著提升业务指标的同时发表国际top会议、期刊论文超过50篇,申请专利超过40项,并在 ACM SIGIR、SIGKDD、RecSys、WSDM、CIKM、TOIS、TKDE 等学术组织担任高级程序委员/程序委员/审稿人等职务,译著《奇点临近》中文版。黄碧薇 加利福尼亚大学圣迭戈分校 助理教授个人介绍:Biwei Huang is an assistant professor at the University of California San Diego. She received her PhD degree from Carnegie Mellon University, under the supervision of Prof. Kun Zhang and Prof. Clark Glymour. Her research primarily focuses on causality, with three main areas of interest: (1) automated causal discovery in complex environments with theoretical guarantees, (2) advancing machine learning/AI from the causal perspective, and (3) using or adapting causal discovery approaches for scientific discovery. On the causality side, Huang's research has delivered more reliable and practical causal discovery algorithms by formulating and addressing the property of distribution shifts and allowing nonlinear relationships, general data distributions, latent confounders, etc. On the machine learning side, her work has shown that the causal view provides a clear picture for understanding advanced learning problems and allows going beyond the data in a principled, interpretable manner.赵振宇 腾讯海外游戏 数据科学总监个人介绍:腾讯海外游戏数据科学总监,开源项目 CausalML 创始作者之一。美国西北大学统计学博士,先后在 Yahoo、Uber、腾讯任职,负责实验、因果推断、机器学习、分析预测等方法的应用、研究和工具建设,发表多篇相关论文和专利。扫描二维码免费报名观看直播

AB 实验论坛

出品人:杜朦旭 腾讯 实验中心 数据科学负责人个人介绍:硕士毕业于浙江大学,在腾讯工作七年,负责 AB 实验平台数据产品、科学实验文化运营和内容数据分析相关工作,建设的实验平台 TAB 支持腾讯内上百款产品的实验需求和决策需求。

苏扬 腾讯游戏 IEGG 资深数据科学家

个人介绍:苏扬,University of Washington经济学博士、University of Michigan纯数学和经济学学士,曾任AI初创公司Afiniti数据科学家,现在在腾讯IEG Global负责海外发行游戏的多种场景下的模型优化、A/B实验和因果推断分析研究。

🔥演讲题目:AB实验的敏感指标探索

提纲收益:当A/B实验北极星指标不显著的时候,是选择继续实验,还是放弃重来呢?相信有过A/B实验经历的同学都有过上述的经历。其实,每一次的策略变更并不一定能带来北极星指标的显著变化。面对这样的困境,一种可行的方法是寻找和北极星指标高度相关、且更容易受策略影响的【敏感代理指标】,通过观测代理指标的变化来评估策略的有效性,继而驱动业务决策。本次分享围绕如何寻找【敏感代理指标】进行了讨论,并通过一个应用案例讲述了通用流程,以期给到大家一个直观的认知。

王东星 腾讯 PCG 数据产品经理个人介绍:10+年数据产品领域从业经验,负责过数据上报、数据治理、赋能型数据平台建设等工作。从0到1搭建搜狗搜索实验平台,通过常规 AB 实验、词表实验、diffab 实验及 interleaving 实验能力,支撑搜索各产品和技术团队日常实验需求。🔥演讲题目:不同类型实验在搜索场景中的使用演讲提纲:1. AB 实验简介2. 各类型搜索实验实战分享
  • 常规 AB 实验
  • 词表实验
  • diffab 实验
  • interleaving 实验
3. 搜索实验常见问题🎁听众收益:1. 了解搜索实验的实战经验2. 学习高阶的实验类型原理和应用3. 掌握实验中的「坑」和如何「避坑」黄琨 虎牙 数据科学家个人介绍:毕业于清华大学,曾在腾讯、招行、阿里任职。现在虎牙从事数据科学相关工作,主要支撑用户增长、内容推荐、实验科学等业务场景。🔥演讲题目:虎牙数据驱动业务实践演讲提纲:结合虎牙业务,围绕实验平台能力建设与数据驱动业务主题,针对实验场景和非实验场景结合业务开展案例介绍。🎁听众收益:1. 虎牙实验平台能力建设发展历程2. 围绕实验评估如何给业务赋能3. 非实验场景科学评估实践

苏扬、周俊龙 腾讯游戏IEGG 资深数据科学家

个人介绍:周俊龙,纽约大学政治学博士,现就职于腾讯游戏IEGG任资深数据科学家,深度参与腾讯游戏的海外发行工作,现主要工作集中于利用因果推断和在线实验方法来提升游戏玩家用户体验。

🔥演讲题目:洞察海外AB实验的地区差异效果

演讲提纲:在海外A/B实验中,我们常会发现这样的情况:实验效果整体A策略比B策略更优,但是对于一些地区B策略比A策略更优。那么我们是否应该基于整体的结果,对所有地区来上线A策略呢?这种情况下,我们需要深入理解效果差异及其来源,才能更好决策。本文针对实验效果在地区层面的差异性,提出了一个系统性实验分析框架。我们认为,基于对海外不同地区用户的实验差异效果的检测和理解,才可以更好地了解海外用户,优化相应策略,为海外用户提供更优质的产品和服务。

🎁听众收益:

1. 如何理解实验效果的地区差异?

2. 如何统计检测和利用异质性来增强用户理解?

扫描二维码免费报名观看直播


因果推断与机器学习论坛

出品人:张可力 华为 诺亚方舟实验室 主任研究员个人介绍:张可力,华为诺亚方舟实验室主任研究员。2014年毕业于华中科技大学数据库所,长期从事时间序列分析,因果推理,分布外泛化等研究及应用探索工作,申请专利20余件,多项工作发表在 KDD,IJCAI,AAAI,TNNLS 等国际会议/期刊,作为核心贡献者参与了 gCastle,streamDM 等多个 AI 开源项目。何刚 九章云极 DataCanvas AI 资深架构师个人介绍:何刚,AI资深架构师,多年来主要从事AI前沿技术的研究、研发与开源,研究方向包括因果推断、LLM、自动机器学习、ABM等前沿领域方向,研究成果在金融、通讯等领域有众多的实践案例。🔥演讲题目:大模型视角下的因果推断演讲提纲:1. 大模型助力因果分析任务2. 基于大模型代理的因果推断3. LLM-powered agents 助力因果推断研究🎁听众收益:1. 了解如何利用大模型对于因果分析任务的助力2. 了解大模型代理如何完成因果推断任务3. 了解通过大模型的多代理仿真,助力因果推断算法研究蔡瑞初 广东工业大学 教授个人介绍:蔡瑞初,教授、博士生导师、数据挖掘与信息检索实验室主任、国家优秀青年基金获得者。2010年于华南理工大学获得工学博士学位,并进入广东工业大学工作;2015年并被评为教授、博士生导师;曾先后到新加坡国立大学、UIUC 高等数字科学研究中心访问学习。蔡教授专注于因果关系发现与因果性学习、深度学习等领域的理论与应用研究。在上述领域先后主持国家优秀青年基金、科技部”科技创新2030“重大项目、省杰出青年基金、省特支计划等项目;在因果关系发现、因果性学习方面开展了系列有益探索,在 ICML、NIPS、AAAI、IJCAI 等领域重要会议和 TNNLS、TKDE 等国际著名期刊发表论文100余篇;协助华为、网易、腾讯、滴滴、唯品会、南方电网、南方通讯建设等企业解决了因果故障定位、因果决策优化、因果个性推荐等应用难题,取得了良好的经济和社会价值;获得省科学技术一等奖(第三完成人)、国家发明专利奖优秀奖(第三完成人)等奖项;指导学生获得 NeurIPS 2019解耦学习算法大赛第一名、亚太因果推理大会推理大赛第一名、“互联网+”全国决赛金奖等奖项;先后担任 NeurIPS、ICML等会议的Area Chair,IJCAI、AAAI 等会议的 SPC 等。

🔥演讲题目:因果性学习初探

演讲提纲:探索和发现事物间的因果关系是数据科学的一个核心问题。在过去的近十年中,因果关系在基础理论、算法设计及实际应用方面获得了很大的发展,引起了相关领域学者的关注。本报告拟从因果性学习角度探讨了因果关系发现与机器学习方法相结合的一些思路,包括基于先验因果结构的因果性学习方法、基于因果发现的因果性学习方法等,并介绍其在领域自适应的等场景中的初步探索。

🎁听众收益:1. 因果可以提升机器学习的泛化性吗?2. 因果和机器学习结合的可能路径有哪些?3. 因果和机器学习结合还有哪些潜在问题?杨梦月 伦敦大学学院 博士研究生个人介绍:杨梦月,目前就读于伦敦大学学院计算机科学系的四年级博士生,由汪军教授指导。她曾在滴滴AI Labs、华为诺亚方舟实验室、微软和ByteDance Research担任实习生。研究兴趣包括因果表示学习、强化学习和推荐系统,在机器学习领域的顶级会议和期刊上发表7篇一作研究成果。🔥演讲题目:因果充分性和必要性和其在不变学习中的应用演讲提纲:因果的充分性和必要性是干预,反事实,对因果定义的进一步探讨。其主要探寻在场景数据当中的‘因’对‘果’有多大的影响程度。本次演讲将从理解因果的充分性和必要性出发,介绍其数学定义和理论背景。并从分布外泛化的不变学习的应用角度,研究因果的充分性和必要性的合理性。🎁听众收益:1. 了解因果充分必要性的概念2. 学习因果充分必要性的数学定义和理论基础3. 了解因果充分必要性在不变学习中的应用郑嘉乐 华为诺亚方舟实验室 高级工程师个人介绍:博士毕业于浙江大学,现为华为诺亚方舟实验室高级工程师。研究方向包括时间序列分析,因果发现及因果表征学习等,并致力于探索AI前沿技术研究在智能运维及自动驾驶等业务场景中的应用。相关研究成果发表在ICDM、CCKS、TSMC、TASE等国际会议/期刊。🔥演讲题目:智能运维领域的因果机器学习演讲提纲:1. 如何利用变量间的因果关系解决数据缺失问题。2. 端到端的可解释故障预测范式。3. gcastle及其在实际业务场景中的应用介绍林勇 香港科技大学 博士研究生个人介绍:林勇是香港科技大学(HKUST)的博士生。他的主要研究兴趣是机器学习算法和理论,包括因果学习,不变性,稀疏性,不确定性等。他的研究集中在如何提高机器学习的模型鲁棒性以及其在计算机视觉、大型语言模型和强化学习中的应用。目前他已发表超过10篇顶会(ICML/NeurIPS/ICLR/CVPR)论文,并有多篇入选Oral/Spotlight Presentation,受到广泛关注。他入选了2023年苹果学者(Apple Scholar,全球共22人)。此外他曾获得香港政府奖学金和多次国奖奖学金。在攻读博士学位前,他曾在阿里巴巴担任算法工程师数年。🔥演讲题目:没有环境标签的不变性学习的若干问题探讨(when and how to learn invariance without domain partition)演讲提纲:常见的情况是遇到异构数据,其中数据分布的某些方面可能会有所变化,但潜在的因果机制保持不变。当数据根据异质性被划分为不同的环境时,最近的不变学习方法提出使用这种环境分区来学习稳健和不变的模型。因此,即使没有提供环境分区,研究者也希望能够利用固有的异质性来学习不变性。不幸的是,在这项工作中,我们展示了在这种情况下学习不变特征基本上是不可能的,除非进一步引入归纳偏差或额外信息。然后,我们提出了一个框架,通过额外的辅助信息共同学习环境分区和不变表示。我们推导了我们的框架在相当一般的设置下能够明确识别不变特征的充分必要条件。在合成和真实世界数据集上的实验结果验证了我们的分析,并展示了所提出框架的改进性能。我们的研究结果还提出了在未来的工作中,在学习不变模型时需要更明确地表述归纳偏差的作用。It is commonplace to encounter heterogeneous data, of which some aspects of the data distribution may vary but the underlying causal mechanisms remain constant. When data are divided into distinct environments according to the heterogeneity, recent invariant learning methods have proposed to learn robust and invariant models using this environment partition. It is hence tempting to utilize the inherent heterogeneity even when environment partition is not provided. Unfortunately, in this work, we show that learning invariant features under this circumstance is fundamentally impossible without further inductive biases or additional information. Then, we propose a framework to jointly learn environment partition and invariant representation, assisted by additional auxiliary information. We derive sufficient and necessary conditions for our framework to provably identify invariant features under a fairly general setting. Experimental results on both synthetic and real world datasets validate our analysis and demonstrate an improved performance of the proposed framework. Our findings also raise the need of making the role of inductive biases more explicit when learning invariant models without environment partition in future works🎁听众收益:1. 没有环境标签的时候,学习不变性可能吗?2. 在没有环境标签的时候学习不变性的充分必要条件是什么?3. 怎样在没有环境标签的时候学习不变性扫描二维码免费报名观看直播


反事实推理论坛

出品人:况琨 浙江大学 副教授,博导,人工智能系副主任个人介绍:况琨,浙江大学计算机学院副教授,博士生导师,人工智能系副主任。主要研究方向包括因果推理、数据挖掘、因果可信机器学习。在数据挖掘和机器学习领域已发表近70余篇顶级会议和期刊文章,包括 TKDE, TPAMI, ICML, NeurIPS, KDD, ICDE, WWW, MM, DMKD, Engineering 等。曾获2022年 ACM SIGAI China 新星奖(Rising Star Award),2021年度中国科协青年人才托举工程项目支持,2022年度高等学校科学研究优秀成果奖(科学技术)科技进步一等奖,2021年度中国电子学会科技进步一等奖,2020年度中国人工智能学会优秀博士学位论文提名奖。俞扬 南京大学 教授个人介绍:俞扬,南京大学人工智能学院教授,主要从事机器学习、强化学习的研究工作,工作获4项国际论文奖励和3项国际算法竞赛冠军。入选国家青年人才计划、IEEE“国际人工智能十大新星”,获CCF-IEEE青年科学家奖,首届亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”。🔥演讲题目:世界模型中的因果推断演讲提纲:世界模型是强化学习中的核心部件之一。一旦能够从数据中学到准确的世界模型,强化学习的样本效率将得到巨大提升。对于世界模型转移的学习,通常建模为监督学习任务而直接对数据进行拟合,然而往往难以学出有效的世界模型。其中的关键问题之一在于,世界模型需要抓住转移的因果规律,仅仅对数据进行相关性拟合并不足以达到此目的,甚至有可能学到完全相反的规律。报告将介绍我们在世界模型学习方面的近期工作。🎁听众收益:1. 了解世界模型2. 了解世界模型学习的难点3. 了解近期进展李骏东 弗吉尼亚大学助理教授个人介绍:Jundong Li is an Assistant Professor at the University of Virginia with appointments in the Department of Electrical and Computer Engineering, Department of Computer Science, and School of Data Science. Prior to joining UVA, he received his Ph.D. degree in Computer Science at Arizona State University in 2019 under the supervision of Dr. Huan Liu, M.Sc. degree in Computer Science at University of Alberta in 2014, and B.Eng. degree in Software Engineering at Zhejiang University in 2012. His research interests are generally in data mining and machine learning, with a particular focus on graph mining/graph machine learning, causal inference, and trustworthy AI. As a result of his research work, he has published over 140 papers in high-impact venues (including KDD, NeruIPS, IJCAI, AAAI, WWW, WSDM, SIGIR, EMNLP, CIKM, ICDM, SDM, ECML-PKDD, CSUR, TPAMI, TKDE, TKDD, TIST, etc), with over 9,000 citation count. He has won several prestigious awards, including SIGKDD Best Research Paper Award (2022), NSF CAREER Award (2022), PAKDD Early Career Research Award (2023), JP Morgan Chase Faculty Research Award (2021 & 2022), Cisco Faculty Research Award (2021), and being selected for the AAAI New Faculty Highlights roster (2021).🔥演讲题目:基于图的因果推断及其在医疗健康决策上的应用(Graph-based Causal Inference for Health Decision Making)演讲提纲:Causal inference plays a vital role in biomedical and healthcare research. For example, it can help answer the following critical cause-effect questions before an optimal decision/intervention is made: How effective is a medication regimen in curing the disease of a patient? How will a non-pharmaceutical policy mitigate the spread of infectious diseases in a certain area? Compared to randomized control trials (RCTs), which could be expensive and even unethical, causal inference with observational data (e.g., EHR data of patients) has attracted a surge of research interests. On one side, conventional observational studies often assume the underlying data is independent and identically distributed (i.i.d.), and they often operate under certain overly optimistic causal assumptions, including the unconfoundedness assumption and non-interference assumption. On the other side, data in biomedical and healthcare often involves complex dependencies at different scales, spanning from protein-protein interactions at the molecular level to social contacts at the societal level. The rich relational information provides great opportunities for relaxing the stringent causal assumptions when estimating causal effects for health decision making. In this talk, I will introduce our recent research efforts in graph-based causal inference that aim to unleash the power of relational information for unbiased causal effect estimation, focusing on showing how they can advance health decision-making. First, I will introduce a principled causal inference framework that can leverage relational information to unravel the patterns of hidden confounders. I will showcase the potential of the proposed framework in assessing the causal impact of different COVID-19 policies on the outbreak dynamics. Second, I will also present a hypergraph-based causal inference framework that can model group interactions and characterize high-order interference.🎁听众收益:The audience will learn the foundations and applications of graph-based causal inference, especially in the context of heath decision making.秦旋 快手 增长策略算法部增长算法工程师个人介绍:毕业于美国波士顿大学,清华大学计算机系研究员。曾在滴滴出行任职高级算法工程师,研究方向为因果推断。曾自主开发了一套适用于工业界的RCT&观测数据融合算法。参与开发基于SPARK的分布式因果森林,并进行改造与升级。该工作在网约车智能定价业务上多次取得ROI收益。加入快手后,负责过补贴,裂变等业务,并参与开发因果机器学习平台。🔥演讲题目:因果科学及其工业界应用落地演讲提纲:1. 什么是因果推断2. 因果推断在增长场景中的数据流规范3. 因果模型选择4. 因果评估及模拟5. 有限资源决策🎁听众收益:1. 在工业界,如何合理并有效率的收集因果建模样本。2. 怎样基于业务属性,选用与其适配因果模型。3. Causal Forest及Policy Learning。4. Representation Learning的网络结构及用法。5. 怎样评估因果模型并进行策略仿真与回放。扫描二维码免费报名观看直播


风控与因果推断论坛

出品人:李龙飞 蚂蚁集团 资深算法专家个人介绍:硕士毕业于西北工业大学,在蚂蚁工作9年,当前主要负责蚂蚁自动学习,因果推断,逻辑学习等技术方向,开发的技术服务于蚂蚁核心的搜广推,风控等场景。带领团队在 nips,icml,kdd,aaai 等国际会议发表论文20+,并获得 ccf-2020技术进步卓越奖。

唐才智 蚂蚁集团 算法专家

个人介绍:硕士毕业于毕业于东南大学,目前任职于蚂蚁集团的智能引擎事业部。主要研究方向包括因果推断,可解释等方向,工作内容是将其应用于蚂蚁推荐,营销以及风控等场景以解决实际的业务问题,目前在这些场景均取得显著的业务效果。本次分享的主题“在蚂蚁风控场景上的因果纠偏方法”,里面我们提出的方法也被NeurIPS'22/23,ICML'23,SIGIR'23等多个机器学习会议接收。

🔥演讲题目:在蚂蚁风控场景上的因果纠偏方法

演讲提纲:在金融风控类场景中,由于存在大量的强干预类手段比如提额、风险拦截等等,而这些强干预背后少不了因果的各类方法作为支撑,比如很多策略的指定都需要提前知道施加了对应的干预后会有什么要的响应、需要做到什么要的程度才能达到预期以及会不会造成不良影响呢?所以这背后都是需要我们提前预估出各类干预手段对干预主体产生因果效应。而考虑到我们收集到的绝大多数数据都是观测数据是有偏的,比如由于样本选择导致的selection bias或者混杂因子控制不当导致的confounding bias等等。所以我们将从金融风控的视角出发,介绍我们在从利用confounding entropy、双重差分、数据融合等的方法来解决因果效应估计中的bias。

🎁听众收益:

1. 了解因果效应估计中混淆因子是如何对我们因果推断产生干扰的;

2. 在有观测不到混淆因子存在的时候如何做因果效应估计;

3. 基于因果效应估计怎么在金融风控中应用

隋勇铎 中国科学技术大学 博士研究生个人介绍:隋勇铎是中国科学技术大学大数据学院博士生,导师为何向南老师。主要研究方向为图神经网络、分布外泛化性、高效机器学习和推荐系统等。相关工作发表在KDD, WWW, NeurIPS, ICML, ICLR等会议。🔥演讲题目:Graph Out-of-distribution Generalization演讲提纲:1. Background and Motivation2. Related Studies3. Causal Attention Learning4. Adversarial Invariant Augmentation🎁听众收益1. 图数据分布偏移问题产生的原因是什么?2. 图数据分布偏移的类型有哪几种?我们应该如何定义和区分它们?3. 如何从因果的角度来解决图数据上的分布外偏移问题?4. 如何从数据的角度来解决图数据上的协变量分布偏移问题?方军鹏 蚂蚁集团 高级算法工程师个人介绍:东南大学硕士毕业,入职蚂蚁集团工作至今,主要探索方向为因果纠偏在推荐,营销,广告等场景的应用。🔥演讲题目:蚂蚁营销推荐场景上的因果纠偏方法演讲提纲:简单介绍因果纠偏的背景,然后介绍基于后门调整的纠偏方案和基于数据融合的纠偏方案。最后会介绍一下纠偏在蚂蚁场景的应用。🎁听众收益:1. 如何充分利用少量无偏数据来帮助模型纠偏?2. 在没有无偏数据的情况下,如果对观测数据分布调整来进行纠偏?扫描二维码免费报名观看直播


因果分析论坛出品人:程大曦 快手 数据科学家个人介绍:北京大学光华管理学院经济学学士,德克萨斯大学奥斯汀分校商业分析硕士。前蚂蚁集团数据科学家,负责 A/B 实验平台功能构建。在快手中台曾负责实验与因果方向的流量生态分析,现负责快手消费算法推荐策略数据分析。张任宇 香港中文大学 商学院副教授、快手经济学家&Tech Lead

个人介绍:张任宇,香港中文大学商学院副教授(with tenure),快手经济学家&Tech Lead,主要研究数据科学(包括机器学习、因果推断和数据驱动优化)及其在大规模在线平台业务决策的评估与优化中的应用。研究成果在MS,OR,MSOM,EC等顶刊顶会发表并获得INFORMS, POM等多个学术共同体研究奖励。研究项目获得NSFC, SMEC, STCSM和HK RGC资助。担任学术期刊POM的SE和NRL的AE。在香港中文大学、纽约大学和快手内部讲授数据科学、运筹学和经济学课程。为快手平台开发经济学/数据科学方法框架,主要用于评估并优化平台增长策略以及宏观流量与营收生态。个人网站:https://rphilipzhang.github.io/rphilipzhang/Philip R. Zhang

🔥演讲题目:基于深度学习多实验叠加效果因果推断演讲提纲:大型在线平台每天都会启动数百个A/B 测试来迭代其业务策略。因此,平台的每个用户可能会同时被大量 A/B 测试命中。这就引发了如下两个对学术研究与平台运营实践都非常重要的问题:(a)如何估计和推断平台上多个实验组合的整体效果?(b) 在无法观察到所有实验组合的情况下,如何找到最佳实验组合(i.e., best-arm identification)?我们结合深度学习 (Deep Learning) 和双重机器学习 (Double Machine Learning) 的开发一套新的统计分析框架来估计平台每个用户受到任何实验组合的效果 (treatment effect)。我们提出的神经网络架构兼顾了可解释性和灵活性。我们的框架(称作debiased deep learning,DeDL)利用Neyman正交性产生了一致且渐近正态的估计量,从而进行有效实验效果推断与最佳实验组合识别。我们在快手,部署了我们的框架分析3 个独立 A/B 测试。与基于线性回归和深度学习的基准方法相比,我们的 DeDL方法可以更准确地估计和推断任意实验组合的效果,并正确识别最佳实验组合。我们通过随机仿真数据进一步验证DeDL框架在model misspecification下的稳健性。🎁听众收益:1. 深度学习如何赋能因果推断?2. 双重机器学习在真实业务场景有多大价值?3. 前沿因果推断方法如何在真实业务场景落地?张婧婧 腾讯 微信实验平台 数据科学家个人介绍:北大光华商业分析硕士,在微信实验平台负责社交网络实验、异质性分析、实验长短期效应的算法设计与开发,从0到1搭建腾讯分布式因果推断工具。🔥演讲题目:Fast-Causal-Inference——腾讯开源分布式因果推断工具演讲提纲:因果推断在业务决策中发挥着越来越重要的作用,业务依赖于AB实验来判断新策略好坏,或者观测性推断等工具去辅助业务决策。然而,现在业界的分析数据量动辄达到千万量级,本地的因果推断工具包无法支持,只能抽样计算,这会损失统计效力。因此我们开发了Fast-Causal-Inference,一个分布式因果推断的package,现已对外开源(https://github.com/Tencent/fast-causal-inference),支持业内大部分常用的因果推断工具,例如带方差削减的T检验,DID,IV,matching,DML等等。本次分享主要包括以下几个部分:首先介绍了因果推断在业务中的常见应用场景;其次介绍我们的工具包的设计框架和实现架构,如何高效的将这些算法分布式实现;最后通过几个例子简要介绍如何使用我们的工具包。🎁听众收益:1. 常用的因果推断算法的应用场景2. 常用因果推断算法的计算原理3. 因果推断如何分布式实现,如何结合分布式计算的特点做优化4. 如何使用该分布式工具包做因果推断温中卉 腾讯广告 数据科学家个人介绍:温中卉,北京大学光华管理学院商业分析硕士,现在腾讯广告数据科学团队,目前负责从数据科学角度对广告系统各链路分析与优化,应用实验设计和因果推断等方法进行科学评估衡量。🔥演讲题目:A/B实验中策略长期效果评估方案研究演讲提纲:A/B实验进行策略效果评估过程中,受到实验时长限制等原因,往往只能检测到策略的短期影响或短期指标,于是需要实验人员通过短期的实验捕捉策略长期的效果,高效地评估策略,避免有效策略的漏判等问题。本次演讲将介绍实验长短期效应产生的原因,目前工业界探究策略长期效果的方案,以及分享者针对策略长短期效应的研究🎁听众收益:1. 实验长短期效应产生的原因;2. 工业界目前探究策略长期效果方法与实验设计3. 分享者针对策略长期效应的研究扫描二维码免费报名观看直播


观测因果论坛

出品人:吴鹏 北京工商大学 统计科学中心副主任个人介绍:吴鹏,北京工商大学数学与统计学院人才引进副教授,北京师范大学统计学博士,北京大学国际数学研究中心博士后,研究方向包括因果推断,因果推荐系统,机器学习,医疗决策等。担任中国现场统计研究会因果推断分会理事,北京生物医学统计与数据管理研究会理事,北京工商大学统计科学中心副主任。在国际著名期刊 Natural Human Behavior、Statistica Sinica、ACM Transactions on Recommender Systems 和计算机顶级会议 ICML,ICLR,KDD,AAAI,IJCAI,WWW 等发表论文20余篇。🔥演讲题目:Trustworthy Policy Learning under the Counterfactual No-Harm Criterion演讲提纲:Trustworthy policy learning has significant importance in making reliable and harmless treatment decisions for individuals. Previous policy learning approaches aim at the well-being of subgroups by maximizing the utility function (e.g., conditional average causal effects, post-view click-through\&conversion rate in recommendations), however, individual-level counterfactual no-harm criterion has rarely been discussed. In this paper, we first formalize the counterfactual no-harm criterion for policy learning from a principal stratification perspective. Next, we propose a novel upper bound for the fraction negatively affected by the policy and show the consistency and asymptotic normality of the estimator. Based on the estimators for the policy utility and harm upper bounds, we further propose a policy learning approach that satisfies the counterfactual no-harm criterion, and prove its consistency to the optimal policy reward for parametric and non-parametric policy classes, respectively. Extensive experiments are conducted to show the effectiveness of the proposed policy learning approach for satisfying the counterfactual no-harm criterion.

邱宇谋 北京大学 长聘副教授

个人介绍:邱宇谋,博士毕业于爱荷华州立大学,先后在内布拉斯加林肯大学和爱荷华州立大学任教。于2023年7月加入北京大学数学科学学院、统计科学中心,职位为长聘副教授。他的研究包括:高维数据分析、高维协方差矩阵和精度矩阵的统计推断、因果分析、缺失数据分析。同时,他也致力于统计方法在精准农业、流行病模型、法医学等领域的应用研究。

🔥演讲题目:Unveiling the Unobservable: Causal Inference on Multiple Derived Outcomes

演讲提纲:In many applications, the interest is in treatment effects on random quantities of subjects, where those random quantities are not directly observable but can be estimated based on data from each subject. In this paper, we propose a general framework for conducting causal inference in a hierarchical data generation setting. The identifiability of causal parameters of interest is shown under a condition on the biasedness of subject level estimates and an ignorability condition on the treatment assignment. Estimation of the treatment effects is constructed by inverse propensity score weighting on the estimated subject level parameters. A multiple testing procedure able to control the false discovery proportion is proposed to identify the nonzero treatment effects. Theoretical results are developed to investigate the proposed procedure, and numerical simulations are carried out to evaluate its empirical performance. A case study of medication effects on brain functional connectivity of patients with Autism spectrum disorder (ASD) using fMRI data is conducted to demonstrate the utility of the proposed method.

张洪龙 货拉拉 算法专家

个人介绍:墨尔本大学人工智能硕士,曾在腾讯任职数据挖掘工程师,主要负责游戏数据挖掘运营;在宝马任职高级数据科学家,主要使用AI算法赋能企业数字化转型;目前为货拉拉算法专家,主要负责营销(补贴、触达、广告、邀约)算法工作。

🔥演讲题目:一种时空领域熵平衡的因果效应计算方法

演讲提纲:

1. 自我介绍

2. 货运物流领域业务特点及因果效应计算的挑战

3. 时空领域熵平衡的因果效应计算方法介绍

4. 在业务上的应用及效果提升

5. 总结与展望

🎁听众收益:

1. 了解物流领域应用因果推断技术时业务特点与挑战

2. 介绍一种适用物流行业的时空领域熵平衡因果计算方法

3. 介绍这种方法如何提升货拉拉的营销效率

崔逸凡 浙江大学 研究员

个人介绍:崔逸凡,浙江大学数据科学研究中心研究员,博士生导师。2018年于北卡罗来纳大学教堂山分校获得统计与运筹专业博士学位,曾在宾夕法尼亚大学沃顿商学院从事博士后研究工作。回国前任职于新加坡国立大学统计与数据科学系担任助理教授,国家级青年人才计划入选者(2021)。当选ISI(国际统计学会)Elected Member,入选福布斯亚洲U30杰出青年,现担任Biometrical Journal的Associate Editor以及Journal of Machine Learning Research的editorial board reviewer。

🔥演讲题目:Proximal Causal Learning of Heterogeneous Treatment Effects

演讲提纲:Efficiently and flexibly estimating treatment effect heterogeneity is an important task in a wide variety of settings ranging from medicine to marketing, and there are a considerable number of promising conditional average treatment effect estimators currently available. These, however, typically rely on the assumption that the measured covariates are enough to justify conditional exchangeability. We propose the P-learner, motivated by the R- and DR-learner, a tailored two-stage loss function for learning heterogeneous treatment effects in settings where exchangeability given observed covariates is an implausible assumption, and we wish to rely on proxy variables for causal inference. Our proposed estimator can be implemented by off-the-shelf loss-minimizing machine learning methods, which in the case of kernel regression satisfies an oracle bound on the estimated error as long as the nuisance components are estimated reasonably well.

🎁听众收益:

1.什么是Proximal Causal Inference?

2.基于Proximal Causal Inference,如何学习平均因果效应和异质因果效应?

3.基于Proximal Causal Inference,如何做出最佳的个性化决策?

罗姗姗 北京工商大学 讲师

个人介绍:现为北京工商大学数学与统计学院讲师。2022年7月博士毕业于北京大学数学与科学学院,同年9月加入北京工商大学数学与统计学院。研究兴趣包括因果推断、缺失数据及其在生物医学及社会科学方面的应用。研究工作发表于Biometrics, Statistics in Medicine, Computational Statistics and Data Analysis 等国际期刊。现担任中国现场统计研究会因果推断分会理事。

🔥演讲题目:数据融合的效率得与失

演讲提纲:在大数据时代,数据融合方法备受欢迎。然而,值得注意的是,大多数现有方法通常只适用于特定问题背景,缺乏跨不同情境的全面比较分析。在实际应用中,为了确保识别性或提高估计效率,通常需要对辅助数据集引入一系列假设。这自然引发了一些关键问题:辅助数据和识别假设各自扮演着怎样的角色?哪一个更为关键?以及在何种假设下,我们所收集到的数据才会发挥最大作用?为了解决这些问题,我们对实际问题中可能出现的六种情境进行了探究,每种情境都对应不同程度的信息增益。进一步地,我们计算了每种情境下的有效影响函数及半参数有效界,从理论上量化了不同信息水平对目标人群因果作用估计的影响。具体内容包括:

1. 引言

2. 方法和假设

3. 不同情境下效率的得与失

4. 因果参数的估计与推断

5. 模拟分析与实际案例研究

6. 结论和未来展望

🎁听众收益:

1. 深入理解数据融合方法:通过介绍大数据时代中流行的数据融合方法,听众将了解这些方法背后的原理及相关应用。

2. 辅助数据与假设的关键作用:听众将了解到不同识别假设在数据融合中所扮演的角色,以及它们对数据融合效率的影响。

3. 统计推断方法在数据融合中的重要性:听众将了解到半参数理论和渐近推断等方法在实际问题中的应用。

扫描二维码免费报名观看直播


图与因果推断论坛

出品人:范少华 清华大学 计算机系 博士后助理研究员

个人介绍:范少华,现任清华大学计算机系博士后,博士毕业于北京邮电大学,主要研究方向为图神经网络与因果分析的交叉方向,稳定学习,以及相关的AI for Science应用。相关研究成果发表于KDD、NeurIPS、TNNLS等顶级会议与期刊。

🔥演讲题目:图神经网络的分布外泛化与去偏差

演讲提纲:图(网络)数据在现实世界中普遍存在。图神经网络是一类针对于图数据的机器学习算法,其中图神经网络由于其广泛的适用性和优良的性能,近年来受到了广泛的关注。目前图神经网络方法大都假设训练和测试数据同分布。然而,由于现实世界中数据收集的不可控性,不可避免地导致收集到的训练和测试图数据之间的分布存在偏差,所以独立同分布假设在现实世界中很难满足。因此,保证图神经网络在数据偏差下的泛化性对于将图神经网络用于实际应用中有着重要的意义。阻碍图神经网络在有偏数据下难以泛化的一个根本原因是其学习到的是输入图数据和标签的相关关系,此相关关系在测试时可能发生改变从而影响模型的预测效果。因果分析,旨在发现变量之间的因果关系或者度量输入变量和标签之间的因果效应,此因果关系/效应通常被认为是稳定的。比如,分子图中,官能团往往对分子性质起到决定性作用而不是苯环等高相关结构。因此,考虑利用因果分析的方法约束图神经网络学习到图数据和标签之间因果关系而不是相关关系,对于提升其泛化能力和可解释性将会有很大的帮助。本报告将介绍两个将因果与图神经网络结合来提升图神经网络的分布外泛化和可解释性效果工作。相关工作分别发表在IEEE TPAMI和NeurIPS上。

🎁听众收益: 了解图神经网络与因果结合的关键问题和先进方法。

陈永强 香港中文大学 博士研究生

个人介绍:陈永强,香港中文大学计算机系博士生,研究兴趣是图神经网络、分布外泛化和因果推断,主要成果发表在NeurIPS、ICLR等国际机器学习顶级会议期刊中。

🔥演讲题目:面向图数据分布外泛化的因果表示学习

演讲提纲:近年来,图表示学习在抽取和表示图结构数据信息中取得了广泛的成功和应用。然而,由于其普遍采用独立同分布的假设,往往难以泛化到训练分布外的数据中。并且,由于图数据的复杂性,对图表示学习的分布外泛化提出了很大的挑战。为了解决这一问题,我将首先介绍如何使用因果图模型对图数据的分布偏移进行建模,并进一步结合因果不变性,提出图数据的因果表示学习基本框架。此外,由于图数据的抽象性,对识别虚假关联的域标签往往难以获得。为此,我将进一步分析图数据因果表示学习可识别性的基本假设,并在此基础上拓展先前的框架、实现一个统一的图数据因果表示学习方法。

🎁听众收益:听众将会对图数据的分布外泛化存在的挑战和难点有所了解,并将进一步了解如何通过结合因果推断、将因果不变性用于图表示学习,用以提升分布外泛化能力的算法和理论。

杨念祖 上海交通大学 博士研究生

个人介绍:上海交通大学计算机系博士生,导师是严骏驰教授,目前是直博三年级。2021年毕业于上海交通大学IEEE试点班计算机专业,取得学士学位。研究兴趣包括图神经网络,生成模型,OOD 泛化,以及 AI 制药等方向。

🔥演讲题目:Learning Substructure Invariance for Out-of-Distribution Molecular Representations

演讲提纲:分子表示学习(Molecular Representation Learning)已得到广泛关注,目前已有方法已在各种任务中表现出色,例如在分子特性预测和靶点识别任务中。然而,现有方法的模型设计或实验评估过程中都是基于训练和测试数据是独立同分布的这样的假设。而在实际应用中,这样的假设很可能会不成立,因为测试分子极有可能来自模型训练阶段未见过的环境,从而导致严重的性能下降。在这篇工作中,受来自不同环境(例如分子骨架、分子尺寸等)的分子们的生物化学性质通常与某些分子子结构稳定相关这样一个现象的启发,我们提出了一个名为 MoleOOD 的新分子表示学习框架,以增强分子表示学习模型对这种分布变化的鲁棒性。具体来说,我们引入了一个环境推理模型,以完全数据驱动的方式识别影响数据生成过程的潜在因素,即环境变量。我们还提出了一个新的学习目标来指导分子编码器利用这些与跨环境的分子性质标签更稳定相关的子结构。在十个真实数据集上的实验结果表明,即使缺少事先人为标注好的环境标签,在各种分布外(OOD)场景下,利用模型自行推理得到的环境标签,我们的模型比现有方法具有更强的泛化能力。

🎁听众收益:

1. 如何学习得到泛化能力强的分子表征?

2. 如何解决现有分子数据集的环境标签不适合现有 OOD 方法的问题?

3. 还有哪些有意思的药物相关的问题可以去尝试 OOD 的场景?

方俊峰 中国科学技术大学 博士研究生

个人介绍:方俊峰,中国科学技术大学三年级博士生,主要研究方向为可信图神经网络。

🔥演讲题目:探索图可解释性中的分布外泛化问题

演讲介绍:图事后可解释性常因无法解决分布外泛化问题(OOD)而被诟病。针对此,本报告提出了:①一种基于对抗鲁棒性的抗OOD评估指标;②一种提高算法抗OOD能力的网络-数据联合解释范式。上述指标和范式可以极大地缓解OOD问题所带来的性能下降和应用限制。

演讲提纲:

1. 事后可解释性的经典算法和 OOD 问题。

2. 基于对抗鲁棒性的抗 OOD 评估指标。

3. 基于EM算法的网络-数据联合解释范式。

🎁听众收益:

1. 可解释算法为何会引入 OOD 问题?

2. 当前的可解释评估指标真的“公平”吗?

3. 如何实现网络-数据的联合解释?

扫描二维码免费报名观看直播


推荐与因果推断论坛

出品人:戴全宇 华为 诺亚方舟实验室 主任工程师个人介绍:戴全宇目前是华为诺亚方舟实验室的高级研究员。他本科毕业于上海交通大学,博士毕业于香港理工大学。他主要的研究兴趣是推荐系统、因果推断和图表征学习。他在 KDD、WWW、SIGIR、AAAI、TKDE、TNNLS 等顶级学术会议和期刊发表了多篇论文,并常年担任这些会议和期刊的审稿人。🔥演讲题目:因果推断在解决推荐系统偏置问题的研究和产品应用演讲提纲:推荐系统是一个闭环反馈的系统,存在各种各样的偏置问题,比如用户选择偏置、系统曝光偏置、视频时长偏置等。理解这些偏置问题产生的本质原因有助于提出有效的解决方案。本演讲首先基于潜在结果框架深入分析推荐系统偏置问题产生的原因,并针对性提出相关纠偏算法解决特定偏置问题。此外,本演讲还会介绍这些因果纠偏算法在工业界产品的实际应用经验。演讲覆盖的研究成果发表在 KDD、AAAI、IJCAI 等学术会议上。🎁听众收益:1. 从因果推断的理论框架理解推荐系统偏置问题产生的本质原因;2. 利用逆倾向性得分加权、双稳健学习和多稳健学习等技术解决推荐系统的偏置问题;3. 基于因果推断的纠偏算法在工业界产品的实际应用。林肖 快手 高级算法专家个人介绍:林肖本科就读于清华大学自动化系,后于清华大学交叉信息研究院取得博士学位。毕业后林肖加入阿里巴巴搜索推荐事业部从事首页信息流推荐相关工作,在多目标排序、排序模型设计优化、召回模型优化、推荐机制等多个方向取得了显著的业务效果。在加入快手后,林肖主要从事快手主站精选页推荐重排模型以及ltr迭代优化等工作,也取得了多项显著的业务收益。🔥演讲题目:因果推断在快手短视频推荐中的应用

演讲提纲:工业级推荐系统由于其链路较长、业务场景复杂存在着各类 bias 问题,如曝光偏差、流行度偏差等。在以往的学术研究和工业实践中,debiased ranking 与因果推断技术作为常用的工具被广泛应用于推荐系统的纠偏任务。在本次演讲中,我们将以快手推荐系统为例,从短视频推荐的各类 bias 问题入手,介绍因果推断在观看时长预估等推荐任务中的应用。具体来说,我们通过 backdoor adjustment、causal embedding 等手段,在多项短视频推荐任务中尽量缓解了各类 bias 影响,极大提升了推荐效果。本次演讲中介绍的工作也陆续发表于 KDD2022、WWW2022、KDD2023。

🎁听众收益:1. 工业级短视频推荐系统中的实际问题2. 因果推断等相关技术如何缓解系统 bias3. 短视频观看时长预估的优化方法高宸 清华大学 信息国研中心 助理研究员

个人介绍:高宸,清华大学信息国家研究中心助理研究员,于2016年和2021年在清华大学电子系获学士学位和博士学位,博士后出站后留校任教。主要从事数据挖掘、信息检索等方面的科研工作,近五年在 KDD、SIGIR、WWW、NeurIPS 等国际会议期刊上发表 CCF-A 类论文40余篇。获信息检索领域旗舰会议 SIGIR 2020 最佳短论文提名奖、清华大学优秀博士学位论文奖、CCF 优博提名奖、百度学术人工智能华人新星奖,负责国家自然科学基金面上项目、国家重点研发计划子课题等研究项目。

🔥演讲题目:基于因果推断的推荐系统🎁听众收益:了解因果推断推荐系统的已有工作发展脉络。

陈旭 中国人民大学 准聘副教授

个人介绍:博士毕业于清华大学,于2020年加入中国人民大学。他的研究方向为大语言模型,因果推断,推荐系统等。曾在TheWebConf、NeurIPS、AIJ、WSDM、SIGIR、TOIS、TKDE等著名国际会议/期刊发表论文60余篇,Google Scholar引用4400余次。他的研究成果曾获得TheWebConf 2018最佳论文提名奖、CIKM 2022 最佳资源论文Runner Up 奖、AIRS 2017最佳论文奖等。同时,他也曾获得CCF自然科学二等奖(排名第二),ACM-北京新星奖(北京市三人),北京市优秀毕业生等。他曾共同主导开发推荐系统工具集“伯乐”,构建可解释用户行为分析数据集“REASONER”,以及构建基于自主智能体的推荐模拟环境“RecAgent”。他的研究成果在多家企业落地,相关成果荣获华为“创新先锋”总裁奖。他主持/参与多项国家自然科学基金以及企业合作项目。

🔥演讲题目:因果推断在推荐系统领域的初步探索

演讲提纲:推荐系统作为人工智能领域的重要应用,给企业和个人带来了极大的方便。本次报告将围绕报告人近年来在基于因果推断的推荐算法方面尝试过的若干工作展开。具体来讲,报告人将首先回顾因果推断的基础知识,然后详细介绍因果推断在推荐算法可解释性和公平性方面的工作。

🎁听众收益:听者可以了解因果推断技术在推荐系统领域的应用方法和技术原理

扫描二维码免费报名观看直播


往期推荐


信息流场景下的AIGC实践

电信网络运营事件知识图谱构建

Abase2: NoSQL数据库中的CRDT支持实践

国产开源湖仓LakeSoul--数据智能的未来方向

数据湖与实时数仓应用实践

快手内容冷启动推荐模型实践

大语言模型在推荐系统的实践应用

限时免费《因果推断》电子书领取中!


关注我们更多信息更新中!

相关推荐

  • MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
  • ChatGPT重压下,Stack Overflow裁员28%,为自家生成式AI工具开源节流
  • 清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
  • 谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
  • 全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent
  • 今晚直播 | StructGPT:面向结构化数据的大模型推理框架
  • 文末送书 | 深度生成模型:详解AIGC模型的技术基石,稳步迈进通用人工智能
  • NeurIPS 2023 Spotlight | 面向通用决策场景的MCTS基准框架:LightZero
  • 薪资的马太效应
  • 科大讯飞,又整了一件大事!
  • 阿里巴巴:淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA
  • AI时代的研发效能、大模型机遇与创新,闭门会主题揭秘!
  • 【深度学习】计算机视觉中的数据预处理与模型训练技巧总结
  • 【Python】多个Python包懒得import,那就一包搞定!
  • 今年这情况......我劝大家还是多留一手准备吧
  • DHH锐评 “打包工具”:前端根本不需要构建 (No Build)
  • 良心提醒:这些你常用的vscode 扩展,应该卸载啦!
  • 机器学习降维算法汇总!
  • Python 的 __.call()__ 方法:创建可调用实例
  • 雷军:全新「小米澎湃OS」来了!打造人车家全生态操作系统