因果推断是数据科学应用的主要算法,从数据中推断变量之间的因果关系,而不仅仅是相关关系。因果推断可以帮助业务增长理解数据背后的机制,提高决策的效率和质量,避免被相关性误导,找到真正影响业务的因素和策略。
为推动企业的用户与业务增长实践,DataFun将于2023年10月21日9:00-17:00举办DataFunSummit2023因果推断峰会,邀请来自腾讯、虎牙、华为、快手、货拉拉等企业以及知名学术机构的学者,分享因果推断在营销增长的最新实践,在推荐、风控中的应用,以及在因果学习等方向上的学术研究成果。欢迎广大从业者与前沿探索者参与交流。
扫描二维码免费报名观看直播 学术主席:专家团:
董振华 华为诺亚方舟实验室 技术专家个人介绍:南开大学、明尼苏达大学联合培养博士,诺亚方舟实验室推荐搜索项目经理,其领导的研究团队聚焦推荐系统、信息检索、因果推断技术的前沿探索,并将预研成果在公司超过30个产品/场景落地(2013年以来),包括:信息流、应用市场、广告、音乐、视频、金融等,在显著提升业务指标的同时发表国际top会议、期刊论文超过50篇,申请专利超过40项,并在 ACM SIGIR、SIGKDD、RecSys、WSDM、CIKM、TOIS、TKDE 等学术组织担任高级程序委员/程序委员/审稿人等职务,译著《奇点临近》中文版。黄碧薇 加利福尼亚大学圣迭戈分校 助理教授个人介绍:Biwei Huang is an assistant professor at the University of California San Diego. She received her PhD degree from Carnegie Mellon University, under the supervision of Prof. Kun Zhang and Prof. Clark Glymour. Her research primarily focuses on causality, with three main areas of interest: (1) automated causal discovery in complex environments with theoretical guarantees, (2) advancing machine learning/AI from the causal perspective, and (3) using or adapting causal discovery approaches for scientific discovery. On the causality side, Huang's research has delivered more reliable and practical causal discovery algorithms by formulating and addressing the property of distribution shifts and allowing nonlinear relationships, general data distributions, latent confounders, etc. On the machine learning side, her work has shown that the causal view provides a clear picture for understanding advanced learning problems and allows going beyond the data in a principled, interpretable manner.赵振宇 腾讯海外游戏 数据科学总监个人介绍:腾讯海外游戏数据科学总监,开源项目 CausalML 创始作者之一。美国西北大学统计学博士,先后在 Yahoo、Uber、腾讯任职,负责实验、因果推断、机器学习、分析预测等方法的应用、研究和工具建设,发表多篇相关论文和专利。扫描二维码免费报名观看直播苏扬 腾讯游戏 IEGG 资深数据科学家
个人介绍:苏扬,University of Washington经济学博士、University of Michigan纯数学和经济学学士,曾任AI初创公司Afiniti数据科学家,现在在腾讯IEG Global负责海外发行游戏的多种场景下的模型优化、A/B实验和因果推断分析研究。
🔥演讲题目:AB实验的敏感指标探索
提纲收益:当A/B实验北极星指标不显著的时候,是选择继续实验,还是放弃重来呢?相信有过A/B实验经历的同学都有过上述的经历。其实,每一次的策略变更并不一定能带来北极星指标的显著变化。面对这样的困境,一种可行的方法是寻找和北极星指标高度相关、且更容易受策略影响的【敏感代理指标】,通过观测代理指标的变化来评估策略的有效性,继而驱动业务决策。本次分享围绕如何寻找【敏感代理指标】进行了讨论,并通过一个应用案例讲述了通用流程,以期给到大家一个直观的认知。
王东星 腾讯 PCG 数据产品经理个人介绍:10+年数据产品领域从业经验,负责过数据上报、数据治理、赋能型数据平台建设等工作。从0到1搭建搜狗搜索实验平台,通过常规 AB 实验、词表实验、diffab 实验及 interleaving 实验能力,支撑搜索各产品和技术团队日常实验需求。🔥演讲题目:不同类型实验在搜索场景中的使用演讲提纲:1. AB 实验简介2. 各类型搜索实验实战分享苏扬、周俊龙 腾讯游戏IEGG 资深数据科学家
个人介绍:周俊龙,纽约大学政治学博士,现就职于腾讯游戏IEGG任资深数据科学家,深度参与腾讯游戏的海外发行工作,现主要工作集中于利用因果推断和在线实验方法来提升游戏玩家用户体验。
🔥演讲题目:洞察海外AB实验的地区差异效果
演讲提纲:在海外A/B实验中,我们常会发现这样的情况:实验效果整体A策略比B策略更优,但是对于一些地区B策略比A策略更优。那么我们是否应该基于整体的结果,对所有地区来上线A策略呢?这种情况下,我们需要深入理解效果差异及其来源,才能更好决策。本文针对实验效果在地区层面的差异性,提出了一个系统性实验分析框架。我们认为,基于对海外不同地区用户的实验差异效果的检测和理解,才可以更好地了解海外用户,优化相应策略,为海外用户提供更优质的产品和服务。
🎁听众收益:
1. 如何理解实验效果的地区差异?
2. 如何统计检测和利用异质性来增强用户理解?
扫描二维码免费报名观看直播🔥演讲题目:因果性学习初探
演讲提纲:探索和发现事物间的因果关系是数据科学的一个核心问题。在过去的近十年中,因果关系在基础理论、算法设计及实际应用方面获得了很大的发展,引起了相关领域学者的关注。本报告拟从因果性学习角度探讨了因果关系发现与机器学习方法相结合的一些思路,包括基于先验因果结构的因果性学习方法、基于因果发现的因果性学习方法等,并介绍其在领域自适应的等场景中的初步探索。
🎁听众收益:1. 因果可以提升机器学习的泛化性吗?2. 因果和机器学习结合的可能路径有哪些?3. 因果和机器学习结合还有哪些潜在问题?杨梦月 伦敦大学学院 博士研究生个人介绍:杨梦月,目前就读于伦敦大学学院计算机科学系的四年级博士生,由汪军教授指导。她曾在滴滴AI Labs、华为诺亚方舟实验室、微软和ByteDance Research担任实习生。研究兴趣包括因果表示学习、强化学习和推荐系统,在机器学习领域的顶级会议和期刊上发表7篇一作研究成果。🔥演讲题目:因果充分性和必要性和其在不变学习中的应用演讲提纲:因果的充分性和必要性是干预,反事实,对因果定义的进一步探讨。其主要探寻在场景数据当中的‘因’对‘果’有多大的影响程度。本次演讲将从理解因果的充分性和必要性出发,介绍其数学定义和理论背景。并从分布外泛化的不变学习的应用角度,研究因果的充分性和必要性的合理性。🎁听众收益:1. 了解因果充分必要性的概念2. 学习因果充分必要性的数学定义和理论基础3. 了解因果充分必要性在不变学习中的应用郑嘉乐 华为诺亚方舟实验室 高级工程师个人介绍:博士毕业于浙江大学,现为华为诺亚方舟实验室高级工程师。研究方向包括时间序列分析,因果发现及因果表征学习等,并致力于探索AI前沿技术研究在智能运维及自动驾驶等业务场景中的应用。相关研究成果发表在ICDM、CCKS、TSMC、TASE等国际会议/期刊。🔥演讲题目:智能运维领域的因果机器学习演讲提纲:1. 如何利用变量间的因果关系解决数据缺失问题。2. 端到端的可解释故障预测范式。3. gcastle及其在实际业务场景中的应用介绍林勇 香港科技大学 博士研究生个人介绍:林勇是香港科技大学(HKUST)的博士生。他的主要研究兴趣是机器学习算法和理论,包括因果学习,不变性,稀疏性,不确定性等。他的研究集中在如何提高机器学习的模型鲁棒性以及其在计算机视觉、大型语言模型和强化学习中的应用。目前他已发表超过10篇顶会(ICML/NeurIPS/ICLR/CVPR)论文,并有多篇入选Oral/Spotlight Presentation,受到广泛关注。他入选了2023年苹果学者(Apple Scholar,全球共22人)。此外他曾获得香港政府奖学金和多次国奖奖学金。在攻读博士学位前,他曾在阿里巴巴担任算法工程师数年。🔥演讲题目:没有环境标签的不变性学习的若干问题探讨(when and how to learn invariance without domain partition)演讲提纲:常见的情况是遇到异构数据,其中数据分布的某些方面可能会有所变化,但潜在的因果机制保持不变。当数据根据异质性被划分为不同的环境时,最近的不变学习方法提出使用这种环境分区来学习稳健和不变的模型。因此,即使没有提供环境分区,研究者也希望能够利用固有的异质性来学习不变性。不幸的是,在这项工作中,我们展示了在这种情况下学习不变特征基本上是不可能的,除非进一步引入归纳偏差或额外信息。然后,我们提出了一个框架,通过额外的辅助信息共同学习环境分区和不变表示。我们推导了我们的框架在相当一般的设置下能够明确识别不变特征的充分必要条件。在合成和真实世界数据集上的实验结果验证了我们的分析,并展示了所提出框架的改进性能。我们的研究结果还提出了在未来的工作中,在学习不变模型时需要更明确地表述归纳偏差的作用。It is commonplace to encounter heterogeneous data, of which some aspects of the data distribution may vary but the underlying causal mechanisms remain constant. When data are divided into distinct environments according to the heterogeneity, recent invariant learning methods have proposed to learn robust and invariant models using this environment partition. It is hence tempting to utilize the inherent heterogeneity even when environment partition is not provided. Unfortunately, in this work, we show that learning invariant features under this circumstance is fundamentally impossible without further inductive biases or additional information. Then, we propose a framework to jointly learn environment partition and invariant representation, assisted by additional auxiliary information. We derive sufficient and necessary conditions for our framework to provably identify invariant features under a fairly general setting. Experimental results on both synthetic and real world datasets validate our analysis and demonstrate an improved performance of the proposed framework. Our findings also raise the need of making the role of inductive biases more explicit when learning invariant models without environment partition in future works🎁听众收益:1. 没有环境标签的时候,学习不变性可能吗?2. 在没有环境标签的时候学习不变性的充分必要条件是什么?3. 怎样在没有环境标签的时候学习不变性扫描二维码免费报名观看直播唐才智 蚂蚁集团 算法专家
个人介绍:硕士毕业于毕业于东南大学,目前任职于蚂蚁集团的智能引擎事业部。主要研究方向包括因果推断,可解释等方向,工作内容是将其应用于蚂蚁推荐,营销以及风控等场景以解决实际的业务问题,目前在这些场景均取得显著的业务效果。本次分享的主题“在蚂蚁风控场景上的因果纠偏方法”,里面我们提出的方法也被NeurIPS'22/23,ICML'23,SIGIR'23等多个机器学习会议接收。
🔥演讲题目:在蚂蚁风控场景上的因果纠偏方法
演讲提纲:在金融风控类场景中,由于存在大量的强干预类手段比如提额、风险拦截等等,而这些强干预背后少不了因果的各类方法作为支撑,比如很多策略的指定都需要提前知道施加了对应的干预后会有什么要的响应、需要做到什么要的程度才能达到预期以及会不会造成不良影响呢?所以这背后都是需要我们提前预估出各类干预手段对干预主体产生因果效应。而考虑到我们收集到的绝大多数数据都是观测数据是有偏的,比如由于样本选择导致的selection bias或者混杂因子控制不当导致的confounding bias等等。所以我们将从金融风控的视角出发,介绍我们在从利用confounding entropy、双重差分、数据融合等的方法来解决因果效应估计中的bias。
🎁听众收益:
1. 了解因果效应估计中混淆因子是如何对我们因果推断产生干扰的;
2. 在有观测不到混淆因子存在的时候如何做因果效应估计;
3. 基于因果效应估计怎么在金融风控中应用
隋勇铎 中国科学技术大学 博士研究生个人介绍:隋勇铎是中国科学技术大学大数据学院博士生,导师为何向南老师。主要研究方向为图神经网络、分布外泛化性、高效机器学习和推荐系统等。相关工作发表在KDD, WWW, NeurIPS, ICML, ICLR等会议。🔥演讲题目:Graph Out-of-distribution Generalization演讲提纲:1. Background and Motivation2. Related Studies3. Causal Attention Learning4. Adversarial Invariant Augmentation🎁听众收益1. 图数据分布偏移问题产生的原因是什么?2. 图数据分布偏移的类型有哪几种?我们应该如何定义和区分它们?3. 如何从因果的角度来解决图数据上的分布外偏移问题?4. 如何从数据的角度来解决图数据上的协变量分布偏移问题?方军鹏 蚂蚁集团 高级算法工程师个人介绍:东南大学硕士毕业,入职蚂蚁集团工作至今,主要探索方向为因果纠偏在推荐,营销,广告等场景的应用。🔥演讲题目:蚂蚁营销推荐场景上的因果纠偏方法演讲提纲:简单介绍因果纠偏的背景,然后介绍基于后门调整的纠偏方案和基于数据融合的纠偏方案。最后会介绍一下纠偏在蚂蚁场景的应用。🎁听众收益:1. 如何充分利用少量无偏数据来帮助模型纠偏?2. 在没有无偏数据的情况下,如果对观测数据分布调整来进行纠偏?扫描二维码免费报名观看直播个人介绍:张任宇,香港中文大学商学院副教授(with tenure),快手经济学家&Tech Lead,主要研究数据科学(包括机器学习、因果推断和数据驱动优化)及其在大规模在线平台业务决策的评估与优化中的应用。研究成果在MS,OR,MSOM,EC等顶刊顶会发表并获得INFORMS, POM等多个学术共同体研究奖励。研究项目获得NSFC, SMEC, STCSM和HK RGC资助。担任学术期刊POM的SE和NRL的AE。在香港中文大学、纽约大学和快手内部讲授数据科学、运筹学和经济学课程。为快手平台开发经济学/数据科学方法框架,主要用于评估并优化平台增长策略以及宏观流量与营收生态。个人网站:https://rphilipzhang.github.io/rphilipzhang/Philip R. Zhang
🔥演讲题目:基于深度学习多实验叠加效果因果推断演讲提纲:大型在线平台每天都会启动数百个A/B 测试来迭代其业务策略。因此,平台的每个用户可能会同时被大量 A/B 测试命中。这就引发了如下两个对学术研究与平台运营实践都非常重要的问题:(a)如何估计和推断平台上多个实验组合的整体效果?(b) 在无法观察到所有实验组合的情况下,如何找到最佳实验组合(i.e., best-arm identification)?我们结合深度学习 (Deep Learning) 和双重机器学习 (Double Machine Learning) 的开发一套新的统计分析框架来估计平台每个用户受到任何实验组合的效果 (treatment effect)。我们提出的神经网络架构兼顾了可解释性和灵活性。我们的框架(称作debiased deep learning,DeDL)利用Neyman正交性产生了一致且渐近正态的估计量,从而进行有效实验效果推断与最佳实验组合识别。我们在快手,部署了我们的框架分析3 个独立 A/B 测试。与基于线性回归和深度学习的基准方法相比,我们的 DeDL方法可以更准确地估计和推断任意实验组合的效果,并正确识别最佳实验组合。我们通过随机仿真数据进一步验证DeDL框架在model misspecification下的稳健性。🎁听众收益:1. 深度学习如何赋能因果推断?2. 双重机器学习在真实业务场景有多大价值?3. 前沿因果推断方法如何在真实业务场景落地?张婧婧 腾讯 微信实验平台 数据科学家个人介绍:北大光华商业分析硕士,在微信实验平台负责社交网络实验、异质性分析、实验长短期效应的算法设计与开发,从0到1搭建腾讯分布式因果推断工具。🔥演讲题目:Fast-Causal-Inference——腾讯开源分布式因果推断工具演讲提纲:因果推断在业务决策中发挥着越来越重要的作用,业务依赖于AB实验来判断新策略好坏,或者观测性推断等工具去辅助业务决策。然而,现在业界的分析数据量动辄达到千万量级,本地的因果推断工具包无法支持,只能抽样计算,这会损失统计效力。因此我们开发了Fast-Causal-Inference,一个分布式因果推断的package,现已对外开源(https://github.com/Tencent/fast-causal-inference),支持业内大部分常用的因果推断工具,例如带方差削减的T检验,DID,IV,matching,DML等等。本次分享主要包括以下几个部分:首先介绍了因果推断在业务中的常见应用场景;其次介绍我们的工具包的设计框架和实现架构,如何高效的将这些算法分布式实现;最后通过几个例子简要介绍如何使用我们的工具包。🎁听众收益:1. 常用的因果推断算法的应用场景2. 常用因果推断算法的计算原理3. 因果推断如何分布式实现,如何结合分布式计算的特点做优化4. 如何使用该分布式工具包做因果推断温中卉 腾讯广告 数据科学家个人介绍:温中卉,北京大学光华管理学院商业分析硕士,现在腾讯广告数据科学团队,目前负责从数据科学角度对广告系统各链路分析与优化,应用实验设计和因果推断等方法进行科学评估衡量。🔥演讲题目:A/B实验中策略长期效果评估方案研究演讲提纲:A/B实验进行策略效果评估过程中,受到实验时长限制等原因,往往只能检测到策略的短期影响或短期指标,于是需要实验人员通过短期的实验捕捉策略长期的效果,高效地评估策略,避免有效策略的漏判等问题。本次演讲将介绍实验长短期效应产生的原因,目前工业界探究策略长期效果的方案,以及分享者针对策略长短期效应的研究🎁听众收益:1. 实验长短期效应产生的原因;2. 工业界目前探究策略长期效果方法与实验设计3. 分享者针对策略长期效应的研究扫描二维码免费报名观看直播邱宇谋 北京大学 长聘副教授
个人介绍:邱宇谋,博士毕业于爱荷华州立大学,先后在内布拉斯加林肯大学和爱荷华州立大学任教。于2023年7月加入北京大学数学科学学院、统计科学中心,职位为长聘副教授。他的研究包括:高维数据分析、高维协方差矩阵和精度矩阵的统计推断、因果分析、缺失数据分析。同时,他也致力于统计方法在精准农业、流行病模型、法医学等领域的应用研究。
🔥演讲题目:Unveiling the Unobservable: Causal Inference on Multiple Derived Outcomes
演讲提纲:In many applications, the interest is in treatment effects on random quantities of subjects, where those random quantities are not directly observable but can be estimated based on data from each subject. In this paper, we propose a general framework for conducting causal inference in a hierarchical data generation setting. The identifiability of causal parameters of interest is shown under a condition on the biasedness of subject level estimates and an ignorability condition on the treatment assignment. Estimation of the treatment effects is constructed by inverse propensity score weighting on the estimated subject level parameters. A multiple testing procedure able to control the false discovery proportion is proposed to identify the nonzero treatment effects. Theoretical results are developed to investigate the proposed procedure, and numerical simulations are carried out to evaluate its empirical performance. A case study of medication effects on brain functional connectivity of patients with Autism spectrum disorder (ASD) using fMRI data is conducted to demonstrate the utility of the proposed method.
张洪龙 货拉拉 算法专家
个人介绍:墨尔本大学人工智能硕士,曾在腾讯任职数据挖掘工程师,主要负责游戏数据挖掘运营;在宝马任职高级数据科学家,主要使用AI算法赋能企业数字化转型;目前为货拉拉算法专家,主要负责营销(补贴、触达、广告、邀约)算法工作。
🔥演讲题目:一种时空领域熵平衡的因果效应计算方法
演讲提纲:
1. 自我介绍
2. 货运物流领域业务特点及因果效应计算的挑战
3. 时空领域熵平衡的因果效应计算方法介绍
4. 在业务上的应用及效果提升
5. 总结与展望
🎁听众收益:
1. 了解物流领域应用因果推断技术时业务特点与挑战
2. 介绍一种适用物流行业的时空领域熵平衡因果计算方法
3. 介绍这种方法如何提升货拉拉的营销效率
崔逸凡 浙江大学 研究员
个人介绍:崔逸凡,浙江大学数据科学研究中心研究员,博士生导师。2018年于北卡罗来纳大学教堂山分校获得统计与运筹专业博士学位,曾在宾夕法尼亚大学沃顿商学院从事博士后研究工作。回国前任职于新加坡国立大学统计与数据科学系担任助理教授,国家级青年人才计划入选者(2021)。当选ISI(国际统计学会)Elected Member,入选福布斯亚洲U30杰出青年,现担任Biometrical Journal的Associate Editor以及Journal of Machine Learning Research的editorial board reviewer。
🔥演讲题目:Proximal Causal Learning of Heterogeneous Treatment Effects
演讲提纲:Efficiently and flexibly estimating treatment effect heterogeneity is an important task in a wide variety of settings ranging from medicine to marketing, and there are a considerable number of promising conditional average treatment effect estimators currently available. These, however, typically rely on the assumption that the measured covariates are enough to justify conditional exchangeability. We propose the P-learner, motivated by the R- and DR-learner, a tailored two-stage loss function for learning heterogeneous treatment effects in settings where exchangeability given observed covariates is an implausible assumption, and we wish to rely on proxy variables for causal inference. Our proposed estimator can be implemented by off-the-shelf loss-minimizing machine learning methods, which in the case of kernel regression satisfies an oracle bound on the estimated error as long as the nuisance components are estimated reasonably well.
🎁听众收益:
1.什么是Proximal Causal Inference?
2.基于Proximal Causal Inference,如何学习平均因果效应和异质因果效应?
3.基于Proximal Causal Inference,如何做出最佳的个性化决策?
罗姗姗 北京工商大学 讲师
个人介绍:现为北京工商大学数学与统计学院讲师。2022年7月博士毕业于北京大学数学与科学学院,同年9月加入北京工商大学数学与统计学院。研究兴趣包括因果推断、缺失数据及其在生物医学及社会科学方面的应用。研究工作发表于Biometrics, Statistics in Medicine, Computational Statistics and Data Analysis 等国际期刊。现担任中国现场统计研究会因果推断分会理事。
🔥演讲题目:数据融合的效率得与失
演讲提纲:在大数据时代,数据融合方法备受欢迎。然而,值得注意的是,大多数现有方法通常只适用于特定问题背景,缺乏跨不同情境的全面比较分析。在实际应用中,为了确保识别性或提高估计效率,通常需要对辅助数据集引入一系列假设。这自然引发了一些关键问题:辅助数据和识别假设各自扮演着怎样的角色?哪一个更为关键?以及在何种假设下,我们所收集到的数据才会发挥最大作用?为了解决这些问题,我们对实际问题中可能出现的六种情境进行了探究,每种情境都对应不同程度的信息增益。进一步地,我们计算了每种情境下的有效影响函数及半参数有效界,从理论上量化了不同信息水平对目标人群因果作用估计的影响。具体内容包括:
1. 引言
2. 方法和假设
3. 不同情境下效率的得与失
4. 因果参数的估计与推断
5. 模拟分析与实际案例研究
6. 结论和未来展望
🎁听众收益:
1. 深入理解数据融合方法:通过介绍大数据时代中流行的数据融合方法,听众将了解这些方法背后的原理及相关应用。
2. 辅助数据与假设的关键作用:听众将了解到不同识别假设在数据融合中所扮演的角色,以及它们对数据融合效率的影响。
3. 统计推断方法在数据融合中的重要性:听众将了解到半参数理论和渐近推断等方法在实际问题中的应用。
扫描二维码免费报名观看直播出品人:范少华 清华大学 计算机系 博士后助理研究员
个人介绍:范少华,现任清华大学计算机系博士后,博士毕业于北京邮电大学,主要研究方向为图神经网络与因果分析的交叉方向,稳定学习,以及相关的AI for Science应用。相关研究成果发表于KDD、NeurIPS、TNNLS等顶级会议与期刊。
🔥演讲题目:图神经网络的分布外泛化与去偏差
演讲提纲:图(网络)数据在现实世界中普遍存在。图神经网络是一类针对于图数据的机器学习算法,其中图神经网络由于其广泛的适用性和优良的性能,近年来受到了广泛的关注。目前图神经网络方法大都假设训练和测试数据同分布。然而,由于现实世界中数据收集的不可控性,不可避免地导致收集到的训练和测试图数据之间的分布存在偏差,所以独立同分布假设在现实世界中很难满足。因此,保证图神经网络在数据偏差下的泛化性对于将图神经网络用于实际应用中有着重要的意义。阻碍图神经网络在有偏数据下难以泛化的一个根本原因是其学习到的是输入图数据和标签的相关关系,此相关关系在测试时可能发生改变从而影响模型的预测效果。因果分析,旨在发现变量之间的因果关系或者度量输入变量和标签之间的因果效应,此因果关系/效应通常被认为是稳定的。比如,分子图中,官能团往往对分子性质起到决定性作用而不是苯环等高相关结构。因此,考虑利用因果分析的方法约束图神经网络学习到图数据和标签之间因果关系而不是相关关系,对于提升其泛化能力和可解释性将会有很大的帮助。本报告将介绍两个将因果与图神经网络结合来提升图神经网络的分布外泛化和可解释性效果工作。相关工作分别发表在IEEE TPAMI和NeurIPS上。
🎁听众收益: 了解图神经网络与因果结合的关键问题和先进方法。
陈永强 香港中文大学 博士研究生
个人介绍:陈永强,香港中文大学计算机系博士生,研究兴趣是图神经网络、分布外泛化和因果推断,主要成果发表在NeurIPS、ICLR等国际机器学习顶级会议期刊中。
🔥演讲题目:面向图数据分布外泛化的因果表示学习
演讲提纲:近年来,图表示学习在抽取和表示图结构数据信息中取得了广泛的成功和应用。然而,由于其普遍采用独立同分布的假设,往往难以泛化到训练分布外的数据中。并且,由于图数据的复杂性,对图表示学习的分布外泛化提出了很大的挑战。为了解决这一问题,我将首先介绍如何使用因果图模型对图数据的分布偏移进行建模,并进一步结合因果不变性,提出图数据的因果表示学习基本框架。此外,由于图数据的抽象性,对识别虚假关联的域标签往往难以获得。为此,我将进一步分析图数据因果表示学习可识别性的基本假设,并在此基础上拓展先前的框架、实现一个统一的图数据因果表示学习方法。
🎁听众收益:听众将会对图数据的分布外泛化存在的挑战和难点有所了解,并将进一步了解如何通过结合因果推断、将因果不变性用于图表示学习,用以提升分布外泛化能力的算法和理论。
杨念祖 上海交通大学 博士研究生
个人介绍:上海交通大学计算机系博士生,导师是严骏驰教授,目前是直博三年级。2021年毕业于上海交通大学IEEE试点班计算机专业,取得学士学位。研究兴趣包括图神经网络,生成模型,OOD 泛化,以及 AI 制药等方向。
🔥演讲题目:Learning Substructure Invariance for Out-of-Distribution Molecular Representations
演讲提纲:分子表示学习(Molecular Representation Learning)已得到广泛关注,目前已有方法已在各种任务中表现出色,例如在分子特性预测和靶点识别任务中。然而,现有方法的模型设计或实验评估过程中都是基于训练和测试数据是独立同分布的这样的假设。而在实际应用中,这样的假设很可能会不成立,因为测试分子极有可能来自模型训练阶段未见过的环境,从而导致严重的性能下降。在这篇工作中,受来自不同环境(例如分子骨架、分子尺寸等)的分子们的生物化学性质通常与某些分子子结构稳定相关这样一个现象的启发,我们提出了一个名为 MoleOOD 的新分子表示学习框架,以增强分子表示学习模型对这种分布变化的鲁棒性。具体来说,我们引入了一个环境推理模型,以完全数据驱动的方式识别影响数据生成过程的潜在因素,即环境变量。我们还提出了一个新的学习目标来指导分子编码器利用这些与跨环境的分子性质标签更稳定相关的子结构。在十个真实数据集上的实验结果表明,即使缺少事先人为标注好的环境标签,在各种分布外(OOD)场景下,利用模型自行推理得到的环境标签,我们的模型比现有方法具有更强的泛化能力。
🎁听众收益:
1. 如何学习得到泛化能力强的分子表征?
2. 如何解决现有分子数据集的环境标签不适合现有 OOD 方法的问题?
3. 还有哪些有意思的药物相关的问题可以去尝试 OOD 的场景?
方俊峰 中国科学技术大学 博士研究生
个人介绍:方俊峰,中国科学技术大学三年级博士生,主要研究方向为可信图神经网络。
🔥演讲题目:探索图可解释性中的分布外泛化问题
演讲介绍:图事后可解释性常因无法解决分布外泛化问题(OOD)而被诟病。针对此,本报告提出了:①一种基于对抗鲁棒性的抗OOD评估指标;②一种提高算法抗OOD能力的网络-数据联合解释范式。上述指标和范式可以极大地缓解OOD问题所带来的性能下降和应用限制。
演讲提纲:
1. 事后可解释性的经典算法和 OOD 问题。
2. 基于对抗鲁棒性的抗 OOD 评估指标。
3. 基于EM算法的网络-数据联合解释范式。
🎁听众收益:
1. 可解释算法为何会引入 OOD 问题?
2. 当前的可解释评估指标真的“公平”吗?
3. 如何实现网络-数据的联合解释?
扫描二维码免费报名观看直播演讲提纲:工业级推荐系统由于其链路较长、业务场景复杂存在着各类 bias 问题,如曝光偏差、流行度偏差等。在以往的学术研究和工业实践中,debiased ranking 与因果推断技术作为常用的工具被广泛应用于推荐系统的纠偏任务。在本次演讲中,我们将以快手推荐系统为例,从短视频推荐的各类 bias 问题入手,介绍因果推断在观看时长预估等推荐任务中的应用。具体来说,我们通过 backdoor adjustment、causal embedding 等手段,在多项短视频推荐任务中尽量缓解了各类 bias 影响,极大提升了推荐效果。本次演讲中介绍的工作也陆续发表于 KDD2022、WWW2022、KDD2023。
🎁听众收益:1. 工业级短视频推荐系统中的实际问题2. 因果推断等相关技术如何缓解系统 bias3. 短视频观看时长预估的优化方法高宸 清华大学 信息国研中心 助理研究员个人介绍:高宸,清华大学信息国家研究中心助理研究员,于2016年和2021年在清华大学电子系获学士学位和博士学位,博士后出站后留校任教。主要从事数据挖掘、信息检索等方面的科研工作,近五年在 KDD、SIGIR、WWW、NeurIPS 等国际会议期刊上发表 CCF-A 类论文40余篇。获信息检索领域旗舰会议 SIGIR 2020 最佳短论文提名奖、清华大学优秀博士学位论文奖、CCF 优博提名奖、百度学术人工智能华人新星奖,负责国家自然科学基金面上项目、国家重点研发计划子课题等研究项目。
🔥演讲题目:基于因果推断的推荐系统🎁听众收益:了解因果推断推荐系统的已有工作发展脉络。陈旭 中国人民大学 准聘副教授
个人介绍:博士毕业于清华大学,于2020年加入中国人民大学。他的研究方向为大语言模型,因果推断,推荐系统等。曾在TheWebConf、NeurIPS、AIJ、WSDM、SIGIR、TOIS、TKDE等著名国际会议/期刊发表论文60余篇,Google Scholar引用4400余次。他的研究成果曾获得TheWebConf 2018最佳论文提名奖、CIKM 2022 最佳资源论文Runner Up 奖、AIRS 2017最佳论文奖等。同时,他也曾获得CCF自然科学二等奖(排名第二),ACM-北京新星奖(北京市三人),北京市优秀毕业生等。他曾共同主导开发推荐系统工具集“伯乐”,构建可解释用户行为分析数据集“REASONER”,以及构建基于自主智能体的推荐模拟环境“RecAgent”。他的研究成果在多家企业落地,相关成果荣获华为“创新先锋”总裁奖。他主持/参与多项国家自然科学基金以及企业合作项目。
🔥演讲题目:因果推断在推荐系统领域的初步探索
演讲提纲:推荐系统作为人工智能领域的重要应用,给企业和个人带来了极大的方便。本次报告将围绕报告人近年来在基于因果推断的推荐算法方面尝试过的若干工作展开。具体来讲,报告人将首先回顾因果推断的基础知识,然后详细介绍因果推断在推荐算法可解释性和公平性方面的工作。
🎁听众收益:听者可以了解因果推断技术在推荐系统领域的应用方法和技术原理
扫描二维码免费报名观看直播往期推荐
信息流场景下的AIGC实践
电信网络运营事件知识图谱构建
Abase2: NoSQL数据库中的CRDT支持实践
国产开源湖仓LakeSoul--数据智能的未来方向
数据湖与实时数仓应用实践
快手内容冷启动推荐模型实践
大语言模型在推荐系统的实践应用
限时免费《因果推断》电子书领取中!