微信成对数据AB实验探索

5月25日,由DataFun出品的数据科学峰会,将邀请8位专家和出品人共同策划,邀请来自国内外一线的专家学者分享数据科学的最新实践探索,其中来自腾讯的数据科学家李奕霖老师将分享《基于成对数据的A/B实验》,感兴趣的小伙伴欢迎扫码报名,收看直播:

识别二维码免费报名


详细介绍:

李奕霖 腾讯 数据科学家

个人介绍:北京大学数学学院统计学博士在读,致力于因果推断的研究,特别是存在干涉的因果推断和观察性数据分析。现任职于微信实验平台,主要研究方向为网络实验设计与分析,研究内容在Biometrics、ACM/IMS Journal of data science、ICML等期刊和会议发表。

演讲题目:基于成对数据的A/B实验

演讲提纲:成对数据是一种独特的数据类型,用于刻画两个个体间的交互行为和关系。研究人员可以利用成对数据更为深入研究个体之间的复杂关系和动态。例如,在国际关系研究中,成对数据可以包含国家间的贸易额等;而在社交网络分析中,成对数据则可以刻画个体间的交流行为。随着大数据时代的到来,成对数据分析逐渐引起了各个领域应用科学家的兴趣,然而关于成对数据的因果推断方法却鲜有研究。因果推断的核心假设之一是个体稳定处理值假设 (SUTVA),其中对于每个个体的潜在结果不依赖于其他个体的处理。然而,在社交网络场景下,由于存在网络干涉,这一假设往往并不成立,这也导致估计全局平均因果作用可能会出现不可忽略的偏差。我们考虑将成对结果引入随机实验中,其中受试者被随机分配到治疗组或对照组。此类场景在在线随机控制实验(A/B 测试)中广泛存在,例如转发消息或分享链接等数据。基于这类场景,我们引入了一种新颖的成对干涉假定。在存在异质性时,我们证明了基于常规单位水平结果的全局平均治疗效果的无偏估计一般并不存在。为此,我们利用成对数据的特点设计了了全局平均因果作用的无偏估计,并证明了在不同随机化设计(例如伯努利随机化、完全随机化和聚类随机化)下均不存在偏差。我们对所提出的估计量及其相应的理论特性进行了深入而全面的分析,例如收敛速度与网络结构之间的联系,以及利用Stein方法分析的估计量的渐近正态性。我们讨论了伯努利随机化下估计量的置信区间的构造方法,并给出了相应的统计推断方法。我们还通过各种数值实验来说明上述现象,验证了估计量对全局因果作用估计的准确性,同时将这一方法应用于大规模在线随机对照实验中。

听众收益:

1. 网络实验中,估计全局因果作用的方法有哪些?

2. 什么是成对数据分析?

3. 如何利用成对数据进行A/B实验与因果推断?相关的理论是什么?存在哪些问题?

相关推荐

  • 百度推荐资源冷启动实践
  • 金山办公姚冬:AI让办公不再孤立,LUI是下一代交互 | 中国AIGC产业峰会
  • 小心!最新AI看一眼照片就定位你在哪里,精确到经纬度
  • 70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024
  • 史上最丑AI生图一夜爆火!又一款妙鸭级爆品来了?
  • OpenAI谷歌苹果再燃AI争霸战,谁将担纲「Her」时代王者?
  • AlphaFold 3轻松应对核酸、脂类分子?科学家迫不及待地更新了评测
  • Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
  • 从零开始手搓GPU,照着英伟达CUDA来,只用两个星期
  • DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
  • 2024最佳 React UI 库盘点
  • Node.js 22发布,增强了对ESM模块和Web API的支持
  • “我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?
  • 大模型永远也不做了的事情是什么?
  • “国外一开源,国内就创新”!面对中美大模型差异,我们该突破还是继续模仿?
  • Java开发杀手级框架!!
  • 10张图,搞定MySQL隔离级别
  • 同事说,这是写ChatGPT Prompt的万能公式
  • 公务员薪资正开始赶超互联网
  • BigDecimal 为什么可以保证精度不丢失?