多组学数据整合更精确,川大团队借助迁移学习揭示细胞异质性可用于改善数据整合

©作者 | 李云帆单位 | 四川大学



单细胞多组学数据整合旨在减少组学差异,同时保持细胞类型差异。然而,由于细胞异质性,建模和区分这两种差异是一项艰巨的任务。即使是相同组学和类型的细胞也会具有不同的特征,从而使这两种差异变得不明显。在最新的研究中,四川大学的研究团队揭示了细胞异质性的两面性,尽管通常被视为数据整合的干扰,但若妥善利用,可以反之用来改善数据整合。据此,团队提出了一种以异质方式整合细胞的多组学数据整合方法,称为 scBridge。研究以「scBridge embraces cell heterogeneity in single-cell RNA-seq and ATAC-seq data integration」为题,于 2023 年 9 月 28 日发布在《Nature Communications》。

论文链接: 

https://www.nature.com/articles/s41467-023-41795-5




背景

单细胞RNA测序技术(scRNA-seq)通过分析各个细胞的基因表达,揭示细胞多样性、疾病机制和药物响应等重要信息,在生物学和医学领域取得了广泛的应用。近年来,单细胞测序技术的发展提供了除RNA以外更多组学的单细胞分析,例如染色质可及性(scATAC-seq)、空间转录组(Stereo-seq)和蛋白质组(ScoPE-MS)。多组学数据有助于构建全面的分子调控网络,促进精准医学的发展。其中,scATAC-seq通过鉴定开放的染色质区域来研究染色质结构的动态重塑,有助于揭示转录的内在机制。因此,整合scRNA-seq和scATAC-seq让我们可以不仅从转录水平,还可以进一步从表观遗传学的角度揭示差异背后的原因。然而,由于不同组学测序方法的技术手段不同,所测得的数据在生物学信息之外还有测序技术、平台等带来的噪声,多组学数据整合方法旨在消除组学间的差异,保留生物学信息,使来自不同组学、相同类型的细胞聚合到一起,以便进行下游分析。



方法

本文提出的基于异质迁移学习的单细胞多组学整合方法,接受已注释的scRNA-seq细胞和未注释、待整合的scATAC-seq细胞作为输入,最终输出多组学细胞的整合结果,及对scATAC-seq细胞的类型预测。

如图1所示,本方法主要由以下四个步骤组成:

(1)利用已注释的细胞训练分类网络,得到细胞表征和类别预测;

(2)根据不同组学细胞表征间的相似性和预测的置信度,对scATAC-seq细胞进行可靠性建模;

(3)选取高可靠性的scATAC-seq细胞与scRNA-seq细胞在特征空间进行整合;

(4)选取高可靠性的scATAC-seq细胞,将其当前类型预测结果作为注释,重复以上步骤直到全部scATAC-seq细胞都被整合。

▲ 图1. scBridge 算法示意图(来源:论文)




创新性多组学数据整合的核心在于根据测序数据的特征分布,区分生物学信息和非生物学噪声。然而,由于细胞异质性的存在,即使来自相同组学、相同类型的细胞也会表现出不同的数据特征。此前的多组学数据整合方法未充分考虑细胞异质性,其对于生物学信息和非生物学噪声的区分受到细胞异质性的干扰,从而导致次优的整合效果。不同于此前的方法,本文提出细胞异质性不再是对数据整合的干扰,而是能被巧妙利用来帮助多组学数据整合。具体地,我们观察到部分 scATAC-seq 细胞的染色质可及性和 scRNA-seq 细胞的基因表达之间具有更高的相关性,这些细胞间的组学差异较小,更容易被整合。此外,整合这些细胞能够在整体上减小组学差异,进而帮助其他细胞的整合。

基于此,我们提出了一个基于异质迁移学习的单细胞多组学整合方法 scBridge,通过迭代式地选取并整合当前组学差异最小的细胞,逐步减小组学差异,最终实现对所有细胞的准确整合。

▲ 图2. scBridge在SNARE-seq、SHARE-seq、10X Multiome 数据上的整合结果。(来源:论文)



结果

本文在七个单细胞多组学数据集上对所提出的scBridge方法进行了验证,涵盖了不同的物种、器官、细胞数量、测序方法、组学类型等。

图 2 展示了其在 SNARE-seq、SHARE-seq、10X Multiome 数据上的实验结果,可以看到 scBridge 相较于现有的多组学数据整合方法表现出更好的整合结果和 scATAC-seq 细胞注释精度,尤其是对于细胞个数较少的细胞类型。另外,实验表明 scBridge 对注释的 scRNA-seq 数据量要求较小,在只提供 50% 注释数据的情况下仍能实现准确的数据整合。

▲ 图3. scBridge 在模拟 Dropout Corruption 的 Human Hematopoiesis 数据上的整合结果(来源:论文)

为了探究 scBridge 对于测序数据质量的稳健性,本文分别在 scRNA-seq 和 scATAC-seq 数据上通过手动调节 Dropout 的比率,模拟了测序深度较低的情况。图 3 的结果表明,scBridge 对于测序数据质量表现出良好的稳健性,尤其是在 scRNA-seq 端几乎不受 Dropout 事件的影响。这得益于 scBridge 所采用的迭代式整合策略,即便 scRNA-seq 数据的质量较差,但只要其能帮助模型选取出一部分可靠的 scATAC-seq 细胞,模型便可以利用这一部分细胞来进一步辅助其余细胞的整合。此外,本文还证实了 scBridge 对于 scRNA-seq 细胞注释精度、组学间细胞类型差异等具备良好的稳健性,且能扩展到蛋白等其他模态数据的整合,更多结果和分析详见原文。



结语总的来说,本文首次关注到细胞异质性对于单细胞多组学数据整合任务的两面性,基于细胞异质性这一生物学特性,针对性地在整合过程中对各个细胞的整合可靠性进行建模,迭代式地进行组学差异消减,最终实现准确的数据整合,是机器学习算法在生物信息分析中的一次成功应用。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


··

相关推荐

  • 幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker
  • 哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展
  • 1028.AI日报:AI创造了很大的价值,并不等于就能够形成有效的回报
  • 为什么 Node 里要用 Winston 打印日志?
  • offer 选择难?说说我的 2 个思考
  • 盘点JS中数组去重写法
  • 逃离国企,我好快乐!
  • Yarn 4.0正式发布,现代化的软件包管理器
  • 3202年了,为啥SSR并没有预想中的流行?
  • 大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤
  • TF线下活动报名 | 11月4日,TF121邀您一起寻找企业数字化的第二曲线!
  • 最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费
  • 姚期智Hinton Bengio联名发文:18个月内AI规模将扩大100倍,得有人管管了
  • 「20万级最强智驾」还不用激光雷达,极越01到底是一款什么样的车?
  • 正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩
  • 谷歌 20 亿美元投资 AI 初创公司 Anthropic,AI 赛道竞赛再加速
  • 2秒出图的文生图模型出现了!清华提出LCM,新一代图像生成里程碑
  • 给你的 SpringBoot 工程部署的 jar 包瘦瘦身吧!
  • 【进阶玩法】策略+责任链+组合实现合同签章
  • 一个Demo搞定前后端大文件分片上传、断点续传、秒传