基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 紫罗

基因编辑是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。

先导编辑(Prime editor, PE)是美籍华裔科学家刘如谦(David R.Liu)团队开发的精准基因编辑系统,PE 是一种很有前途的基因编辑工具,但由于缺乏准确和广泛适用的方法,有效优化先导编辑 RNA(prime editing guide RNA, pegRNA)设计仍然是一个挑战。

近日,来自重庆医科大学、西北农林科技大学、云南民族大学、浙江大学医学院和中国科学院数学与系统科学研究院生物信息学中心(Bioinformatics Center of AMMS)的多学科多机构研究团队开发了优化的先导编辑设计(Optimized Prime Editing Design,OPED),这是一种可解释的核苷酸语言模型,利用迁移学习来提高其准确性和通用性,用于预测 pegRNA 的效率和设计优化。

对各种已发布数据集的综合验证表明,OPED 在不同情景下的效率预测中具有广泛的适用性。值得注意的是,具有高 OPED 分数的 pegRNA 始终显示出显著提高的编辑效率。

此外,利用优化后的 pegRNA 在 PE2、PE3/PE3b 和 ePE 编辑系统中高效地安装各种 ClinVar 致病变异,证实了OPED 在设计优化中的多功能性和有效性。OPED 始终优于现有的最先进的方法。

研究人员构建了 OPEDVar 数据库,该数据库从超过 20 亿个候选物中优化了所有致病性变体的设计,并提供了一个可用于任何所需编辑的用户友好的 OPEDVar web 应用程序。

该研究以《Design of prime-editing guide RNAs with deep transfer learning》为题,于 2023 年 10 月 26 日发布在《Nature Machine Intelligence》上。

优化 pegRNA 设计面临挑战

PE 是一种多功能和精确的基因组编辑技术,可以在没有 DNA 双链断裂或供体 DNA 模板的情况下引入插入、缺失和所有 12 种可能的点突变。PE2 是一个基本的 PE 版本,包括 Cas9 缺口酶-逆转录酶融合蛋白,Cas9 缺口酶诱导DNA 单链断裂,以及 pegRNA。pegRNA 包含三个基本亚序列:一个引导序列(间隔),一个引物结合位点(PBS)和一个逆转录模板(RTT)。在 PE3/PE3b 和 ePE 等高级 PE 版本中,使用额外的单向导 RNA(sgRNA)在相反的链上诱导缺口。

目前,PE 技术正处于快速优化阶段,包括修饰 pegRNA 的序列和结构,调控相关修复途径,以及利用配对 PE 策略。重要的是,PE 效率明显受到 pegRNA 的特征影响,这凸显了在最终应用前对 pegRNA 进行优化的必要性和重要性。

针对不同的编辑类型和不同的编辑位置定制 pegRNA 设计是一项复杂且耗时的任务。最近已经开发了三个基于机器学习的模型(DeepPE, Easy-Prime 和 PRIDICT)来优化 pegRNA 设计。然而,这些模型严重依赖于人工特征工程,涉及许多预定义的 pegRNA 特征的计算。这些模型可能会忽略关键的见解,并导致有限的准确性和概括性。此外,它们本质上缺乏可解释性,就像黑盒子一样。因此,采用诸如 SHAP 之类的事后可解释方法来提供特征重要性。

OPED 用于 pegRNA 的效率预测和设计优化

受自然语言处理技术的启发,研究人员开发了一个定制的基于 Transformer 和注意力的 OPED 模型,用于 pegRNA 的效率预测和设计优化。为了提高其准确性和泛化性,将迁移学习引入到预训练和微调中。通过直接处理原始核苷酸序列,OPED 自动学习 DNA-pegRNA 对的全面和可解释的表示,从而消除了对预定义特征的需要。

定制的 Transformer 熟练地处理可变长度序列,并有效地表征核苷酸之间的空间相互依赖性以及目标 DNA 和 pegRNA 之间的互补碱基配对特征。定制的注意力网络计算每个核苷酸的注意力权重,并随后基于这些权重整合相关信息。

图 1:OPED 模型的框架。(来源:论文)

研究证明了在不同编辑类型、编辑位置、内源性位点、实验室环境、tevopreQ1 条件、错配修复(MMR)抑制条件、体外细胞系和体内小鼠肝细胞中,OPED 预测 pegRNA 效率的通用性和准确性。值得注意的是,在上述情况下,与 OPED 得分较低的 pegRNA 相比,较高 OPED 编辑得分的 pegRNA 的编辑效率高得多(2.2-82.9 倍)。

图 2:OPED 在已发布数据集上的性能评估。(来源:论文)

图 3:在不同的 PRIDICT 数据集上验证 OPED。(来源:论文)

此外,通过使用 PE2、PE3/PE3b 和 ePE 编辑系统的优化 PE 设计(pegRNA 和 sgRNA)有效安装各种 ClinVar 致病性变体,验证了 OPED 的广泛适用性和卓越性能。

图 4:人类致病变异与优化 PE 设计的安装。(来源:论文)

值得注意的是,与现有 PE 设计工具相比,OPED 推荐的 PE 设计显示出更高的平均编辑效率(PE2,2.1–6.8 倍;PE3/PE3b,7.9–24.6 倍;ePE,3.4–47.5 倍)。在所有比较中,OPED 始终优于现有 PE 设计工具。

图 5:PE 优化设计的实验验证。(来源:论文)

此外,研究人员构建了一个综合数据库 OPEDVar,包含针对 77000 多种 ClinVar 致病性变体的优化 PE 设计,并为 OPED 开发了一个用户友好的 web 应用程序(http://bicdb.ncpsb.org.cn/OPED/)。

图 6:OPEDVar 数据库和 OPEDVar web 应用。(来源:论文)

值得注意的是,OPED 仅在具有规范 NGG PAM 的 PE2 数据集上进行训练。因此,尽管经过实验验证,OPED 能够在包括 NG PAM 在内的不同场景下优化 pegRNA 和 sgRNA,但其预测其他 PE 版本效率的能力有限,其在 NG PAM 上的性能需要更多的实验验证。

未来研究

在未来的研究中,研究人员建议利用人工智能技术全面系统地优化 pegRNA 和其他序列,如支架序列、nick sgRNA、3' 结构 RNA 基序和连接子序,前提是获得足够的数据。

此外,通过新的基于人工智能的技术,可以改善含有与工程逆转录酶融合的 Cas9 切口酶的 PE 的效应。

论文链接:https://www.nature.com/articles/s42256-023-00739-w

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

相关推荐

  • 像搭乐高一样做数学定理证明题,GPT-3.5证明成功率达新SOTA
  • ChatGPT上新文件分析、自动搜索等功能,初创公司的产品被取代?
  • 苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
  • 图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的
  • 比亚迪今年的薪资。。
  • 生成式AI迫使Stack Overflow裁员28%
  • 雷军谈澎湃OS存储扩容;传字节除夕统一放假;小米14开机画面显示仍基于安卓;大众汽车软件部门计划裁员 2000 人
  • Windows 11 发布两年,仍“远远落后”于 Windows 10
  • 马斯克440亿美元收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!
  • 一个小技巧,显著提升大模型推理能力!加州大学提出MAF多反馈框架
  • 视觉霸主SAM和文图霸主CLIP强强联合!苹果联合UIUC,发布统一视觉模型SAM-CLIP,或掀起多模态新浪潮
  • 一次出手3个项目,LP会不会觉得我太冲动了?
  • 🥇 2023人工智能年度评选!还没截止,别错过了 🤩
  • 百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2
  • 豆瓣9分线代教材免费了!斯坦福伯克利都在用,新版PDF直接下载
  • ChatGPT再进化!全工具All in One,网友:多少创业项目死于今天
  • 中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维
  • 科学春晚,还得是B站:稚晖君机械臂搭广寒宫,院士下半身直接消失
  • AI让霉霉说中文,口音那叫一个地道!背后的中国初创公司7个月收入百万美元
  • 国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力