新智元报道
编辑:润 alan就在今天,DeepMind公布了AlphaFold最新进展——「AlphaFold-latest」。
根据DeepMind最新发布的技术报告,新一代的AlphaFold不仅仅能够以更高的准确性处理和预测蛋白质的结构。
它还能将相似的能力推广到核酸、任意小分子配体等其他的生物分子结构上。
虽然新的AlphaFold还没有完全开发完成,但是因为性能实在太好了,DeepMind忍不住要提前透露给大家看看。
报告地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf
DeepMind称,新版模型扩展的功能和性能提升可以加速生物医学突破,为疾病通路、基因组学、生物可再生材料、植物免疫、潜在治疗靶点、药物设计机制提供各种全新的可能性。
AlphaFold开辟了生物学发展的新时代——「数字生物学」时代。
新一代AlphaFold提前剧透
具体来看看新版AlphaFold实现的新功能。「AlphaFold-latest」目前还是一个预览阶段,开发还没有完成,但在预测蛋白质结构之外的更广泛的任务中的表现出了惊人的性能。
「AlphaFold-latest」是在2022年底的AlphaFold 2.3版本的基础上搭建的,对于蛋白质结构的预测,特别是结合了抗体结构的类别,有着更好的性能。
对于构成核糖体等重要细胞组件的蛋白质-核酸复合物结构的预测,AlphaFold-latest的性能明显强于其他模型。
对于RNA结构的预测,也比其他模型表现好,不过相较于人类专家参与的预测性能,还有进一步提高的空间。
对于复合药物研发的关键部分——配体(Ligand),「AlphaFold-latest」在PoseBusters基准测试中也优于AutoDock Vina等经典模型。
而且还是在基线可以获取「AlphaFold-latest」无法获取的真实蛋白质结构信息下取得的测试结果。
而且对于许多涉及残基修饰的的生物过程(例如蛋白质中的糖基化), 「AlphaFold-latest」可以预测生物分子中所表现的一系列特征的结构——例如共价结合的配体、糖基化和修饰残基。
这一系列的成就表明了,使用AlphaFold的方法,可以对所有重要生物分子及其相互作用进行原子级精确结构预测!
AlphaFold开创「数字生物学」
自2020年发布以来,AlphaFold彻底改变了人类对蛋白质及其相互作用的理解方式。在之后的几年时间里,Google DeepMind和Isomorphic Labs一直在共同努力,开发出了更强大的AI模型,将预测范围从蛋白质扩展到全方位的生物分子。
AlphaFold的新模型,能够使得生物医学的发展全面加速。
当前的行业标准是使用「对接方法(docking methods)」来确定配体和蛋白质之间的相互作用。
这些方法需要严格的参考蛋白质结构和配体结合的可能位置。
「AlphaFold-latest」超越了现有的最佳对接方法,为蛋白质-配体结构预测树立了新的标杆。
无需参考蛋白质结构或配体口袋的位置,从而可以预测之前尚未进行结构表征的全新蛋白质。
它还可以对所有原子的位置进行联合建模,使其能够代表蛋白质和核酸在与其他分子相互作用时的全部固有灵活性——这是使用对接方法不可能实现的。
例如,以下是最近发表的三个与治疗相关的案例,其中最新模型的预测结构(以颜色高亮部分)与实验确定的结构(灰色部分)非常匹配:
通过解锁蛋白质和配体结构以及核酸和含有翻译后修饰的结构的建模,模型为检查基础生物学提供了更快速、更准确的工具。
DeepMind举了一个例子:CasLambda结构。这是一个把crRNA和DNA结合的结构,是CRISPR家族的一部分。CasLambda具有CRISPR-Cas9系统的基因组编辑能力,俗称「基因剪刀」,研究人员可以用它来改变动物、植物和微生物的DNA。CasLambda较小的尺寸可以更有效地编辑基因。最新版本的 AlphaFold 能够对此类复杂系统进行建模,这向我们表明人工智能可以帮助我们更好地理解这些类型的机制,并加速它们在治疗应用中的使用。AlphaFold的技术报告中提供了更多示例。AlphaFold在性能上的巨大提升,表明AI能够极大增强人类对构成人体的分子机制,以及更广泛的自然世界的科学理解。
AlphaFold已经促进了世界各地的重大科学进步。下一代AlphaFold能够使得人类以「数字化」的速度对生物医学领域进行科学探索。技术报告细节
DeepMind公布的技术报告,更加详细地呈现了实现这些突破的技术和具体细节。
尽管这位网友表现出些许失望,——「仅此而已,没有模型、论文或代码」,但我们还是能从DeepMind官方给出的技术报告中发现一些细致而有趣的地方。AlphaFold-latest将生物组装的描述作为输入,包括聚合物的序列和配体的SMILES序列,以及可选的共价键、配体的序列位置,并输出对每个重原子的3D位置的预测。
用于训练模型的所有实验结构均来自PDB,发布日期截至2021-09-30。模型输入的token数取决于所能负担的硬件和时间成本。这里,DeepMind在使用了5120个token的复合体上评估系统性能,但该系统能够在具有大量内存的加速器上运行更大的复合体。每个输出结构都带有每个原子、每个标记对和聚合结构级置信度。此外,结构中的每个实体以及结构内实体之间的每个接口都具有关联的置信度。几天前,曾有网友发问,「RNA什么时候会来到它的AlphaFold时刻?」,没想到他的愿望这么快就实现了。
那么,最新的AlphaFold究竟在多大程度上满足了它的愿望呢?AlphaFold-latest能够单独或与蛋白质合作预测核酸(DNA或RNA)结构。上图展示了将AlphaFold-latest与最近用于一般蛋白质核酸预测的基于深度学习的系统RoseTTAFold2NA(RF2NA)进行比较的结果。上图评估了AlphaFold在目前公开可用的CASP15 RNA靶标上的最新性能。AlphaFold-latest优于其他自动化方法,但表现略差于目前最好的由人工专家干预的系统。——看起来还不错,好险,专家保住了自己的地位。下面我们来看一下技术报告中的其他方面:论文在两个数据集上评估了配体的准确性。首先研究了PoseBusters基准集,这是来自PDB的428种配体蛋白质结构的精选集合。上图显示了三个示例,其中AlphaFold-latest实现了准确的预测,但对接工具Vina和Gold却没有。这里确认了先前观察到的尝试使用经典对接工具对接AlphaFold 2.3蛋白质结构的性能不佳;相反,在联合预测蛋白质和配体位置时,AlphaFold-latest可以对这些结合结构做出更好的预测。上图比较了PoseBusters工具返回的各种质量检查。请注意,AlphaFold-latest执行的是结构预测,而不是刚性对接,因此它可能会生成具有周围环境中局部变化的预测,以适应配体。因此,通过检查预测配体与其预测上下文之间的冲突,而不是预测的配体和真实蛋白之间的冲突,来评估AlphaFold最新预测的分子间合理性更合适。上图比较了AlphaFold-latest和AlphaFold 2.3在低同源性近期PDB评估集上的性能。为了与AlphaFold 2.3进行比较,这里仅限于最多具有2560个蛋白质残基、最多20个蛋白质链和链中大于3个残基的复合物。在最近的低同源性PDB评估集上,AlphaFold-latest明显优于AlphaFold 2.3,对于抗体-抗原界面预测的改进更大。上图表明,对于大型复合物,AlphaFold-latest单体蛋白的预测准确度仍然很高。另外,AlphaFold-latest还可以预测含有共价修饰的结构。共价修饰在AlphaFold的输入中以与PDB中表示的方式相同,即它们可以定义为具有非标准CCD代码的残基,也可以通过键表中的其他条目来定义。网友热议