AlphaFold 3轻松应对核酸、脂类分子?科学家迫不及待地更新了评测

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

「如果这可以重现的话,这就是我们所知的世界末日!功能建模的新时代已经开始。」欧洲分子生物学实验室(EMBL)的科学家 Jan Kosinski 发推文表示。他在 AlphaFold 3 发布后,立刻用它做了一系列简单的测试,并把相关结果发在了 X 上。

「我取出了一个结构未知的转录因子,将其折叠起来,将其识别序列嵌入更长的 DNA 中。AlphaFold 3 准确定位了转录因子。」Kosinski 解释道。

他使用的转录因子:https://jaspar2020.genereg.net/matrix/MA0027.2/

使用的 DNA 序列:CAGGATCCTAATTATGGATCCTGTGTATCTTCAGT

他用的模型是:https://oc.embl.de/index.php/s/SsDKcS06P1xewAV

他说:「一旦 AlphaFold 3 的开源副本可用并且运行良好,我们也许能够通过计算来预测所有转录因子的序列特异性。我认为那会很大,对吧?」

同时,严谨的 Kosinski 呼吁网友:「但如果有人检查我是否没有混淆,是否与其他转录因子一致,以及分数是否可以用于区分特定和非特定序列,我会很高兴。」

Kosinski 还做了其他实验。

「还有一个,也许没有训练偏差。应该特异性结合启动子区域 ATTTTAGTCGCGCCTAAAAT 并且它再次出现!左为晶体结构,右为 AlphaFold 3 模型。启动子为红色。」他发文解释道。

「我们还不知道是否如此,但如果这种序列特异性推广到 CRISPR、锌指结构、TALEN、限制性核酸酶——可以为 AlphaFold 3 所有者带来多少收入?」他在推文里调侃道。

第二天 Kosinski 又用限制性内切酶做了相关测试。

推广到我手中的限制性核酸酶。识别序列为青色,切割位点为红色。」他说,「但请注意:只有两个示例和长 DNA,有人可以尝试精确长度的序列并比较特定和非特定序列。

「AlphaFold 3 无法正确预测限制性核酸酶 BamHI 的序列,尽管有 5 种结构可用,其中 4 种带有 DNA。」他发推文说,「左边是模型,右边是晶体结构。鉴于其中一些结构可能包含在训练和模板数据库中,这表明训练集中结构的存在并不能保证准确的预测。」 

BamHI:https://uniprot.org/uniprotkb/P23940/entry#struct

洛桑联邦理工学院(EPFL)的 Martin Pacesa 评论道:「可能是因为来自 MSA 的噪音!如果有太多 RE 同源物识别非常不同的目标序列,它可能会迷失在共同进化噪声中。

Kosinski 对 Pacesa 的观点表示肯定:「是的,你可能是对的,REases 在它们的 MSA 中通常很少有相似的序列……或者当我在硕士期间研究它们时,它们就这样做了。」

「它『识别』了什么?」网友 Evgenii 问道。

「CAAGCTTG,它只是绑定了另一个回文序列(像回文序列这样的 REases,原始序列 GGATCC 也是一个回文序列)。」Kosinski 回复道,「我尝试对序列进行洗牌,但它仍然找到并绑定了另一个不完美的回文序列(GCACGC)。我想我们需要一个更好的『背景诱饵序列』」

「有趣的!AAGCTT 那是 HindIII。根据您迄今为止的经验,AlphaFold 3 如何处理较长的 dsDNA 片段?」维也纳大学 Max Perutz 实验室的 Pim Huis in 't Veld 发文评论说。

「之前那这个起作用的原因是它搜索任何回文序列,因为这是相似的二聚体所结合的吗?有时它是否会寻找与训练模型中类似的一维 DNA 模式(例如回文、不匹配)? 」法国 CNRS Orléans 的 Marcin J. Suskiewicz 发文道。

「也许会有一个合理的解释!」Kosinski 说道。

帕拉茨基大学(Univerzita Palackého)的理论物理化学家、化学和生物信息学家 Karel Krápník Berka 则使用 AlphaFold 3 对膜上的脂质分子进行了研究。

「AlphaFold 3 还可用于预测膜位置。」他发文表示,「这是 CYP2E1 与油酸 (OLA) 的示例。这是与我 2013 年的 MD 膜模型和来自纳米圆盘的冷冻电镜进行对比。」

Kosinski 做了相关测试并跟帖道:「使用这种技巧在类脂膜双层内建模的候选新型大麻素受体,添加油酸(OLA)作为配体。」

后续成果,ScienceAI 还会持续跟进。

相关内容:https://twitter.com/jankosinski/status/1788532231939453015

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

相关推荐

  • Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
  • 从零开始手搓GPU,照着英伟达CUDA来,只用两个星期
  • DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
  • 2024最佳 React UI 库盘点
  • Node.js 22发布,增强了对ESM模块和Web API的支持
  • “我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?
  • 大模型永远也不做了的事情是什么?
  • “国外一开源,国内就创新”!面对中美大模型差异,我们该突破还是继续模仿?
  • Java开发杀手级框架!!
  • 10张图,搞定MySQL隔离级别
  • 同事说,这是写ChatGPT Prompt的万能公式
  • 公务员薪资正开始赶超互联网
  • BigDecimal 为什么可以保证精度不丢失?
  • 神仙接私活神器,牛到不行,绝了!
  • 今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现
  • 论文精读 | 生成式搜索与推荐综述
  • 依靠优化RMSLE的技巧获取Kaggle第一。
  • [开源更新]企业数字身份管控平台,一个账号打通所有应用的服务
  • [开源]一款安全可靠且功能强大的开源密码管理项目,支持静态部署
  • 我使用缓存,踩过的7个坑