#健闻登顶计划# 【值得高度关注】超越AlphaFold——开源模型ESMFold2预测10亿个蛋白的高级结构!蛋白质3D结构预测领域正迎来一次规模空前的扩容,一款名为ESMFold2的AI模型,近期公开了其构建的全新蛋白质结构图谱——ESM Atlas,包含11亿个预测蛋白质高级结构,以及68 亿条蛋白质序列,体量远超此前所有数据库。
这项研究由加州Chan Zuckerberg生物医学研究所(Biohub)完成,相关成果目前仅发布在预印本平台,国际科学权威杂志《自然》做了新闻解读。
与谷歌DeepMind开发的AlphaFold相比,两者定位截然不同:AlphaFold长期以来是蛋白质3D结构预测的标杆,以高精度著称,但模型不开源,数据库约2.2亿个结构,主要覆盖已知生物体蛋白。
ESMFold2则是完全开源(MIT协议),可自由使用和二次开发;在抗体结构、蛋白复合物、抗原-抗体相互作用等任务上,性能优于最新版AlphaFold3。
ESM Atlas的11亿个蛋白质3D结构中,绝大多数来自宏基因组数据—— 即土壤、海洋、极端环境中大量未知微生物的蛋白,这部分恰恰是AlphaFold数据库几乎空白的区域。
自然界已知蛋白远不到11亿个,因此这一数据库中包含大量潜在药用蛋白(重组融合蛋白、单抗和双抗)、蛋白质全新折叠类型、以及仅存在于计算预测中的“想象蛋白”,极大拓展了人类认知的蛋白质宇宙边界。
研究团队强调,ESM Atlas不仅是数量的堆砌,更旨在揭示蛋白质生物学的整体规律,尤其是那些最未知的部分。他们已利用该模型设计出针对癌症、免疫疾病靶点的全新抗体及蛋白药物,实验室验证显示,大部分设计分子具备预期的高亲和力与特异性。
公平讲,AlphaFold做了“从0-1”开拓性贡献,而ESMFold2实现了“从1-10”的规模爆发——更大数据、更全来源、完全开源、更强的蛋白质相互作用预测能力,在应用广度与数据体量上实现了全面超越。
