哈勃观察员
26-05-28 08:05 微博认证:科学科普博主 头条文章作者

退后吧,AlphaFold:新模型预测了10亿种蛋白质结构!

AlphaFold近年来风靡一时,且获得了诺贝尔大奖。然而山外有山,近日名为ESMFold2的AI工具生成的新开源图谱,让已知的蛋白质世界又一下子变得大了许多。据NatureNews报道,这款新发布的人工智能工具,生成了一张包含超过十亿个预测蛋白质结构,以及数十亿条额外蛋白质序列的图谱。
5月27日,这一名为ESM图谱的数据库,由扎克伯格倡议旗下生物中心的研究人员正式发布。该生物中心是由Facebook创始人扎克伯格及其妻子、医生兼教育家普莉希拉·陈,在加利福尼亚州旧金山创立的生物医学研究机构。该图谱的预测蛋白质结构条目数量超过AlphaFold数据库8亿条,也比先前的ESM图谱多出约3亿条。这些预测采用的是ESMFold2,是另一种人工智能模型。

据Biohub称,该模型的性能超越了谷歌DeepMind最新版本AlphaFold3以及其他蛋白质结构预测人工智能系统。该图谱的相关内容已发表在27日发布的预印本中。“这本图谱所做的是展现蛋白质生物学的全貌,尤其是那些最不为人知的部分,”领导这项工作的Biohub科学负责人亚历克斯·莱夫斯表示,“我们认为这将成为发现新生物学的强有力底物。”

ESMFold2基于Rives团队于2024年发布的“蛋白质语言”模型,该模型经过了来自生命之树上数十亿种蛋白质的训练。它包含了来自土壤、海洋及其他环境的“宏基因组”序列,而这些序列在AlphaFold预测的蛋白质结构数据库中是缺失的。Rives团队表示,ESMFold2在确定相互作用蛋白质复合物的正确结构方面表现优于现有方法,包括AlphaFold3——这些复合物包括抗体分子与其抗原分子靶标结合的情况。
在预印本中,研究人员描述了他们如何利用ESMFold2设计出新型抗体及其他蛋白质,这些蛋白质能强烈结合与癌症和免疫疾病相关的蛋白质。在实验室中进行构建和测试后,相当一部分设计的结果与预测相符。里夫斯团队利用这一工具制作了一部图谱,其中包含11亿个预测的蛋白质结构,以及68亿个蛋白质序列的信息,极大地扩展了已知蛋白质的范围。
#热门微博# #科学新闻# #人工智能# #哈勃观察员[超话]#

发布于 广东