谷歌DeepMind荣登Nature封面#How I AI#
最新AlphaGenome,再一次拓展了AI在DNA领域的研究。
人类基因约有30亿个碱基,但其中只有不到2%的序列,用于编码蛋白质,其余98%被称为非编码区。
然而,它们对调控基因的活性至关重要,并包含了大量与疾病相关的变异位点。
直到现在,生物学家实际上无法看清它是如何运作的。
AlphaGenome正是为解读这些广阔的非编码序列及其内部变异,提供了全新的视角。
一次100万对,90%精准预测
从论文角度,一起拆解下AlphaGenome背后工作原理。
总言之,AlphaFold解决了蛋白质折叠问题,AlphaGenome则研究接下来的问题——
DNA实际上是如何控制基因的?
当前,问题的核心是:98%的人类基因突变其实发生在基因之外,也就是那些负责调控基因在何时、何地、以及表达多少的「调控区」。
科学家们很清楚,这些区域至关重要。
可问题是,想要预测这些区域里的某个特定突变到底会起什么作用,难度可就直接翻倍了。
为什么会如此困难?
因为某个位置的一个小突变,可能会影响到远在50万个「字母」(letters)之外的基因。
以前的AI工具不得不做「单选题」:要么看得远,但视野模糊;要么看得清,但只能盯着附近那一小部分地方。
也就是说,鱼和熊掌,过去的AI还没法兼得。还有一个问题是,目前的工具都是「专才」。
想知道突变是否影响基因表达?用一个模型剪接(Splicing),用另一个染色质(Chromatin),再换一个.....
但基因突变并不只影响单一环节,生物学是环环相扣的。
基于谷歌之前的Enformer模型,AlphaGenome这次一口气解决了上述两个痛点:
既能「望远」也能「微距」:它能一次性吞掉100万个DNA字母,而且预测精度依然能细化到每一个字母。
从「偏科生」变成「全才」:基因表达、剪接、染色质状态、蛋白质结合——这些复杂的生物过程,现在只需这一个模型就能同时搞定。
战果一:更擅长预测突变如何影响基因活性
在90%的准确率下,之前的最佳模型发现了19%已知变异位点,AlphaGenome直接找出了41%,性能足足提升一倍多。
战果二:精准识别破坏「剪接」的突变
所谓的「剪接」(Splicing),其实就是细胞在给基因片段搞「剪剪贴贴」,最后拼成一份能指导生命活动的最终指令。
如果这一步搞错了,拼出来的蛋白质就是个「报废品」。别小看这些错误,它们导致了大约15%遗传病。
而在这一领域的七项权威基准测试中,AlphaGenome在其中6项都拿到了第一,完全碾压了现有的工具。
战果三:更精准地预判DNA的「封装」变化(染色质)
DNA紧紧地缠绕在蛋白质周围,松开它,基因就能开启。收紧它,基因就保持关闭。
在预测突变何时改变这一过程方面,AlphaGenome的表现优于专业工具。
战果四:在「实战」中精准预判癌症突变
为了验证真本事,研发团队拿真实的癌症突变给AlphaGenome来了场「实战演习」。
在T细胞白血病中,某些特定的突变会像合上电闸一样,意外激活一个极其危险的基因——TAL1。
AlphaGenome不仅准确预测出了这种激活的具体路径,而且其预测结果与科学家在实验室里忙活多年才得出的结论完全吻合。
