高飞 26-05-02 22:34
微博认证:至顶科技创始人 AI博主

#模型时代# Daphne Koller:药物发现的成功率只有10%,AI要解决的是那90%的失败

最近对AI在医药领域的应用产生了很强的兴趣。几乎所有前沿AI实验室都在向医学靠拢,OpenAI和Anthropic都表达过明确的意向,Google DeepMind已经有了AlphaFold这样的标志性成果。所以我就想找一个素材,对AI药物发现这个体系建立一个相对完整的理解。然后就找到了2020年5月Lex Fridman采访Daphne Koller的一期播客。看完觉得讲得蛮好,回头查验了一下,发现她五六年前讲的很多判断到今天基本是应验的。于是又找到她2025年3月在斯坦福医学院的一次讲座,结合insitro截至2026年5月的公开资料,整理成了这篇笔记。

Daphne Koller是斯坦福大学计算机科学教授,概率图模型领域的核心人物,她写的教科书至今仍是这个领域的标准参考。17岁在耶路撒冷希伯来大学拿到本科学位,2004年获MacArthur天才奖。她与吴恩达共同创办了Coursera,但创业的时间窗口让她付出了代价:2012年正是深度学习革命爆发的年份,她却在全力做在线教育。2025年的讲座中她坦言"I missed the beginning, which I'm feeling kind of bummed about",错过了开端,至今觉得遗憾。

2016年离开Coursera后,Koller没有直接创业,而是去了Calico,Alphabet旗下专注衰老和长寿研究的公司,跟着Art Levinson和Hal Barron学药物发现。她把这段经历叫"职业生涯晚期的第二次博后"。正是在Calico,她第一次近距离看到药物发现的实际运作方式,反应是:这个行业居然还在用50年前的方法做事。2018年她创立insitro,把机器学习带入新药发现。

从2020年到2026年,insitro的进展密集。公司累计融资超过7亿美元。与百时美施贵宝的ALS合作从2020年启动至今已推进到三个靶点,累计触发超过3500万美元里程碑付款,如果成功交付新药,整个合作的里程碑总额可能超过20亿美元。2026年1月insitro收购以色列公司CombinAbleAI,发布了覆盖小分子、寡核苷酸、抗体等全部主要药物模态的TherML平台。2026年2月公布了首个AI驱动的棕色脂肪组织人类遗传学研究,一个靶点在临床前模型中实现了15%的体重下降。insitro第一个自有候选分子CTRO-1013已完成首次人体试验设计,计划2026年进入临床。Koller本人2023年当选美国国家科学院院士,2024年入选TIME杂志AI领域最具影响力100人和首届Forbes 250创新者榜单。

一、90%的新药失败,问题出在假设

1、行业成功率不到10%,现在连太空探索都比它高

Koller在2025年的讲座中给出了一个对比:药物研发从进入临床到最终获批的成功率不到10%。她说自己过去常拿太空探索做参照,但现在太空探索的成功率已经超过了10%,药物发现可能是仅存的成功率如此低的行业。

在2020年的播客中,她的父亲因自身免疫疾病去世的经历解释了这个数字背后的人类代价。当时医生能给的唯一方案是泼尼松,一种免疫抑制类固醇,副作用严重到"如果今天提交FDA审批可能都通不过"。医生甚至提议做肺活检来确认具体是哪种自身免疫疾病,但承认即使确认了也不会改变治疗方案,因为只有泼尼松可用。到了2020年,同类疾病已经有四五种以上的可选药物。

2、90%的失败源于生物学假设错误

这是Koller在播客和讲座中都反复强调的判断。那90%失败的药物项目,多数并非因为分子设计有问题,而是从一开始就选错了生物学假设,瞄准了错误的靶点,或者对疾病机制的理解本身就不对。

这个判断直接决定了insitro的战略选择。在2025年的讲座中,Koller把AI药物发现拆成三个标准阶段:第一阶段是生物学发现,找到正确的治疗假设和靶点;第二阶段是分子设计,把靶点变成药物分子;第三阶段是临床试验,把分子放进人体验证。insitro把主要精力放在第一阶段,因为那里才是失败的根源。

3、多数疾病的理解程度接近零

在2020年的播客中,Koller把人类对疾病机制的理解放在0到100的刻度上评估。有些疾病可能到了七八十分,但大多数接近零。阿尔茨海默症接近零,精神分裂症"几乎确定接近零",2型糖尿病稍好一些但背后仍有大量未被理解的机制。

她还强调了一个经常被忽略的前提:一种疾病往往不是一种病。乳腺癌已经被证明不是单一疾病,而是多种不同的细胞机制,只是最终都表现为不受控制的细胞增殖。同样的逻辑几乎必然适用于阿尔茨海默症和其他复杂疾病。在试图理解具体机制之前,必须先承认这种异质性。

二、为AI而生的数据工厂

Koller认为AI对生命科学影响有限的最大瓶颈之一,是能同时理解机器学习和生物学的人太少。两个领域的术语不同,思维方式不同,对"什么是好问题"的判断标准也不同。她自己恰好站在这个交叉点上,这也是她创立insitro的出发点之一。2025年的讲座中,她对insitro的数据方法论做了比2020年更锐利的阐述。

1、学术实验室的数据不是给机器学习用的

Koller用了一个尖锐的比喻。学术研究的终极目标是Science论文的"图二":在所有实验图像中精心挑选最能支持假设的那一张,就够了。

机器学习不挑图。它吃进所有数据来训练预测模型。而现代机器学习能力的两面性恰恰在这里:它能识别微妙的生物学模式,也同样能抓住与生物学无关的实验噪声。谁在那天操作了移液器、培养基的试剂配比有没有微小差异、实验室当天的温度是多少,这些都是机器学习会抓取并据此做预测的伪信号。

所以insitro建了一座数据工厂。核心投资不在算法,在流程工程、自动化和一致性协议上。Koller把这类数据叫fit for purpose,为AI量身定制的数据。大量实验在池化条件下进行,所有细胞在同一环境里,很多批次效应天然消失。

2、数据是护城河,算法不是

Koller在2025年的讲座中讲到了一个当时正在发生的事件:当时咱们国内的DeepSeek刚刚颠覆了整个行业对AI模型的认知。她觉得这反而印证了自己的长期判断:算法来了又走,上周还被认为是必须的训练方式,这周就被完全不同的方法取代了。但数据不一样,高质量的、为AI量身生成的数据是很难复制的竞争壁垒。

这个判断可以追溯到2020年的播客。当时Koller就说过,过去生物学家用实验技术产生数据,机器学习作为"副产品"被事后应用。insitro翻转了这个顺序:先想清楚机器学习需要什么样的数据,再用生物学工具去主动制造。五年后的讲座中,这条逻辑从理论走到了运营层面,insitro已经建成了一座持续产出数据的工厂。

3、建工厂很痛苦,但建完了别人也跟不上

Koller在2025年的讲座中坦率对比了创办Coursera和insitro的经历。Coursera是她的第一家公司。在那之前她连一天公司都没待过,创业就像"从悬崖上跳下去,连底在哪都看不见"。但软件公司有一个特点:进入门槛低,增长极快。她做TED演讲时每周都要给主办方发新的幻灯片,因为用户数每周都在涨几万。

insitro完全是另一种节奏。从比特的世界进入了原子的世界,原子不如比特听话,尤其当这些原子组成了活细胞的时候。建湿实验室、调自动化设备、把流程做到足够一致的质量,每一步都比她预期的难。但这种痛苦正是护城河的来源:软件公司的低门槛意味着竞争对手也容易进来,insitro的这种基础设施投入别人也需要很长时间才能复制。

三、小鼠不会得阿尔茨海默症:疾病模型的根本重建

1、动物模型的缺陷在于机制不对

传统动物模型的做法是在小鼠身上人为引入外部干扰来制造疾病,然后在小鼠上治愈它,再希望同样的方法能治愈人类。问题在于:制造疾病的方式和人体中疾病的真实发生机制往往完全不同。复制的是疾病在可观察层面的外在表现,不是背后的生物学机制。

小鼠自然状态下不会得阿尔茨海默症,不会得糖尿病,不会得动脉粥样硬化,也不会得自闭症或精神分裂症。在这些非自然发生的疾病模型上找到的"治愈方案",大多数无法迁移到人体。

2、iPSC:从人类细胞出发,保留真实的遗传负担

2006年日本科学家山中伸弥发现了一组转录因子,能把已经分化的体细胞逆转回干细胞状态,这种干细胞被称为诱导多能干细胞,简称iPSC。从iPSC出发,可以再分化出神经元、心肌细胞或肝细胞。这些细胞携带着供体的基因组,但属于目标器官的细胞类型。

在2020年的播客中,Koller说在这项发现之前几乎没有人预测这种逆转是可能的。到了2025年的讲座,iPSC已经是insitro日常运营的基础工具。ALS项目中,研究团队从iPSC分化出运动神经元,用图像和转录组学等高内容数据来观察健康细胞和患病细胞的差异,然后用遗传筛选寻找能把不健康状态逆转回健康状态的基因靶点。

Koller在讲座中强调了一点:机器学习能在细胞中看到人眼看不到的东西。人很难分辨两张细胞显微镜图像之间的微妙差异,机器学习可以。

3、从"黏糊糊的东西"到数字数据

有了iPSC衍生的人类细胞,下一个问题是怎么把这些活的、黏糊糊的东西变成机器学习能处理的数字数据。Koller在2020年的播客中详细解释了两项关键的测量技术。

单细胞RNA测序可以在单个细胞级别测量基因组中每个基因的活跃程度,方法是计数每个基因产生的RNA转录本数量。一个基因活跃就会产生更多转录本,不活跃就少。这样每个细胞就变成了一组数字。超分辨率显微镜则通过数字重建看到亚细胞结构,甚至能看到光学衍射极限以下的细节。

正是这些大规模定量测量技术让"一种疾病不是一种病"从猜测变成了事实。Koller举了乳腺癌的例子:微阵列技术是最早能在单次实验中测量全基因组基因活跃程度的工具,在有这项技术之前,乳腺癌就是乳腺癌;看了分子数据之后才发现它是多种在基因活动层面完全不同的疾病。

4、人和人之间的遗传风险差异有多大

不同人的基因组携带的疾病风险差异很大。研究者用多基因风险评分的方法来量化这种差异:把一个人基因组中所有已知的风险变异加总,算出一个分数。Koller在2020年的播客中提到,对于一些研究较充分的疾病,风险评分最高十分位的人群和最低十分位的人群之间,患病风险可以差10到12倍。

这个信号是真实存在的。但Koller认为直接看基因组还不够,看基因组驱动下细胞实际发生了什么变化,比直接看基因组本身离临床结果更近,能学到更多。这也是为什么insitro选择在细胞层面而非纯基因组层面做机器学习。

5、类器官:从单一细胞走向迷你器官

在2020年的播客中,Koller提到了一种更进阶的模型:类器官。用干细胞培养出来的微型三维组织,能模拟真实器官的部分结构和功能。已经有脑类器官、肝类器官、肾类器官,甚至有研究者开始把不同类器官连接起来,模拟多器官系统之间的相互作用。

她当时估计三到五年后可以做到当时做不到的疾病模型。从2026年的视角看,这个时间窗口正好对上。

四、两种合作模式:BMS做ALS,Lilly做代谢

Koller在2025年的讲座中详细解释了insitro与两家大药企完全不同的合作架构。

1、BMS合作:insitro发现靶点,BMS负责后续临床

这是一个相对传统的生物技术与制药公司的合作模式。insitro承担ALS项目的主要发现工作,BMS提供神经退行性疾病领域的经验和洞察。insitro的工作在产出分子时结束,BMS负责临床开发和商业化。

Koller在2025年的讲座中详细解释了ALS项目的科学逻辑。ALS的遗传学背景相当多样,不同患者的致病基因并不相同,但这些不同的遗传变异最终都汇聚到同一个终点:运动神经元死亡。这个汇聚是怎么发生的,此前理解得很差。insitro做的是把这些不同的致病遗传学放进iPSC衍生的运动神经元细胞系统里,用图像和转录组学数据训练机器学习模型区分健康细胞和患病细胞,然后做遗传筛选:逐个敲低基因,看哪些基因被敲低后能把疾病状态逆转回接近健康的状态。找到的基因就是候选靶点,再把这些靶点变成药物分子,期望药物达到和基因敲低相同的效果。

Koller也给出了一个诚实的限定:ALS没有好的模型系统,"我们只有在把药物放进人体、看到效果之后,才能完全确认这条路走通了"。不过她补了一句,这其实是整个药物发现行业的通病。

Koller说BMS在insitro相当早期的阶段就投下了赌注,当时公司的能力还没有完全证明。团队内部有一个反复出现的笑话:"我们在飞行中造飞机。"后来团队不觉得好笑了,因为确实同时做两件事太难了。

根据公开资料,这个合作从2020年启动至今成果可观。2024年12月BMS选定了第一个ALS遗传靶点,触发2500万美元里程碑付款。2025年10月双方延期合作,利用insitro的ChemML平台为这个靶点设计新分子。2026年3月BMS又提名了两个新靶点ALS-2和ALS-3,触发1000万美元付款。在iPSC衍生的运动神经元验证实验中,调控这些靶点能恢复神经突生长,正是Koller一直描述的"在源头细胞上逆转疾病表型"。

2、Lilly合作:insitro保留项目所有权

与BMS模式几乎相反。insitro自己完成了代谢领域的全部发现工作,找到了靶点。Lilly的角色是帮insitro制造分子,因为Lilly在抗体制造方面有成熟的技术和产能。但项目归insitro所有,未来的临床开发和商业化由insitro主导。

Koller的评价很直接:insitro如果自己做抗体,可能要花两倍的时间才能做到Lilly的水平。Lilly在这个合作中扮演的是生态平台的角色,专门寻找有差异化能力的小公司,用自己的制造能力帮它们加速。

3、insitro同时也在推进自有管线

除了合作项目,insitro还在独立推进自有管线。CTRO-1013是第一个完全自主开发的候选分子。同时,insitro正在ALS-1靶点上同时推进两条路线:一条是自己的寡核苷酸项目,另一条是为BMS开发的小分子项目。2026年2月公布的棕色脂肪组织研究则指向了肥胖领域的新方向。

五、Koller的水晶球:5年看分子设计,10年看生物学发现

1、中间阶段的革命已经发生

Koller在2025年的讲座中承认,AI药物发现三个阶段中,中间阶段,也就是从靶点到分子的设计环节,进展最快。AlphaFold和后续的蛋白质设计工作已经展示了AI在预测蛋白质折叠和设计特定形状蛋白质方面的能力。多家公司在这个方向上取得了成果。

她的预判是:5到10年内,AI辅助的分子设计将成为行业常态。但她也纠正了一种流行叙事:完全由计算机自主完成的端到端药物设计"我不知道是否可能"。正确的问题应该是"有AI和没有AI,差多少",而答案是"差距巨大"。

2、第一阶段的突破更难,但影响更大

insitro聚焦的第一阶段,找到正确的生物学假设,比分子设计更难。难在问题定义本身就不清晰:设计分子时你可以测试分子是否实现了预期功能,但你提出的治疗假设是否正确,只有等到在人体中验证了才知道。

Koller估计5年内会有来自AI辅助发现的药物进入临床试验,10年内这类药物会越来越多。她给出了一个理由:人类不借助AI来精确测量和解读人体生理学数据的能力正在触及极限,而面对越来越丰富的数据,不用AI来解读将变得越来越不可能。

3、终极愿景:跳过机制研究,直接预测

Koller在2025年的讲座中提出了一个大胆的类比。大语言模型在不理解语言学或语义学的情况下,能对人类语言做出高质量的预测。类似地,如果有足够多的高质量人类生物学数据,是否有可能构建出能预测生物学干预后果的模型,即使模型内部没有一个可解释的机制?

她没有宣称这已经实现,但指出了方向。如果社会要做一件事来释放AI对人类健康的价值,应该是"持续努力创建一个丰富的人类生物学数据语料库,让这样的模型得以训练"。她承认目前生命科学还远不像自然语言那样拥有网络规模的数据,但认为这条路是可以走通的。

六、创业领导力的三条原则和一条底线

1、大胆、谦逊、敏捷

Koller在2025年的讲座结尾给出了她认为当下领导者最需要的三个特质。第一是大胆:两年前认为不可能的事情,今天的技术可能已经能做到,不要被过去的认知框住。第二是谦逊:如果你带着"我有技术,要改变一切,不需要理解你们的问题"的心态进入一个新领域,这种心态"既会伤害科学的成功,也会伤害技术被采纳的意愿"。第三是敏捷:变化在持续发生,如果把全部赌注押在某一个特定假设上,一旦像DeepSeek这样的意外出现,就可能措手不及。

2、insitro的团队构成:60-65%生命科学家

insitro的研发团队中约60%到65%是生命科学家,其余35%到40%是计算科学家。Koller说这种接近对半的比例在行业中极为少见,多数公司95%偏向一方。这种比例的好处不只是"能力互补"。在insitro,跨学科团队从决定研究什么问题的阶段就开始合作,不是等数据出来了再找计算的人来分析。Koller观察到,当这些人在早期阶段就坐在同一个房间里时,"they don't just come up with better answers, they come up with better questions"。他们提出的不只是更好的答案,还有更好的问题。

3、关于未来的底线判断:AI释放的是创造力,风险更多来自气候

Koller说自己更偏向技术乐观主义者。人类在历史上反复"玩火",从真正的火到越来越危险的各种版本的"火",但到目前为止还活着。即使不考虑AI是否会比最聪明的人类更聪明,单看当前的轨迹,每个人相当于拥有了无限量的高水平研究助理,这本身就能释放巨大的创造力和创新。

至于生存威胁,她认为气候变化比超级AI更可能毁灭人类。这和她2020年在播客中的判断一致:当时她认为CRISPR基因编辑被滥用的危险至少与AI相当,也担心的是具体的复杂系统失控,不是遥远的超级智能。

Q1: insitro为什么把重心放在药物发现的第一阶段而非分子设计?
因为90%的新药失败发生在第一阶段:选错了生物学假设和靶点。分子设计已经有AlphaFold等工具在快速推进,但找到正确的治疗假设是一个更难、定义更模糊、验证周期更长的问题,也是失败率的真正来源。insitro用iPSC衍生的人类细胞加大规模机器学习来替代传统的动物模型和假设驱动的研究,试图在更接近人类生物学的层面上找到正确的靶点。

Q2: insitro的数据生成与传统学术实验室有什么区别?
学术实验室的数据是为支持假设而生的,挑最好的那张图就够了。insitro的数据是为训练机器学习模型而生的,必须系统化、一致、尽可能消除批次效应和实验噪声。这需要大量投入在自动化、流程工程和质量协议上,本质上是建一座数据工厂。Koller认为算法会不断被颠覆,高质量数据才是持久的竞争壁垒。

Q3: Koller认为AI药物发现在5到10年内会走到什么地步?
5年内,AI辅助的分子设计将成为行业常态,会有AI显著参与发现的药物进入临床试验。10年内,AI在生物学假设发现阶段的参与会大幅增加,因为人类不借助AI来精确测量和解读复杂人体数据的能力正在触及极限。终极愿景是构建一个类似大语言模型对自然语言那样的、能对生物学干预做出高质量预测的系统,但前提是社会需要投入创建大规模人类生物学数据语料库。

发布于 中国台湾