[LG]《Latent Causal Diffusions for Single-Cell Perturbation Modeling》L Lorch, J Zhang, C Bunne, A Krause... [ETH Zürich & MIT & EPFL] (2026)
在单细胞生物学的浩瀚星图中,理解基因之间的“因果对话”一直是建模的核心难题。传统的深度学习模型虽然能生成数据,却往往像一个“黑盒”,难以告诉我们扰动是如何在复杂的基因网络中传播的。
本文提出了一种名为潜变量因果扩散(Latent Causal Diffusion, LCD)的模型,为单细胞扰动建模带来了预测力与解释力的双重突破。
这不仅是一个更准的预测器,更是一台能够解析细胞调控逻辑的“因果显微镜”。
1. 捕捉细胞状态的动态平衡
LCD 模型将单细胞基因表达视为一个在测量噪声下的平稳扩散过程(Stationary Diffusion Process)。它并不只是简单地拟合静态分布,而是将基因调控形式化为一组随机微分方程(SDEs)。
在这个框架下,每个基因的表达演化都是其调控因子作用的结果。通过假设系统处于平衡态,LCD 能够从单细胞快照数据中推断出潜在的动力学机制,并成功将生物学上的随机波动与技术产生的测量噪声分离开来。
2. CLIPR:让黑盒动力学变得透明
为了让复杂的神经网络动力学变得可解释,研究团队开发了一种名为 CLIPR(通过扰动响应进行因果线性化)的技术。
CLIPR 的精妙之处在于:它通过观察系统在受到扰动后的“初始反应”和“最终稳态”,将非线性的扩散过程近似为一个线性的因果矩阵。这使得研究者能够直接量化基因与基因之间的直接因果效应,而不仅仅是观察下游的差异表达结果。
3. 预测未见的扰动组合
在对大型 Perturb-seq 筛选数据的评估中,LCD 在预测未见过的双基因扰动组合方面显著优于现有的 CPA、GEARS 等主流模型。
特别是在处理“新形态”(Neomorphic)遗传相互作用时,LCD 表现尤为出色。由于它模拟了扰动如何在非线性动力学中随时间“展开”,它能够捕捉到那些简单加性模型无法预测的复杂协同效应。
4. 深度思考与启发
这项研究最深刻的启示在于对“因果”与“关联”的进一步厘清。
在生物学中,基因 A 的扰动导致基因 B 的表达变化(差异表达),并不意味着 A 直接调控 B。这种效应可能经过了无数中间环节。LCD-CLIPR 框架试图还原的是那个最本质的、直接的调控矩阵。
总结:
差异表达只是现象的堆叠,而直接因果才是生命的底层代码。
预测未来很重要,但理解系统如何抵达未来,才是科学建模的终极关怀。
在单细胞的噪声迷雾中,扩散模型不仅是在生成数据,它是在模拟生命系统对抗随机性的稳态智慧。
LCD-CLIPR 框架为我们提供了一种可扩展的工具,让我们能够从海量的单细胞数据中,不仅读出“是什么”,更能读出“为什么”。
arxiv.org/abs/2601.15341
