潜变量因果扩散模型提出

[LG]《Latent Causal Diffusions for Single-Cell Perturbation Modeling》L Lorch, J Zhang, C Bunne, A Krause... [ETH Zürich & MIT & EPFL] (2026)

在单细胞生物学的浩瀚星图中，理解基因之间的“因果对话”一直是建模的核心难题。传统的深度学习模型虽然能生成数据，却往往像一个“黑盒”，难以告诉我们扰动是如何在复杂的基因网络中传播的。

本文提出了一种名为潜变量因果扩散（Latent Causal Diffusion, LCD）的模型，为单细胞扰动建模带来了预测力与解释力的双重突破。

这不仅是一个更准的预测器，更是一台能够解析细胞调控逻辑的“因果显微镜”。

1. 捕捉细胞状态的动态平衡

LCD 模型将单细胞基因表达视为一个在测量噪声下的平稳扩散过程（Stationary Diffusion Process）。它并不只是简单地拟合静态分布，而是将基因调控形式化为一组随机微分方程（SDEs）。

在这个框架下，每个基因的表达演化都是其调控因子作用的结果。通过假设系统处于平衡态，LCD 能够从单细胞快照数据中推断出潜在的动力学机制，并成功将生物学上的随机波动与技术产生的测量噪声分离开来。

2. CLIPR：让黑盒动力学变得透明

为了让复杂的神经网络动力学变得可解释，研究团队开发了一种名为 CLIPR（通过扰动响应进行因果线性化）的技术。

CLIPR 的精妙之处在于：它通过观察系统在受到扰动后的“初始反应”和“最终稳态”，将非线性的扩散过程近似为一个线性的因果矩阵。这使得研究者能够直接量化基因与基因之间的直接因果效应，而不仅仅是观察下游的差异表达结果。

3. 预测未见的扰动组合

在对大型 Perturb-seq 筛选数据的评估中，LCD 在预测未见过的双基因扰动组合方面显著优于现有的 CPA、GEARS 等主流模型。

特别是在处理“新形态”（Neomorphic）遗传相互作用时，LCD 表现尤为出色。由于它模拟了扰动如何在非线性动力学中随时间“展开”，它能够捕捉到那些简单加性模型无法预测的复杂协同效应。

4. 深度思考与启发

这项研究最深刻的启示在于对“因果”与“关联”的进一步厘清。

在生物学中，基因 A 的扰动导致基因 B 的表达变化（差异表达），并不意味着 A 直接调控 B。这种效应可能经过了无数中间环节。LCD-CLIPR 框架试图还原的是那个最本质的、直接的调控矩阵。

总结：

差异表达只是现象的堆叠，而直接因果才是生命的底层代码。

预测未来很重要，但理解系统如何抵达未来，才是科学建模的终极关怀。

在单细胞的噪声迷雾中，扩散模型不仅是在生成数据，它是在模拟生命系统对抗随机性的稳态智慧。

LCD-CLIPR 框架为我们提供了一种可扩展的工具，让我们能够从海量的单细胞数据中，不仅读出“是什么”，更能读出“为什么”。

arxiv.org/abs/2601.15341

发布于北京