爱可可-爱生活 26-01-27 06:00
微博认证:AI博主 2025微博新锐新知博主

[LG]《Latent Causal Diffusions for Single-Cell Perturbation Modeling》L Lorch, J Zhang, C Bunne, A Krause... [ETH Zürich & MIT & EPFL] (2026)

在单细胞生物学的浩瀚星图中,理解基因之间的“因果对话”一直是建模的核心难题。传统的深度学习模型虽然能生成数据,却往往像一个“黑盒”,难以告诉我们扰动是如何在复杂的基因网络中传播的。

本文提出了一种名为潜变量因果扩散(Latent Causal Diffusion, LCD)的模型,为单细胞扰动建模带来了预测力与解释力的双重突破。

这不仅是一个更准的预测器,更是一台能够解析细胞调控逻辑的“因果显微镜”。

1. 捕捉细胞状态的动态平衡

LCD 模型将单细胞基因表达视为一个在测量噪声下的平稳扩散过程(Stationary Diffusion Process)。它并不只是简单地拟合静态分布,而是将基因调控形式化为一组随机微分方程(SDEs)。

在这个框架下,每个基因的表达演化都是其调控因子作用的结果。通过假设系统处于平衡态,LCD 能够从单细胞快照数据中推断出潜在的动力学机制,并成功将生物学上的随机波动与技术产生的测量噪声分离开来。

2. CLIPR:让黑盒动力学变得透明

为了让复杂的神经网络动力学变得可解释,研究团队开发了一种名为 CLIPR(通过扰动响应进行因果线性化)的技术。

CLIPR 的精妙之处在于:它通过观察系统在受到扰动后的“初始反应”和“最终稳态”,将非线性的扩散过程近似为一个线性的因果矩阵。这使得研究者能够直接量化基因与基因之间的直接因果效应,而不仅仅是观察下游的差异表达结果。

3. 预测未见的扰动组合

在对大型 Perturb-seq 筛选数据的评估中,LCD 在预测未见过的双基因扰动组合方面显著优于现有的 CPA、GEARS 等主流模型。

特别是在处理“新形态”(Neomorphic)遗传相互作用时,LCD 表现尤为出色。由于它模拟了扰动如何在非线性动力学中随时间“展开”,它能够捕捉到那些简单加性模型无法预测的复杂协同效应。

4. 深度思考与启发

这项研究最深刻的启示在于对“因果”与“关联”的进一步厘清。

在生物学中,基因 A 的扰动导致基因 B 的表达变化(差异表达),并不意味着 A 直接调控 B。这种效应可能经过了无数中间环节。LCD-CLIPR 框架试图还原的是那个最本质的、直接的调控矩阵。

总结:

差异表达只是现象的堆叠,而直接因果才是生命的底层代码。

预测未来很重要,但理解系统如何抵达未来,才是科学建模的终极关怀。

在单细胞的噪声迷雾中,扩散模型不仅是在生成数据,它是在模拟生命系统对抗随机性的稳态智慧。

LCD-CLIPR 框架为我们提供了一种可扩展的工具,让我们能够从海量的单细胞数据中,不仅读出“是什么”,更能读出“为什么”。

arxiv.org/abs/2601.15341

发布于 北京