26-01-25 20:06 微博认证:BioArt官方微博

【为什么 99% 的“非编码 DNA”正在成为遗传学研究的核心?】

哺乳动物基因组拥有数十亿个碱基,但真正编码蛋白的序列只占 约 1%。长期被称为“垃圾 DNA”的 非编码区,如今被证明是调控基因表达的关键所在。
这些区域中包含大量 顺式调控元件(cis-regulatory elements, cCREs),可被转录因子识别,并在染色质状态与三维基因组结构的共同作用下,精细控制基因在何时、何地、以何种强度被转录,广泛参与细胞分化、发育阶段切换和环境应答。

更重要的是:
👉 大多数与人类复杂性状和疾病相关的遗传变异,并不位于编码区,而是富集在这些非编码调控元件中。
因此,系统识别和功能解析 cCRE,成为理解基因调控和非编码突变致病机制的核心问题。

为此,美国 NIH 于 2007 年启动 ENCODE(DNA 元件百科全书)计划,在全基因组尺度系统鉴定功能性 DNA 元件。
在 ENCODE 第三阶段(ENCODE3),研究者首次建立了 候选顺式调控元件(cCRE)注册表,鉴定出约 90 万个 cCRE,但主要基于染色质特征推断,功能验证仍有限。

在最新的 ENCODE4 阶段,这一资源迎来全面升级。
ENCODE Consortium 近日在 Nature 发表研究 《An expanded registry of candidate cis-regulatory elements》,构建了目前最完整、且深度整合功能实验的哺乳动物调控元件图谱。

核心成果包括:
🔹 237 万个人类 cCRE,覆盖 42 个器官、1679 种细胞或状态,占人类基因组约 21%;
🔹 同时鉴定出约 97 万个小鼠 cCRE;
🔹 在脑、胚胎和免疫系统等复杂组织中,调控元件检出率显著提升,体现更强的组织与状态特异性。

在方法上,ENCODE4 以 DNase 超敏位点和转录因子结合簇为锚点,系统整合
ATAC/DNase、组蛋白修饰、CTCF 结合、TF ChIP-seq 等数据,
并在传统“启动子 / 增强子 / CTCF 元件”之外,引入 CA、TF、CA-TF 等新类型,突破了“染色质开放=功能元件”的简化假设。

更关键的是,ENCODE4 大规模引入功能实验:
STARR-seq、MPRA、CRISPRi/CRISPRa、转基因小鼠增强子实验等,
使 97% 以上的人类 cCRE 至少接受过一次功能测试。

在此基础上,研究首次在全基因组尺度系统鉴定出近 1 万个沉默子(silencer),并发现:
👉 同一调控元件可在不同细胞环境下,在 增强子与沉默子功能之间切换;
👉 还发现一类在静息状态下不开放、但在特定条件下被激活的 “潜伏增强子(latent enhancers)”。

结合三维染色质互作与 CRISPR 功能数据,研究者成功在 GWAS 位点中锁定潜在因果基因,展示了该资源在解析非编码遗传变异中的巨大应用价值。

🧬 结论:
顺式调控元件不是静态标签,而是高度依赖细胞情境、可动态切换的调控状态。

这也标志着,我们正在从“读懂基因”走向真正“理解基因如何被使用”。

发布于 广东