我开源了审美共识引擎

# 我开源了一个叫「审美共识引擎 Skill」的东西，它解决的问题很具体：怎么不让「高级一点」这种话毁掉一个项目

---

## 一、先讲个你肯定经历过的场景

某天开会，客户说：

「这个片子我想要高级一点，有质感，温暖但不要俗，科技感但不要太冰冷。」

你说好的，回去跟团队传达。摄影师问「高级是什么意思，光圈开大还是收小」，调色师问「温暖是偏橙还是偏黄」，美术问「质感是金属还是木质」，混音师问「科技感是电子脉冲还是低频嗡鸣」。

你突然发现，你传达不下去。因为那句话本身就没法执行。

这就是我做这个项目的起点。

（不知道「情绪板」是什么的朋友，可以先看我之前发的 [这条微博](http://t.cn/AXMud5J3)，两分钟扫盲。）

---

## 二、审美共识引擎是什么

它不是一个「生成漂亮图片」的工具。

它是一个把模糊审美语言，翻译成可确认、可执行、可修改的方向资产的**工作流引擎**。

输入可以是一份客户 brief、一段会议记录、一个剧本大纲、一页 PPT 主题、甚至就是一句话——「想要克制但有情绪」。

输出是一组 HTML 情绪板，分成三个版本：

- **客户版**：只看图、标题、关键词，5 秒确认方向对不对；
- **总监/导演版**：看风格是否成立，风险在哪，能不能汇报；
- **执行版**：展开完整六维参数、image prompt、执行注意——摄影师、调色师、美术、混音师各取所需。

三个版本同一份数据源。客户看到的和执行团队拿到的，是一件事的不同视角，不是三套东西。

---

## 三、它到底解决了什么问题

一句话：**把「高级」「质感」「电影感」「温暖」「干净」「年轻化」这些词，变成可以落地的参数。**

怎么变的？我设计了一个六维拆解体系：

| 维度 | 要回答的问题 |
|---|---|
| emotion 情绪 | 这个节点让人产生什么心理感受？ |
| motion 动作/节奏 | 快还是慢？流动还是停滞？ |
| color 色彩 | 靠什么色温、饱和度、色彩关系建立气质？ |
| composition 构图 | 观众如何看见它？视觉重心在哪？ |
| style 风格/质感 | 摸起来、看起来是什么材质？ |
| sound 声音 | 听起来是什么空间、密度和情绪？ |

举个例子：「高级」这个词，拆完之后可能是——低饱和、强留白、稳定构图、细线条、少文字。

「科技感不冰冷」可能是——冷色屏幕光做基底，但材质上加入哑光表面和织物纹理，环境音里保留一点呼吸感的白噪。

每一个模糊词，都能落到具体维度上。这才是可执行的审美共识。

---

## 四、不是一次性生成，是分步确认

这可能是这个引擎最不一样的地方。

它有一个硬性的 checkpoint 工作流：

```
CK1 方向确认 → CK2 文字版确认 → CK3 三视图 HTML 情绪板 → Revision 增量修改
```

**CK1**：不生成任何图片和 HTML，只做一件事——把你说的话拆清楚。输出项目类型、核心调性、模糊词拆解，然后问你最多三个确认问题。你没确认，绝不往下走。

**CK2**：这是红灯节点。CK1 确认 ≠ 可以直接生成。必须先在 CK2 看到文字版方向稿，确认节点顺序、色彩、质感、节奏、声音方向全对，才允许进入 CK3。

为什么要这么设计？因为我见过太多 AI 工作流的毛病：用户刚说了一句「差不多」，AI 就哐哐哐生成了一堆东西。最后发现方向偏了，但已经浪费了大量 token 和时间。

CK2 就是防止这个的。它是「生成之前的确认层」。

**CK3**：这才进入真正的视觉生成和 HTML 渲染。方向图、声音参考、三视图全部在这个阶段产出。每一张方向图承载的是整个节点的情绪+节奏+色彩+构图+质感+声音想象，不是一个维度的孤立插图。

**Revision**：之后如果要改，只改你点名的节点或图片，不碰任何你没说改的东西。这个规则也是硬编码在工作流里的。

---

## 五、HTML 情绪板的一些细节

最终产出的 HTML 有几个我觉得挺重要的设计：

1. **默认亮色，支持暗色切换**。用 localStorage 记住你的选择，下次打开还是你习惯的主题。
2. **打印/导出 PDF 强制亮色**。你在暗色模式下看得爽，打印出来不会一片黑。
3. **图片点击 lightbox**。节点卡片里图片统一 1:1 显示保持布局稳定，点击可以看原始比例大图。
4. **可选 embed 模式**。图片和音频全部内嵌成单文件 HTML，一个文件发给客户就完事了。不过这里有个小提醒：生图模型输出的方向图通常是 PNG 格式，无损但体积大，如果你的节点比较多，embed 出来的单文件 HTML 可能动辄十几 MB。解决方案很简单，让 AI 帮你把 PNG 批量压缩成 JPEG（质量 85% 左右基本看不出区别），再嵌入，体积能缩到原来的十分之一。
5. **音频播放器内置**，用于 TTS 声音参考。影视项目里，声音方向的参考音频直接嵌在节点旁边，不需要单独传文件。

---

## 六、为什么影视项目特别需要这个东西

我本职是数字影像工程师，影视项目是我最熟悉的场景。

在影视制作里，审美沟通的损耗链条特别长：

```
客户 → 代理商 → 创意总监 → 导演 → 摄影指导 → 美术指导 → 调色师 → 混音师
```

每一层都可能把「温暖但要克制」理解成不一样的东西。等成片出来，客户说「不对」，你都不知道在哪一层偏的。

审美共识引擎做的事，就是在最上游把这件事锁死。让每一层拿到的不是一句话，而是一份带图、带色板、带六维描述、带执行注意、带参考音频的完整方向文档。

而且它不是我一个孤立的项目。我之前还开源了几个影视类 Skill：

- **叙事转译**（narrative-to-screen-reader）：把故事翻译成影视开发语言
- **剧本锻造**（script-forging）：把故事锻造成剧本和分镜
- **悲剧叙事哨兵**（tragedy-narrative-guard）：检查悲剧叙事方向和情绪边界

这几个串起来，理论上可以从一个故事大纲一路跑到带情绪板的分镜方案。审美共识引擎在链条里负责「视听方向对齐」这一环。

---

## 七、它不只能做影视

虽然我最常用在影视项目上，但这个引擎的设计是项目类型无关的。

品牌海报、PPT 演讲、App 界面、游戏体验、展台空间设计。都用同一套六维框架，但 HTML 会自动按项目类型裁剪显示维度。

比如海报项目不显示 motion 和 sound，App 项目用 motion 表示交互动效节奏，展台项目把节点从「时间节点」变成「空间节点」。

已经跑过的真实项目：

- 某车企客户关怀活动短视频
- 某车型首批车主服务活动口播视频
- 具身智能家庭陪护机器人户外展台设计
- 悲剧叙事哨兵 APP 交互体验设计
- 一篇关于 Skill 创作哲学的 PPT 演讲

从影视广告到展台到 APP 到 PPT，全跑通了。

---

## 八、开源信息

- **GitHub**：http://t.cn/AXScJmWc
- **License**：MIT，随便用
- **依赖**：Python 3，图像生成和 TTS 需要 API Key。我默认用的生图模型是 **Agnes Image 2.1 Flash**，免费的，因为情绪板的方向图不需要精美渲染，能把构图、色彩、情绪表达清楚就够了。TTS 用的是小米的 **Mimo TTS**。如果你需要更精致的生图效果，完全可以换成自己的模型后端，兼容 OpenAI Images API 格式就行。

你要用和我一样的模型，只需要让模型帮你在环境变量里填 API Key 就行。如果是不一样的模型，让 Agent 帮你改 URL，Model，Key。

微博配图为整个链路里的输出样本：
- 图1可用于提交给甲方确认文字描述
- 图2可用于提交给执行方确认执行可行性
- 图3的最终输出用于甲方定稿
- 图4的最终输出可用于归档，提交，汇报等用途
- 图5为最完整的输出，主要用于执行方参考执行
- 图6为 Skill 测试完整记录

如果你也是在创意行业里被「高级一点」折磨过的人，拿去试试看，有问题提 issue，觉得有用点个 star。

---

## 九、最后说一句

我做这个不是因为它技术多复杂，它本质上就是一套工作流 + 一套数据结构 + 一个渲染器。

我做它是因为，审美共识这件事，在 AI 时代反而变得更紧迫了。

当每个人都能用 AI 生成「看起来不错」的图的时候，「看起来不错」就不再是竞争力。真正的竞争力变成了——你脑子里那个模糊的感觉，能不能被准确地翻译出来，让所有人看到同一个方向。

这就是审美共识引擎想做的事。

不是帮你生成一张好看的图，是帮你让所有人都知道，我们要生成的那张图，到底长什么样。

发布于上海