摇摆时间线ZHLMI
26-06-23 15:11 微博认证:上海慧龙计算机系统有限公司多媒体经理

# 我开源了一个叫「审美共识引擎 Skill」的东西,它解决的问题很具体:怎么不让「高级一点」这种话毁掉一个项目

---

## 一、先讲个你肯定经历过的场景

某天开会,客户说:

「这个片子我想要高级一点,有质感,温暖但不要俗,科技感但不要太冰冷。」

你说好的,回去跟团队传达。摄影师问「高级是什么意思,光圈开大还是收小」,调色师问「温暖是偏橙还是偏黄」,美术问「质感是金属还是木质」,混音师问「科技感是电子脉冲还是低频嗡鸣」。

你突然发现,你传达不下去。因为那句话本身就没法执行。

这就是我做这个项目的起点。

(不知道「情绪板」是什么的朋友,可以先看我之前发的 [这条微博](http://t.cn/AXMud5J3),两分钟扫盲。)

---

## 二、审美共识引擎是什么

它不是一个「生成漂亮图片」的工具。

它是一个把模糊审美语言,翻译成可确认、可执行、可修改的方向资产的**工作流引擎**。

输入可以是一份客户 brief、一段会议记录、一个剧本大纲、一页 PPT 主题、甚至就是一句话——「想要克制但有情绪」。

输出是一组 HTML 情绪板,分成三个版本:

- **客户版**:只看图、标题、关键词,5 秒确认方向对不对;
- **总监/导演版**:看风格是否成立,风险在哪,能不能汇报;
- **执行版**:展开完整六维参数、image prompt、执行注意——摄影师、调色师、美术、混音师各取所需。

三个版本同一份数据源。客户看到的和执行团队拿到的,是一件事的不同视角,不是三套东西。

---

## 三、它到底解决了什么问题

一句话:**把「高级」「质感」「电影感」「温暖」「干净」「年轻化」这些词,变成可以落地的参数。**

怎么变的?我设计了一个六维拆解体系:

| 维度 | 要回答的问题 |
|---|---|
| emotion 情绪 | 这个节点让人产生什么心理感受? |
| motion 动作/节奏 | 快还是慢?流动还是停滞? |
| color 色彩 | 靠什么色温、饱和度、色彩关系建立气质? |
| composition 构图 | 观众如何看见它?视觉重心在哪? |
| style 风格/质感 | 摸起来、看起来是什么材质? |
| sound 声音 | 听起来是什么空间、密度和情绪? |

举个例子:「高级」这个词,拆完之后可能是——低饱和、强留白、稳定构图、细线条、少文字。

「科技感不冰冷」可能是——冷色屏幕光做基底,但材质上加入哑光表面和织物纹理,环境音里保留一点呼吸感的白噪。

每一个模糊词,都能落到具体维度上。这才是可执行的审美共识。

---

## 四、不是一次性生成,是分步确认

这可能是这个引擎最不一样的地方。

它有一个硬性的 checkpoint 工作流:

```
CK1 方向确认 → CK2 文字版确认 → CK3 三视图 HTML 情绪板 → Revision 增量修改
```

**CK1**:不生成任何图片和 HTML,只做一件事——把你说的话拆清楚。输出项目类型、核心调性、模糊词拆解,然后问你最多三个确认问题。你没确认,绝不往下走。

**CK2**:这是红灯节点。CK1 确认 ≠ 可以直接生成。必须先在 CK2 看到文字版方向稿,确认节点顺序、色彩、质感、节奏、声音方向全对,才允许进入 CK3。

为什么要这么设计?因为我见过太多 AI 工作流的毛病:用户刚说了一句「差不多」,AI 就哐哐哐生成了一堆东西。最后发现方向偏了,但已经浪费了大量 token 和时间。

CK2 就是防止这个的。它是「生成之前的确认层」。

**CK3**:这才进入真正的视觉生成和 HTML 渲染。方向图、声音参考、三视图全部在这个阶段产出。每一张方向图承载的是整个节点的情绪+节奏+色彩+构图+质感+声音想象,不是一个维度的孤立插图。

**Revision**:之后如果要改,只改你点名的节点或图片,不碰任何你没说改的东西。这个规则也是硬编码在工作流里的。

---

## 五、HTML 情绪板的一些细节

最终产出的 HTML 有几个我觉得挺重要的设计:

1. **默认亮色,支持暗色切换**。用 localStorage 记住你的选择,下次打开还是你习惯的主题。
2. **打印/导出 PDF 强制亮色**。你在暗色模式下看得爽,打印出来不会一片黑。
3. **图片点击 lightbox**。节点卡片里图片统一 1:1 显示保持布局稳定,点击可以看原始比例大图。
4. **可选 embed 模式**。图片和音频全部内嵌成单文件 HTML,一个文件发给客户就完事了。不过这里有个小提醒:生图模型输出的方向图通常是 PNG 格式,无损但体积大,如果你的节点比较多,embed 出来的单文件 HTML 可能动辄十几 MB。解决方案很简单,让 AI 帮你把 PNG 批量压缩成 JPEG(质量 85% 左右基本看不出区别),再嵌入,体积能缩到原来的十分之一。
5. **音频播放器内置**,用于 TTS 声音参考。影视项目里,声音方向的参考音频直接嵌在节点旁边,不需要单独传文件。

---

## 六、为什么影视项目特别需要这个东西

我本职是数字影像工程师,影视项目是我最熟悉的场景。

在影视制作里,审美沟通的损耗链条特别长:

```
客户 → 代理商 → 创意总监 → 导演 → 摄影指导 → 美术指导 → 调色师 → 混音师
```

每一层都可能把「温暖但要克制」理解成不一样的东西。等成片出来,客户说「不对」,你都不知道在哪一层偏的。

审美共识引擎做的事,就是在最上游把这件事锁死。让每一层拿到的不是一句话,而是一份带图、带色板、带六维描述、带执行注意、带参考音频的完整方向文档。

而且它不是我一个孤立的项目。我之前还开源了几个影视类 Skill:

- **叙事转译**(narrative-to-screen-reader):把故事翻译成影视开发语言
- **剧本锻造**(script-forging):把故事锻造成剧本和分镜
- **悲剧叙事哨兵**(tragedy-narrative-guard):检查悲剧叙事方向和情绪边界

这几个串起来,理论上可以从一个故事大纲一路跑到带情绪板的分镜方案。审美共识引擎在链条里负责「视听方向对齐」这一环。

---

## 七、它不只能做影视

虽然我最常用在影视项目上,但这个引擎的设计是项目类型无关的。

品牌海报、PPT 演讲、App 界面、游戏体验、展台空间设计。都用同一套六维框架,但 HTML 会自动按项目类型裁剪显示维度。

比如海报项目不显示 motion 和 sound,App 项目用 motion 表示交互动效节奏,展台项目把节点从「时间节点」变成「空间节点」。

已经跑过的真实项目:

- 某车企客户关怀活动短视频
- 某车型首批车主服务活动口播视频
- 具身智能家庭陪护机器人户外展台设计
- 悲剧叙事哨兵 APP 交互体验设计
- 一篇关于 Skill 创作哲学的 PPT 演讲

从影视广告到展台到 APP 到 PPT,全跑通了。

---

## 八、开源信息

- **GitHub**:http://t.cn/AXScJmWc
- **License**:MIT,随便用
- **依赖**:Python 3,图像生成和 TTS 需要 API Key。我默认用的生图模型是 **Agnes Image 2.1 Flash**,免费的,因为情绪板的方向图不需要精美渲染,能把构图、色彩、情绪表达清楚就够了。TTS 用的是小米的 **Mimo TTS**。如果你需要更精致的生图效果,完全可以换成自己的模型后端,兼容 OpenAI Images API 格式就行。

你要用和我一样的模型,只需要让模型帮你在环境变量里填 API Key 就行。如果是不一样的模型,让 Agent 帮你改 URL,Model,Key。

微博配图为整个链路里的输出样本:
- 图1可用于提交给甲方确认文字描述
- 图2可用于提交给执行方确认执行可行性
- 图3的最终输出用于甲方定稿
- 图4的最终输出可用于归档,提交,汇报等用途
- 图5为最完整的输出,主要用于执行方参考执行
- 图6为 Skill 测试完整记录

如果你也是在创意行业里被「高级一点」折磨过的人,拿去试试看,有问题提 issue,觉得有用点个 star。

---

## 九、最后说一句

我做这个不是因为它技术多复杂,它本质上就是一套工作流 + 一套数据结构 + 一个渲染器。

我做它是因为,审美共识这件事,在 AI 时代反而变得更紧迫了。

当每个人都能用 AI 生成「看起来不错」的图的时候,「看起来不错」就不再是竞争力。真正的竞争力变成了——你脑子里那个模糊的感觉,能不能被准确地翻译出来,让所有人看到同一个方向。

这就是审美共识引擎想做的事。

不是帮你生成一张好看的图,是帮你让所有人都知道,我们要生成的那张图,到底长什么样。

发布于 上海