这可能是今年最重要的AI新闻：Taalas HC1，把模型刻进芯片的核弹级突破中文互联网还没大规模讨论，但Taalas HC1正在改写AI芯片的底层逻辑。一、核心事实（一句话看懂）多伦多初创公司Taalas（成立不到3年，24人团队）发布HC1芯片：• 把Llama 3.1 8B完整刻进硅片，只能跑这一个模型，不能改、

这可能是今年最重要的AI新闻：Taalas HC1，把模型刻进芯片的核弹级突破

中文互联网还没大规模讨论，但Taalas HC1正在改写AI芯片的底层逻辑。

一、核心事实（一句话看懂）

多伦多初创公司Taalas（成立不到3年，24人团队）发布HC1芯片：

• 把Llama 3.1 8B完整刻进硅片，只能跑这一个模型，不能改、不能换、不能升级

• 推理速度：17,000 tokens/秒（业界最快GPU约2,000，8–50倍差距）

• 功耗：10张卡仅2.5kW（GPU需液冷，机柜几十kW）

• 成本：制造成本为传统方案1/10–1/20，推理成本约7.6美分/百万token

• 定制周期：2个月（仅改两层金属掩膜），1000万美元即可定制新模型芯片

二、技术原理：彻底抛弃“通用计算”

传统AI芯片（CPU/GPU/TPU）：

• 通用计算平台 + 软件加载模型

• 瓶颈：内存墙（参数搬运耗时耗能 > 计算本身）

Taalas的极端解法：

• 模型即芯片：权重直接存在晶体管里，矩阵乘法靠物理电路连线完成

• 无显存、无HBM、无复杂缓存

• 输入token → 电流走预设路径 → 直接输出下一个token

• 类比：录音带 vs 现场演奏——传统是每次重算，Taalas是“播放”固化模型

三、团队与资本：豪华到离谱

• 创始人：Ljubisa Bajic（Tenstorrent创始人，前AMD/NVIDIA架构师）+ 前AMD高管团队

• 融资：2.19亿美元（最新1.69亿），投资方含Pierre Lamond（半导体教父、红杉前合伙人）

• 路线对立：Jim Keller（Tenstorrent）走通用可编程；Ljubisa走极致专用化

四、巨大优势（为什么是核弹）

1. 速度：17,000 tokens/秒 = 零延迟体验，回车即出完整答案

2. 能效：10倍于GPU，风冷即可，大幅降低数据中心成本

3. 成本：定制芯片仅1000万美元，远低于模型训练的10亿美元级投入

4. 极简：无复杂软件栈、无显存、无散热系统，部署极简单

五、致命代价（ trade-off ）

• 完全锁死：出厂即绑定Llama 3.1 8B，不能微调、不能换模型、不能升级

• 过时风险：模型迭代快，2个月流片仍可能跟不上，芯片易成电子垃圾

• 环保问题：频繁换芯片比GPU更不环保

• 无灵活性：无法适配新场景、新模型、新需求

六、市场前景：谁会买单？

适合场景（愿意牺牲灵活性换极致效率）：

• 语音助手（毫秒级响应，固定模型）

• 海量数据标注（固定模型、高吞吐）

• 垂直领域专用模型（训练后不再更新）

• 边缘/嵌入式AI（低功耗、强实时）

不适合场景：

• 通用大模型服务（需频繁迭代、微调）

• 多模型混合、动态切换的应用

• 追求长期资产复用的企业

七、行业意义：两条路线的终极对决

• 通用派（NVIDIA、Tenstorrent、TPU）：通用芯片 + 软件适配，灵活但有内存墙

• 专用派（Taalas）：模型即芯片，极致效率但牺牲灵活

Taalas的赌注：未来AI会像手机型号一样，用户会依恋特定版本，而非无限追新。

八、体验入口

可直接测试光速推理：chatjimmy.ai

一句话总结

Taalas HC1不是更快的GPU，而是AI芯片的范式革命——用绝对专用换绝对效率，可能重塑AI基础设施的成本与体验。

发布于北京