新智元 26-02-22 18:16
微博认证:新智元官方微博

GPU要凉?前英伟达AMD大神将AI刻在芯片上!17000 tokens/秒屠榜

今天是大年初六,年还没过完。但有一个新闻却淹没在各种消息中。

这可能是今年最重要的AI新闻,但现在依然还没什么人聊!

这两天,一家成立不到三年的多伦多芯片公司Taalas扔下了一颗核弹:

他们绕开了所有热门概念,直接把AI大模型,物理焊死在芯片里!

这家公司开发的HC1芯片,运行Llama 3.1 8B的速度达到了极度恐怖的17,000tokens/秒。

作为对比,目前业界最快Cerebras跑同等模型,速度也不过两千。

Taalas HC1硬生生将速度拔高了将近10倍!

而和英伟达最先进B200,提高了近50倍!

他们还上线了一个体验网站:chatjimmy.ai

这个AI的速度有多离谱呢?可以看看下面的速度。

这个AI不是在回复,而是直接未卜先知把答案砸在你的脸上。

这还不算完,除了「光速」输出Token以外。

Taalas如何解决散热和传输速度问题?

他们交出的答卷是:抛弃液冷!抛弃HBM显存!

因为没有复杂的存储层级,HC1的成本只有传统方案的1/20,功耗更是直接缩减到1/10,十张卡加起来仅仅需要2.5千瓦的空气冷却。

官方博客:http://t.cn/AXchKmx4

在这块主打「复古暴力」的芯片里,它出厂时的命运就被永远锁死——它的晶体管只为Llama 3.1 8B的权重而生,这辈子只能跑这一个模型。

一时间,X上彻底炸锅了!

「等待LLM思考」的时代宣告终结。

有测试者满脸震撼:

「你敲下回车的瞬间,答案就像预谋已久一样扑在屏幕上,那根本不是秒回,那是啪地一下砸你脸上!」

但反方意见同样明确。

首先就是,虽然速度达到「光速」,但是小模型带来的幻觉问题无法避免。

甚至无法正确计算简单的加减乘除。

而且按照现在的模型的迭代速度。

在一个物理实体上固化一个即将被淘汰的模型,真的有用么?

也有乐观者认为,这可能确实是未来的一种方向,因为这种Token的输出速度,并不是给人类准备的。

而是让智能体之间相互对话使用的。

所以,Taalas这条所谓的物理实体AI之路是否真的能走通?