哈勃观察员 26-02-25 21:31
微博认证:科学科普博主 头条文章作者

AI模型“硬化”入硅:性能飙升10倍,成本骤降20倍!

在AI计算领域,延迟问题正成为制约发展的主要瓶颈,尤其是在对每秒代币数(TPS)和执行速度要求极高的代理环境中。当众多厂商选择将SRAM集成到产品中寻求突破时,一家成立仅两年半的芯片初创公司Taalas开辟了一条截然不同的技术路径——将人工智能模型直接“硬连接”到硅片上。

Taalas的核心创新在于打造了一个能将任何AI模型转化为定制化芯片的平台。从接收到一个前所未见的模型开始,到在硬件上实现,整个过程仅需两个月。这种为特定模型量身定制的专用集成电路(ASIC),彻底摆脱了通用计算的束缚,使得核心模型的运行速度远超基于软件的实现,同时大幅降低了成本和功耗。

简单说来就是,眼下我们想让AI立刻回答复杂问题,却总要等它“转圈圈”。AI算力不够用、电费太贵,成了很多公司和开发者头疼的事。现在,这家名叫Taalas的芯片初创公司,想出了一个绝招——干脆把AI模型直接“刻”进芯片里,就像给AI装上专属的“高速引擎”。

该公司的技术策略聚焦于两个核心维度。首先是在硬件层面实现人工智能工作负载的极致专业化,将大语言模型(LLM)的特定神经网络直接映射到硅片上,为每个模型优化基础设施。其次是“合并存储与计算”,旨在攻克通用系统中的“内存墙”和数据通信开销问题。通过将所有计算提升至DRAM级的密度,Taalas显著加快了内部通信速率,有效解决了LLM的延迟痛点。值得一提的是,他们的解决方案无需先进的冷却技术、HBM、复杂的封装与集成,所有创新都根植于硅片的工程动力学本身。

Taalas已展示了其首款产品HC1处理器卡,该卡集成了Meta的Llama 3.1 8B模型。早期测试结果令人震惊:在运行Meta的Llama 8B模型时,HC1实现了高达10倍的每秒代币数(TPS)提升,同时将生产成本降低了20倍。在“每用户每秒代币数”的对比中,HC1的表现轻松超越了Nvidia H200和B200等现代解决方案。

从技术规格来看,HC1芯片采用台积电6nm工艺,芯片尺寸达到815平方毫米,与Nvidia的H100相当。虽然它目前仅支持80亿参数的模型,而前沿模型已扩展至万亿参数,但Taalas并未止步。他们已针对拥有6710亿参数的DeepSeek R1模型提出了基于集群的解决方案,宣称在30个芯片的配置下,可为每用户实现高达12,000 TPS的惊人速度。

这种硬连线的专用方法意味着硬件是为特定模型定制的,不具备改变模型权重的灵活性。然而,考虑到其提供的惊人速度和成本优势,这种取舍无疑极具吸引力。如今,制约Taalas发展的主要瓶颈已转向市场接受度与商业模式的构建。
业界人士认为,这家公司无疑为AI芯片领域投下了一颗重磅炸弹,为解决算力与能耗挑战提供了激动人心的新思路。
#热门微博# #科学新闻# #人工智能# #科技快讯#

发布于 广东