AI模型硬化入硅性能飙升

AI模型“硬化”入硅：性能飙升10倍，成本骤降20倍！

在AI计算领域，延迟问题正成为制约发展的主要瓶颈，尤其是在对每秒代币数（TPS）和执行速度要求极高的代理环境中。当众多厂商选择将SRAM集成到产品中寻求突破时，一家成立仅两年半的芯片初创公司Taalas开辟了一条截然不同的技术路径——将人工智能模型直接“硬连接”到硅片上。

Taalas的核心创新在于打造了一个能将任何AI模型转化为定制化芯片的平台。从接收到一个前所未见的模型开始，到在硬件上实现，整个过程仅需两个月。这种为特定模型量身定制的专用集成电路（ASIC），彻底摆脱了通用计算的束缚，使得核心模型的运行速度远超基于软件的实现，同时大幅降低了成本和功耗。

简单说来就是，眼下我们想让AI立刻回答复杂问题，却总要等它“转圈圈”。AI算力不够用、电费太贵，成了很多公司和开发者头疼的事。现在，这家名叫Taalas的芯片初创公司，想出了一个绝招——干脆把AI模型直接“刻”进芯片里，就像给AI装上专属的“高速引擎”。

该公司的技术策略聚焦于两个核心维度。首先是在硬件层面实现人工智能工作负载的极致专业化，将大语言模型（LLM）的特定神经网络直接映射到硅片上，为每个模型优化基础设施。其次是“合并存储与计算”，旨在攻克通用系统中的“内存墙”和数据通信开销问题。通过将所有计算提升至DRAM级的密度，Taalas显著加快了内部通信速率，有效解决了LLM的延迟痛点。值得一提的是，他们的解决方案无需先进的冷却技术、HBM、复杂的封装与集成，所有创新都根植于硅片的工程动力学本身。

Taalas已展示了其首款产品HC1处理器卡，该卡集成了Meta的Llama 3.1 8B模型。早期测试结果令人震惊：在运行Meta的Llama 8B模型时，HC1实现了高达10倍的每秒代币数（TPS）提升，同时将生产成本降低了20倍。在“每用户每秒代币数”的对比中，HC1的表现轻松超越了Nvidia H200和B200等现代解决方案。

从技术规格来看，HC1芯片采用台积电6nm工艺，芯片尺寸达到815平方毫米，与Nvidia的H100相当。虽然它目前仅支持80亿参数的模型，而前沿模型已扩展至万亿参数，但Taalas并未止步。他们已针对拥有6710亿参数的DeepSeek R1模型提出了基于集群的解决方案，宣称在30个芯片的配置下，可为每用户实现高达12,000 TPS的惊人速度。

这种硬连线的专用方法意味着硬件是为特定模型定制的，不具备改变模型权重的灵活性。然而，考虑到其提供的惊人速度和成本优势，这种取舍无疑极具吸引力。如今，制约Taalas发展的主要瓶颈已转向市场接受度与商业模式的构建。
业界人士认为，这家公司无疑为AI芯片领域投下了一颗重磅炸弹，为解决算力与能耗挑战提供了激动人心的新思路。
#热门微博# #科学新闻# #人工智能# #科技快讯#

发布于广东