80 MHz的硬件设备,达到每秒 56,000+ tokens的运行速度。[哆啦A梦吃惊]
地址:github.com/fguzman82/gateGPT
开发者Fabio Guzman: "我把一个带 KV cache 的完整 Transformer 烧进了一颗自定义芯片里。它是一个 100% 数字集成电路,一门一门地设计出来,并在 FPGA 上完成原型验证。(没有 GPU,没有 CPU)只有纯数字硅电路在运行 Karpathy 的 microGPT,在一块小小的 LCD 上拼写名字。"
gateGPT 是 Andrej Karpathy 的 microGPT 的一种硬件(RTL)实现。microGPT 是一个小型字符级 GPT;而 gateGPT 完全运行在 Xilinx Virtex-5 FPGA 上(XC5VLX110T,XUPV5 / ML509 开发板,ISE 14.7,Verilog-2001),这里被训练用于生成人名。该模型包含一个 Transformer block:RMSNorm → 多头因果注意力 → MLP,采用 Q5.11 定点格式。它以微码 ROM sequencer 的形式执行,通过共享的双端口 scratchpad 驱动模块化的数据通路执行单元;带持久化 KV cache 的增量解码在每一步只计算新 token 的 K/V,并基于缓存的上下文进行注意力计算,而不是重新计算整个窗口。它能在开发板的字符 LCD 上以 80 MHz 的频率、约每秒 50,000 个 token 的速度生成人名,同时通过旋转编码器设置生成速度和采样温度。
#AI创造营# http://t.cn/AXaXHb9w
发布于 山东
