AI推理跑得越长,存储这边也开始卡了。
Agent跑长上下文,KV cache越滚越大,GPU最怕的不是没活干,是等数据。
英伟达BlueField-4 STX就是想少绕CPU,让SSD变成GPU旁边的“临时记忆本”。数据搬得快,token才吐得顺~
放到国内公司里看,星环科技这类大数据平台如果能跟上这轮变化,把原来围着CPU转的数据库,改成更适合GPU直接取数的架构,可能会先占到位置[思考]
#股票超话##股票##GPU#
发布于 广东
AI推理跑得越长,存储这边也开始卡了。
Agent跑长上下文,KV cache越滚越大,GPU最怕的不是没活干,是等数据。
英伟达BlueField-4 STX就是想少绕CPU,让SSD变成GPU旁边的“临时记忆本”。数据搬得快,token才吐得顺~
放到国内公司里看,星环科技这类大数据平台如果能跟上这轮变化,把原来围着CPU转的数据库,改成更适合GPU直接取数的架构,可能会先占到位置[思考]
#股票超话##股票##GPU#