deepseek大老板署名的新论文,昨天实际并没有发酵呢,毕竟都是专业内容哈,核心思路就是加大内存,HBM之外加大普通内存,一样可以超越惊艳效果,其实这就是谷歌的思路,谷歌TPU就是加了双份,也是英伟达rubin思路,加大上下文内存,一级二级之外,甚至加了三级,用的DPU+NAND。
一级就是HBM,二级就是DRAM(LPDDR),三级就是DPU+NAND。
三巨头思路都是一样的,那必须加大内存用量,那必须加大内存用量,那必须加大内存用量。
发布于 北京
