小模型逆袭AI效率讨论

【小模型能否逆袭？一场关于AI效率极限的深度讨论】

一位游戏开发者在Reddit上抛出了一个尖锐的问题：小于1GB的本地模型，能否达到Gemini 2.5级别的推理能力？

他的需求很具体：在游戏中本地运行LLM处理逻辑、对话和结构化输出。目前他的游戏依赖Gemini 3 Flash的API，效果很好，但长期来看，一款需要外部API才能运行的游戏显然不具备商业可行性。

社区的回应呈现出明显的分化。

乐观派指出进步是真实的。有人提到2023年底GPT-4连基本对话都经常出错，而现在0.5B的模型已经能流畅交谈。Falcon H1 Tiny只有90M参数，却比过去的8B模型表现更好。Qwen3 4B在函数调用方面已经相当出色，GLM 4.7 Flash的表现也令人印象深刻。

但更多人持谨慎态度。一位开发者直言：1B参数的模型想达到Gemini 3 Flash的水平，需要根本性的架构变革或重大突破。原因很简单，模型本质上是训练数据的压缩表示，信息论决定了你无法把旗舰模型的推理能力无损压缩到1GB以内。

讨论中涌现出几个值得关注的技术方向。

DeepSeek的Engram架构被多次提及，它能将静态知识卸载到RAM，让活跃参数更高效。有人质疑：一个1B加上大量Engram参数的模型还能算1B吗？支持者认为可以，因为这些参数极度稀疏且很少被激活。

MoE架构展现出巨大潜力。Qwen3-30B-A3B只有3B活跃参数，却能达到20到24B稠密模型的能力，同时拥有30B模型的世界知识。MiniMax是230B-A10B，Kimi K2.5更是达到1T-A32B的规模。

LiquidAI的交错卷积层设计能大幅降低小模型的KV开销，被认为特别适合游戏场景。

对于游戏开发这个具体场景，社区给出了更务实的建议。

预生成是个聪明的做法：用离线LLM生成海量对话片段存入向量数据库，运行时只做检索和轻量生成。一位开发者分享了他的Unreal Engine插件Personica AI的思路：把上下文依赖从模型中剥离，注入游戏世界，每个角色有独立的memory.txt文件记录事件，后续作为prompt注入，这样模型就不需要维护巨大的上下文窗口。

JSON输出其实不需要特定模型，通过语法约束就能让任何模型只生成有效JSON。Instructor和LMQL这类工具已经很成熟。

也有人指出，Stellar Cafe等游戏已经在用API模式销售，当成本足够低时，API就像免费多人服务器一样可行。DeepSeek V3.2比Gemini 3 Flash便宜数倍，性能却相当。

一个有趣的观点是：卖牛奶的NPC农夫不需要知道三个世界之外那条龙的剧本。模型之所以臃肿，是因为它知道太多无关的东西。如果能针对特定任务蒸馏，去掉多语言、编程、高等数学这些游戏用不上的能力，1B模型或许真能胜任。

十年后，人们可能会拥有笔记本大小、具备Gemini 3 Pro全域能力的本地设备。聪明人会选择本地，傻瓜会被绑在云端。当然，也可能我们都失业了，要么痛苦，要么意外地挺开心。

reddit.com/r/LocalLLaMA/comments/1qsjqdl/are_small_models_actually_getting_more_efficient

发布于北京