看到个写得非常好的文章——大型 LLM 架构对比
文中列举了 llama-3.2, Qwen3-4B, SmolLM3-3B, DeepSeek-V3, Qwen3-235B-A22B, Kimi-K2 的架构并详细探讨了他们的区别和优势。
想了解最近的开源大模型架构的同学建议看一看,另外这个作者的 blog 也是非常好的学习材料,上次的 DeepSeek 与 Kimi-K2 架构区别也是这个作者 Sebastian Raschka 写的。
地址:sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html
#ai创造营##AI生活指南#
发布于 日本
