karminski-牙医 25-07-21 08:18
微博认证:AI博主

看到个写得非常好的文章——大型 LLM 架构对比

文中列举了 llama-3.2, Qwen3-4B, SmolLM3-3B, DeepSeek-V3, Qwen3-235B-A22B, Kimi-K2 的架构并详细探讨了他们的区别和优势。

想了解最近的开源大模型架构的同学建议看一看,另外这个作者的 blog 也是非常好的学习材料,上次的 DeepSeek 与 Kimi-K2 架构区别也是这个作者 Sebastian Raschka 写的。

地址:sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html

#ai创造营##AI生活指南#

发布于 日本