_科技不打烊_ 26-03-19 18:58

大模型架构看不懂?AI 研究者 Sebastian Raschka 打造的「LLM Architecture Gallery」在线图谱来了,一站式集齐主流大模型架构细节,Karpathy 都点赞称是创意资源库!
这个图谱涵盖 Llama、DeepSeek、Qwen、Kimi、GLM 等全系列模型,参数从几亿到万亿级全覆盖。所有架构图统一视觉框架,告别论文里风格各异、命名混乱的问题,点击模型名就能查看专属模型卡,核心架构图、模块设计、参数规模、发布时间等信息一目了然。
对研究者而言,它是高效的架构索引,能快速对比不同模型设计思路、找准创新点,理解技术演化路径,为研究和模型设计提供参考。项目还在 GitHub 开源,源数据可查,还能提交更新建议~#通信科技[超话]##科技[超话]##科技服务[超话]#

发布于 四川