宝玉xp
23-12-12 02:11 微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

转译一下 Jim Fan 对 Mistral 的点评:



谈谈我对 Mistral 迅速崛起的看法:

- 成功的开局:在开源与封闭式 AI 的大讨论中,Mistral 选择了一个非常好的成立时机。他们在 20 亿美元的估值下完成了 4 亿美元的 A 轮融资,并且背后是一支高效精简的团队。

- 现在每个月都有许多模型被推出,但真正能持久并且能引起公众关注的模型寥寥无几。LlaMA 和 Vicuna 就是这方面的典型例子。

- 我认为 Mistral 做对了一件事,那就是极力优化 7B级别的模型,而不是追求更大的模型容量。7B及其混合专家模型(7B-MoE,相当于 12B的密集型模型)对于基层的 AI 工程师来说,更容易进行开发和构建。

- 混合专家模型(MoE)无疑是 AI 发展的正确方向。它在小型模型的知识记忆与效率之间找到了一个灵活的平衡点。OpenAI 自从训练 GPT-4 以来已经在这条路上走了一年多了。我对 AI 社区没有把更多的注意力放在 MoE 上感到意外。

- 大语言模型(LLM)就像是对一个文明的快照。未来会出现更多代表不同文化、政治观点、宗教信仰和特定地区规定的本地化大语言模型。Mistral 把多语言支持放在了重要位置。考虑到它是一家法国初创公司,这一点也不奇怪。

- Mistral 的发布方式颇具特色。这个过程实际上是颠覆了大家的预期:
(1)首先发布一个没有任何解释的磁力链接。磁力链接已成为新型的吸引眼球的手段!
(2)然后向开源的 vLLM 项目提交一个PR,帮助社区集成 Megablocks CUDA 内核,这一举措相当大胆!
(3)最后,才发布博客文章。

- 推出托管 API 端点是快速收集客户反馈、针对实际应用场景进行迭代,并最重要的是,实现开源模型的商业化的最好方式。Mistral 立刻采取了这一策略。

- “Mixtral”这个名字真是巧妙极了👏

博客: http://t.cn/A6l5SCZr
API 平台: http://t.cn/A6l5oaBg

推文:http://t.cn/A6l5oaBe
我前一条对Mixtral新模型的介绍:http://t.cn/A6l5oQUT
#微博新知#

发布于 美国