Midjourney技术选型问题

Midjourney 创始人自爆没有使用N卡导致落后一年

刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子, Midjourney 创始人 David Holz 不经意间爆了个大料：解释了为什么他们过去一年在产品迭代上显得如此疲软.

(原帖已经删帖了, 毕竟用着TPU然后说TPU不好不太好哈哈哈, 而且今天 GoogleI/O 还在搞. 所以我给大家截图了评论)

简单来讲, Midjourney 之前为了搞底层基建, 把技术栈搞成了精分状态：在 TPU 上使用 JAX 框架训练模型, 又在 GPU 上使用 PyTorch 进行推理.

结果就是, 团队天天在这两套环境中来回横跳, 工具链断层, 调试极其困难(老黄的 N 卡从 IR 到算子再到驱动都能调试, 社区经验也很多, TPU 生态跟不上). 而且由于用 JAX (Google 搞的运行在 TPU上的魔改 NumPy), 导致开源社区里海量现成的 PyTorch 训练代码根本无法直接用, 全得自己移植.

David 更是直接说 "如果可以回到过去, 我会从一开始就尝试使用纯英伟达的解决方案. "

所以如果说 DeepSeek 用国产卡, 搞各种极限优化是因为缺卡被逼出来的, 那 Midjourney 纯粹就是自己作(zuō, 一声)出来的了

要知道去年以来, 以 Google Nano-banana 为代表的修图大模型, 和各家能直接在图片里精准嵌入上千字的文生图大模型疯狂爆发. 对比之下, Midjourney 发布的 V7 和 V8 两个大版本在这些"平民化"功能上根本没法打.

我自己是 Midjourney 的订阅用户, 我现在基本只用它做前期的创意草稿和风格探索(毕竟 MJ 的风格连贯性和艺术感目前还是最强的), 然后精修和提升分辨率全都使用 nano-banana.而如果要排版做海报直出, 而做海报之类的直接用 OpenAI 的 ChatGPT Images 了.

帖子下面有个中国老哥评论得好：「亡羊补牢, 为时不晚」. 希望今年 Midjourney 赶紧跟上, 毕竟目前风格迁移这个领域还是 Midjourney 比较好, 基本盘还在的.

#HOW I AI##Midjourney##NVIDIA##TPU##文生图大模型#

发布于日本