话说 Transformer 系早就利用多模态能力把 Stable Diffusion 路线的文生图干掉了怎么还不没看到用 Transformer 干掉那些传统的音质修复、音乐人声分离模型呢 [思考] 发布于 广东