#一句话搞定图像视频全流程##媲美GPT4o的图像神器来了#
生成图像、剪视频、改照片,还要来回切模型?太麻烦了!
现在,港科大等团队发布了ComfyMind,一套系统打通所有主流视觉生成任务,不管是文本转图像,还是图像转视频,全都一句话搞定。
来看几个效果:
- 生成一张彩虹光学图;【图1】
- 在蛋糕图上“动刀”切块;【图2】
- 把Logo无缝嵌入杯子;【图3】
- 生成燃烧的篝火视频……【图4】
这套框架在多个行业基准测试中,表现甚至可与闭源巨头GPT-4o相媲美。
以前靠ComfyUI做这些事要搭节点、写JSON,搞懂模型参数,非专业选手根本玩不转。即使有些工具能自动搭建流程,也常常出错、缺模块、语义漂移。
ComfyMind的做法是:用大模型“指挥调度”ComfyUI,像人类艺术家那样分步骤、按层级规划任务。它把工作流程拆成“原子工作流”,用自然语言定义模块,还能根据执行反馈局部返工,不重跑整个流程。
目前,项目已开源上线,Demo也能直接体验。感兴趣的,可以戳官网或论文了解更多细节。详情请看:http://t.cn/A6exTb3M
