豆包Seed 2.0 Lite 0428升级新版本:给AI装上眼睛和耳朵,但不建议裸用。
全模态
豆包 Seed 2.0 Lite 0428升级新版本,给Agent装上了眼睛和耳朵,价格还便宜。 就这么简单。
升级的核心是全模态理解,原来Lite能看图、能读视频、能处理文字,现在把音频补上了。
是真正听懂,不是语音转文字那种,情绪、环境声、多说话人,它全都能捕捉。视频、图像、音频、文本,四种信息原生一体化处理,一次API调用搞定。
四合一的API
亚里士多德说,所有知识始于感官。
人类认识世界,第一步就是看、听、摸、闻、尝。
AI也是这个道理,一个只能处理文字的LLM,就像一个闭着眼睛做手术的医生,技术再好,信息源先天就缺了一块。
而现在的Agent工作流,有个很尴尬的问题,输入侧的瓶颈。
你用Claude Code或者OpenClaw写代码很猛,但它们本质上只吃文字。
你想让它们看看这个视频,做不到。
你想让它们听听这段录音,做不到。
你必须先把视频截图、把录音转文字、把PPT导出成PDF,用人类的眼睛和手,把信息翻译成文字,再喂给AI。
这个翻译过程,就是输入侧瓶颈。
我前两天看了NVIDIA一篇技术博客,他们聊到这个问题,搭一个真正能用的多模态Agent,团队通常是这么干的。
视频用一个视觉模型处理,音频丢进语音识别,图片走另一个VLM,文字用LLM。
四个模型,四套接口,四次推理调用。
每一次拼接,都是一次上下文断裂。
每一次断裂,都在削弱准确率。
豆包Seed 2.0 Lite这次做的事,就是把这四件事用一个API干了。
定位前置
0428Lite版超了前代Pro,这在模型迭代里不多见,一个轻量版把自家旗舰的视觉理解能力给超了,说明字节不是在做增量优化,是在迭代式地刷新能力边界。
然后是直接读视频这件事,GPT-5.5和Claude Opus 4.7都做不到,不是看一帧截图,是能理解画面节奏、转场、音视频一致性。
御三家里暂时只有Gemini有这能力,但Gemini贵。
最巧的是它的定位,前置感官层,它不是来替换Claude Code或OpenClaw的。
它接在前面当眼睛和耳朵,视频音频进去,结构化文本出来,再喂给coding agent。
视频/音频/截图 → 豆包 Seed 2.0 Lite]→ 结构化文本 → Claude Code/OpenClaw/Trae → 代码/文章
价格
不抢活,补短板,你不用换工作台,不用迁移,不用学新工具。
只是在现有的Agent前面,加一层它原来缺的东西。
价格才是最离谱的部分, 0.6元/百万tokens输入。
比同档的Gemini 3 Flash便宜6倍。
一段4分半视频转字幕,不到一分钱。
意味着成本低到你可以把它真的塞进生产链路,不只是做demo。
当你每天录的几个视频片段全跑一遍只要几毛钱的时候,调用频率就会涨一个量级,工作流的形态会跟着变。
上下文工程
豆包让AI能看见更多,听到更全,去掉AI和信息之间的人类翻译层。
当然,不要看到全模态三个字就冲。
不写prompt直接跑,效果只比剪辑软件好一点,专有名词该错还是错。
真正有用是加了大量上下文之后,所以这东西吃prompt工程,不建议裸用。
输出侧还是Lite水平,复杂推理、长链路Agent比不了旗舰。
全模态听起来全面,但实际能用上的场景得看具体业务,不是人人天天都要分析音频和视频的。
神龙摆尾
当AI有了眼睛和耳朵,人跟AI的关系会变吗?
以前我们说AI助手,人类是翻译官,把世界翻译成文字喂给AI。
但如果AI能直接看、直接听,翻译官是不是要失业了?
还是说,人类会变成另一种角色,不再是信息的转译者,而是决策者、评判者、引导者?
这个转变已经开始发生了, 你下次开Claude Code的时候,可以试试把那段不愿意手动转录的会议录屏丢给它。
让它开始能听见声音,
让它开始能看见视频。
#人工智能[超话]##豆包##豆包 付费#
