豆包Seed 2.0 Lite 0428升级新版本：给AI装上眼睛和耳朵，但不建议裸用。全模态豆包 Seed 2.0 Lite 0428升级新版本，给Agent装上了眼睛和耳朵，价格还便宜。就这么简单。升级的核心是全模态理解，原来Lite能看图、能读视频、能处理文字，现在把音频补上了。是真正听懂，不是语音转文字那种，情

豆包Seed 2.0 Lite 0428升级新版本：给AI装上眼睛和耳朵，但不建议裸用。

全模态
豆包 Seed 2.0 Lite 0428升级新版本，给Agent装上了眼睛和耳朵，价格还便宜。就这么简单。

升级的核心是全模态理解，原来Lite能看图、能读视频、能处理文字，现在把音频补上了。

是真正听懂，不是语音转文字那种，情绪、环境声、多说话人，它全都能捕捉。视频、图像、音频、文本，四种信息原生一体化处理，一次API调用搞定。

四合一的API
亚里士多德说，所有知识始于感官。

人类认识世界，第一步就是看、听、摸、闻、尝。

AI也是这个道理，一个只能处理文字的LLM，就像一个闭着眼睛做手术的医生，技术再好，信息源先天就缺了一块。

而现在的Agent工作流，有个很尴尬的问题，输入侧的瓶颈。

你用Claude Code或者OpenClaw写代码很猛，但它们本质上只吃文字。

你想让它们看看这个视频，做不到。

你想让它们听听这段录音，做不到。

你必须先把视频截图、把录音转文字、把PPT导出成PDF，用人类的眼睛和手，把信息翻译成文字，再喂给AI。

这个翻译过程，就是输入侧瓶颈。

我前两天看了NVIDIA一篇技术博客，他们聊到这个问题，搭一个真正能用的多模态Agent，团队通常是这么干的。

视频用一个视觉模型处理，音频丢进语音识别，图片走另一个VLM，文字用LLM。

四个模型，四套接口，四次推理调用。

每一次拼接，都是一次上下文断裂。

每一次断裂，都在削弱准确率。

豆包Seed 2.0 Lite这次做的事，就是把这四件事用一个API干了。

定位前置
0428Lite版超了前代Pro，这在模型迭代里不多见，一个轻量版把自家旗舰的视觉理解能力给超了，说明字节不是在做增量优化，是在迭代式地刷新能力边界。

然后是直接读视频这件事，GPT-5.5和Claude Opus 4.7都做不到，不是看一帧截图，是能理解画面节奏、转场、音视频一致性。

御三家里暂时只有Gemini有这能力，但Gemini贵。

最巧的是它的定位，前置感官层，它不是来替换Claude Code或OpenClaw的。

它接在前面当眼睛和耳朵，视频音频进去，结构化文本出来，再喂给coding agent。

视频/音频/截图 → 豆包 Seed 2.0 Lite]→ 结构化文本 → Claude Code/OpenClaw/Trae → 代码/文章

价格
不抢活，补短板，你不用换工作台，不用迁移，不用学新工具。

只是在现有的Agent前面，加一层它原来缺的东西。

价格才是最离谱的部分， 0.6元/百万tokens输入。

比同档的Gemini 3 Flash便宜6倍。

一段4分半视频转字幕，不到一分钱。

意味着成本低到你可以把它真的塞进生产链路，不只是做demo。

当你每天录的几个视频片段全跑一遍只要几毛钱的时候，调用频率就会涨一个量级，工作流的形态会跟着变。

上下文工程
豆包让AI能看见更多，听到更全，去掉AI和信息之间的人类翻译层。

当然，不要看到全模态三个字就冲。

不写prompt直接跑，效果只比剪辑软件好一点，专有名词该错还是错。

真正有用是加了大量上下文之后，所以这东西吃prompt工程，不建议裸用。

输出侧还是Lite水平，复杂推理、长链路Agent比不了旗舰。

全模态听起来全面，但实际能用上的场景得看具体业务，不是人人天天都要分析音频和视频的。

神龙摆尾
当AI有了眼睛和耳朵，人跟AI的关系会变吗？

以前我们说AI助手，人类是翻译官，把世界翻译成文字喂给AI。

但如果AI能直接看、直接听，翻译官是不是要失业了？

还是说，人类会变成另一种角色，不再是信息的转译者，而是决策者、评判者、引导者？

这个转变已经开始发生了，你下次开Claude Code的时候，可以试试把那段不愿意手动转录的会议录屏丢给它。

让它开始能听见声音，

让它开始能看见视频。
#人工智能[超话]##豆包##豆包付费#

发布于广东