试了一下openPangu-2.0-Flash,感受是,是个为 Agent 特化的模型。
openPangu-2.0-Flash今天在华为云上线了,简单蹬了一下。
先聊聊优点:
1、在同级别模型中,编程任务性能还不错
群友让我试了试这个做个类苹果桌面系统UI的 prompt ,编程出来的结果还不错,桌面上图标也都可以交互,除了游戏不能玩以外,但叠了一版以后,游戏也可以玩了。(图1)
顺带提一句,在同级别模型中智商也还可以。让openPangu-2.0-Flash做了一个逻辑推理题,也做对了。(图2)
2、工具调用非常积极
openPangu-2.0-Flash只要摸到有 skill 就会调用,并且调用还算正确。
这里我还是得吐槽一下 DeepSeek,不管是 V4 Flash 还是 V4 Pro,在工具调用方面都不太积极,动不动就手k工具
3、超长上下文和长内容输出,在同级别模型中也不错
上面那个类苹果操作系统的编程任务的工具是一次完成的,是一个比较复杂的工程。群友把 promote 扔给我以后,我就让他自己去跑了,我自己干别的事,大概花了我5块钱左右的API成本。
但整体来说,基本上在 one shot 以内就完成了一个基本能用的东西。
长上下文也不错。我为了一个6月份发布的某上市公司的定增募集说明书,通过Paddle OCR转成了Markdown文档,比较准确地从里面提取出了相关的信息,并且没有啥幻觉。
不管是工具调用,还是代码撰写,甚至到审美,我觉得这个模型在同级别里头都还算不错的。
以上这几条让这个模型具备了 Agent 特化的潜力。
Agent 也好,龙虾也好,核心特点是实时编程解决问题。所以对于未来的手机 Agent 来说,模型的拟人化不是重点,重点在于代码能力和工具调用能力。当然速度也很重要。这个模型至少从目前来看,有这样的潜力。
再聊聊问题:
1、速度不够Flash
OpenPangu 2.0 Flash 的输出速度大约只有50词元每秒。
相较于目前同级别的模型,乃至高一级别的模型,都偏低。Deepseek V4 Flash 是80左右,V4 Pro是50左右。
还远慢于同级别的千问 NEXT-80B-A3B 的180左右。
当然问题跟卡是相生相伴的。昇腾910B 只支持 FP16 和 INT8 格式,模型开源文件也是采用 FP16,计算和带宽都被拖慢了。
目前主流的模型主要采用 FP4 和 FP8 混合的参数,速度上能快上 1~3 倍。
2、知识库老
openPangu-2.0-Flash模型的知识库只到了2024年,导致这个模型在应对新的知识的时候总有一些不适应。
作为对比,目前国内主流的模型知识库截止时间基本上都是在2025年。特别是网页版的Deepseek V4 Flash已经更新到了2026年5月份。知识库偏老会导致它对新的知识可能存在一些幻觉
3、缺少缓存机制
可能是openPangu-2.0-Flash模型还没有优化好,目前这个模型缺少缓存机制,导致模型的实际使用价格,比其他模型都要贵很多。
举个例子,DeepSeek V4 Flash 缓存命中基本上就等于不要钱。所以用上即使一个亿的词源,实际大概也就是个六七块钱的样子。
但这个模型目前缺少缓存机制,导致我用了这么多缓存,命中率都是0。只用了1000多万词元,就花了10块钱。相当于价格是 Deepseek V4 Flash 的10倍以上。(图4)
4、创意写作不太行
虽然openPangu-2.0-Flash模型输出长文本的能力不错,但是输出中文内容的语言风格AI味太重了。
创意写作这块与目前顶级的模型相比,还有比较大的差距,不太适合作为写作工具。(图5)
当然我觉得速度不够快以及缺少缓存机制,可能跟部署的时间太短有关。
虽然是华为第一方的模型,但盘古跟华为云其实也是两个团队,还需要磨合。看后续能不能把速度跟缓存提上来。
不然以目前的价格来说,我说一句非常不客气的话,这个模型在同价位中没有任何优势。目前的0缓存机制相当于比 DeepSeek V4 Pro 还要贵。
但反过来说,如果这个模型在量化+做好缓存机制+知识库更新以后,它能成为一个不错的 Agent 特化模型。如果速度能跑到100词元以上每秒,外加目前的调用能力和编程能力,资源占用小、调用成功率高,Agent 的特化体验就上得去。
我猜这个可能也是华为团队搞这个模型的初衷,要提升自家手机 AI 的使用效率。
最后我还是得说,这个模型赶紧把缓存机制端上来吧,我才干了这么点活,10块钱就没了。
尝屎英雄泪满襟。
#微博新知#
