试openPangu-2.0-Flash|openpangu-2.0-flash|deepseek v4 flash|昇腾910b|编程任务|工具调用|缓存机制|知识库|创意写作

试了一下openPangu-2.0-Flash，感受是，是个为 Agent 特化的模型。

openPangu-2.0-Flash今天在华为云上线了，简单蹬了一下。

先聊聊优点：

1、在同级别模型中，编程任务性能还不错
群友让我试了试这个做个类苹果桌面系统UI的 prompt ，编程出来的结果还不错，桌面上图标也都可以交互，除了游戏不能玩以外，但叠了一版以后，游戏也可以玩了。（图1）
顺带提一句，在同级别模型中智商也还可以。让openPangu-2.0-Flash做了一个逻辑推理题，也做对了。（图2）

2、工具调用非常积极
openPangu-2.0-Flash只要摸到有 skill 就会调用，并且调用还算正确。
这里我还是得吐槽一下 DeepSeek，不管是 V4 Flash 还是 V4 Pro，在工具调用方面都不太积极，动不动就手k工具

3、超长上下文和长内容输出，在同级别模型中也不错
上面那个类苹果操作系统的编程任务的工具是一次完成的，是一个比较复杂的工程。群友把 promote 扔给我以后，我就让他自己去跑了，我自己干别的事，大概花了我5块钱左右的API成本。
但整体来说，基本上在 one shot 以内就完成了一个基本能用的东西。
长上下文也不错。我为了一个6月份发布的某上市公司的定增募集说明书，通过Paddle OCR转成了Markdown文档，比较准确地从里面提取出了相关的信息，并且没有啥幻觉。

不管是工具调用，还是代码撰写，甚至到审美，我觉得这个模型在同级别里头都还算不错的。
以上这几条让这个模型具备了 Agent 特化的潜力。

Agent 也好，龙虾也好，核心特点是实时编程解决问题。所以对于未来的手机 Agent 来说，模型的拟人化不是重点，重点在于代码能力和工具调用能力。当然速度也很重要。这个模型至少从目前来看，有这样的潜力。

再聊聊问题：
1、速度不够Flash
OpenPangu 2.0 Flash 的输出速度大约只有50词元每秒。
相较于目前同级别的模型，乃至高一级别的模型，都偏低。Deepseek V4 Flash 是80左右，V4 Pro是50左右。
还远慢于同级别的千问 NEXT-80B-A3B 的180左右。

当然问题跟卡是相生相伴的。昇腾910B 只支持 FP16 和 INT8 格式，模型开源文件也是采用 FP16，计算和带宽都被拖慢了。
目前主流的模型主要采用 FP4 和 FP8 混合的参数，速度上能快上 1~3 倍。

2、知识库老
openPangu-2.0-Flash模型的知识库只到了2024年，导致这个模型在应对新的知识的时候总有一些不适应。
作为对比，目前国内主流的模型知识库截止时间基本上都是在2025年。特别是网页版的Deepseek V4 Flash已经更新到了2026年5月份。知识库偏老会导致它对新的知识可能存在一些幻觉

3、缺少缓存机制
可能是openPangu-2.0-Flash模型还没有优化好，目前这个模型缺少缓存机制，导致模型的实际使用价格，比其他模型都要贵很多。
举个例子，DeepSeek V4 Flash 缓存命中基本上就等于不要钱。所以用上即使一个亿的词源，实际大概也就是个六七块钱的样子。
但这个模型目前缺少缓存机制，导致我用了这么多缓存，命中率都是0。只用了1000多万词元，就花了10块钱。相当于价格是 Deepseek V4 Flash 的10倍以上。（图4）

4、创意写作不太行
虽然openPangu-2.0-Flash模型输出长文本的能力不错，但是输出中文内容的语言风格AI味太重了。
创意写作这块与目前顶级的模型相比，还有比较大的差距，不太适合作为写作工具。（图5）

当然我觉得速度不够快以及缺少缓存机制，可能跟部署的时间太短有关。
虽然是华为第一方的模型，但盘古跟华为云其实也是两个团队，还需要磨合。看后续能不能把速度跟缓存提上来。
不然以目前的价格来说，我说一句非常不客气的话，这个模型在同价位中没有任何优势。目前的0缓存机制相当于比 DeepSeek V4 Pro 还要贵。

但反过来说，如果这个模型在量化+做好缓存机制+知识库更新以后，它能成为一个不错的 Agent 特化模型。如果速度能跑到100词元以上每秒，外加目前的调用能力和编程能力，资源占用小、调用成功率高，Agent 的特化体验就上得去。

我猜这个可能也是华为团队搞这个模型的初衷，要提升自家手机 AI 的使用效率。

最后我还是得说，这个模型赶紧把缓存机制端上来吧，我才干了这么点活，10块钱就没了。
尝屎英雄泪满襟。
#微博新知#

发布于北京