我是一只小小小鸡仔 25-05-12 15:48
微博认证:科技博主

分享下用大语言模型执行翻译任务的经历:
我需要把App的简体中文资源翻译为繁体中文,图方便直接贴给了ChatGPT,它回答当前环境没有安装OpenCC,使用其它实现帮我翻译并给出结果,我就去搜了OpenCC http://t.cn/zHBAnT1 这个开源项目,它支持简体转繁体,并能根据台湾/香港地区进行本地化适配。

之前我通常是使用在线工具或输入法的繁体模式进行转换,只实现了一个版本的繁体,而OpenCC的本地化效果明显更好,比如图1 比较了具体词汇的差异,让GPT帮我写了一个Bash脚本,可以批量将本地多个目录下的中文资源,通过OpenCC一次性转换为台湾和香港版本的繁体内容。这样我以后只需维护简体资源,繁体版本运行脚本就可以自动生成。

接着我又想实现在本地执行全球其他语言的翻译,GPT建议使用Ollama 搭配本地大语言模型(LLM)进行处理,之前没有相关经验,在安装Ollama后,下载了多个主流模型的不同规格版本(Qwen3、DeepSeek-R1、Gemma3、Llama3等),参见图2。

通过Docker安装Open WebUI来测试各模型的翻译效果,我的电脑内存是64G,测试最多只能跑32B的模型,再往上70B这些就歇菜了,让GPT帮我写了一个用Ollama批量翻译其他语言的Bash脚本,只需要执行脚本就可以把本地多个目录下的中文或者英文翻译成其它语言并输出到对应目录,不用修改文件就能打包App。

每个模型都设置了用于翻译任务的提示词(prompt),为了确保翻译结果一致性,设置各种参数把随机性调到最低,保证同样的输入每次输出保持一致,通过不同的AI工具对各模型的翻译结果进行评估,判断哪种输出更本地化,并根据评估反馈的优缺点持续优化提示词,最终的提示词版本见图3。

最后,将本地模型的最佳翻译结果,与联网环境下的Qwen3、DeepSeek、Gemini和ChatGPT生成的结果进行了对比,结果还是联网版本的大模型更胜一筹,最终还是选择用优化后的提示词,通过ChatGPT翻译后手动复制结果到本地,缺点是有一定的随机性,每次输出的结果不能保证完全一致。

发布于 广东