优化语音转文字工具

学习笔记

一直以来，我都比较习惯用语音转文字来输入内容。电脑端一直在用一个叫 CapsWriter-Offline 的项目（B站搜一下就能找到）。但它每次开机启动时，都会弹出两个黑色窗口在后台运行，我不是很喜欢这种方式。

后来我让 AI 帮我优化了一下，把它改成了一个独立的 exe 应用程序。启动的时候还会有“正在启动中”的提示，这样就避免了有时候它还没完全启动，我就已经开始说话输入，结果整段语音都没录进去的情况，用起来顺手了很多。

另外，我还让 AI 把我剧本里一些常用的高频词汇提取出来，整理成了本地词库，直接加进了工具里。

同时基于这个本地词库的功能，我也得到了一个新的灵感：给之前做的字幕修正整理工具，也加上了本地词库系统。现在可以自定义添加一些女性向音声相关的专业词汇，整体识别准确率提高了不少。

之前我有买过一些脚本小工具、小程序，比如后期剪辑用的，或者批量翻译文件夹里英文音效的工具。有些工具或脚本作者会给程序加锁，比如绑定设备机器码之类的限制，这个功能很好啊。

于是我就和我的“技术总监”（GPT/AI协作对象）一顿沟通，再给 AI 开发助手下达指令，经过一番学习操作之后，我也成功“掌握”了这项能力。具体方式是把源代码上传到触手小猫的私人仓库，再通过 Cloudflare 连接这个私有仓库进行部署。

再就是今天刷 B 站的时候，看到一位博主发的视频，标题是“手搓了一只有视觉听觉的 AI 七海”，感觉非常厉害。看看能不能借用一下这位大佬分享的源代码，做一个融合我自己声音和形象的多模态演出引擎出来给大家玩。

今天是真把所有的空闲时间全都挤出来学习这玩意儿了，非常充实的一天啊，充实的一天过后也是很疲惫，精力耗尽了，小宇宙燃尽了。

发布于加拿大