AI快速实现语音转文字功能

记录一下刚刚因为需求所以临时起意让AI加功能结果光速完成的过程
之前一直用的是台式机GPU跑whisper，其实针对工作流详情优化了之后还行，有个缺点是不能有其他显存占用否则会报爆显存，所以每次跑这个我都得把浏览器啥的关一下，也得担心其他不重要的工具占用显存，总之就是这时候台式机基本啥也不能干。
然后这几天被推荐了whisper.cpp，在mac上占掉一个多GB内存就可以作为一个whisper服务器用，而且还不用占用台式机的资源，还挺美的。于是折腾了几天把一键整段音频whisper语音转文字（甚至是Windows远程发给Mac的服务端）到处理重复行和无意义行，到发给LLM通过自定义术语集实现针对特定领域的准确翻译都搞定了还是蛮美滋滋的（挠头）
然后今晚听广播，因为有点低烧所以没法集中精力听广播记东西，于是我就寻思着这个whisper服务器有没有可能帮忙实现实时输出语音识别结果？于是就直接在opencode里给AI提PLAN，然后想了想本来我家里就有一个本来是打算串流采集卡用的常驻rtmp服务器，我用ffmpeg把自己台式机的声卡声音往这个rtmp服务器里推，然后mac那边整个脚本，捕获这个服务器里的声音，发给whisper server，是不是就能实现实时输出文字转语音结果？结果把这么个思路喂给AI之后AI直接给我搬出了结果，正好这时候我也在听广播，于是就在台式机上把自己的声卡广播出去，让mac端接收并实时输出听写结果。没想到的是，居然一次就成功了。如果没有AI的话，我想法从落地到实现，大概还得再和server之类的斗智斗勇一阵子吧。
然后就是优化，加上了简单的发给LLM获取实时翻译的功能，也加上了通过bot协议从QQ发实时听写消息的功能，还加上了当前时间戳。当这么多小功能都实际落地了的时候，我之前听到广播还没有结束，我的一个实用需求就这么快速地落地了（我本来还以为要调试一晚上呢
真是方便啊（感叹

发布于安徽