纪红豆_
26-05-20 20:19

学习笔记

一直以来,我都比较习惯用语音转文字来输入内容。电脑端一直在用一个叫 CapsWriter-Offline 的项目(B站搜一下就能找到)。但它每次开机启动时,都会弹出两个黑色窗口在后台运行,我不是很喜欢这种方式。

后来我让 AI 帮我优化了一下,把它改成了一个独立的 exe 应用程序。启动的时候还会有“正在启动中”的提示,这样就避免了有时候它还没完全启动,我就已经开始说话输入,结果整段语音都没录进去的情况,用起来顺手了很多。

另外,我还让 AI 把我剧本里一些常用的高频词汇提取出来,整理成了本地词库,直接加进了工具里。

同时基于这个本地词库的功能,我也得到了一个新的灵感:给之前做的字幕修正整理工具,也加上了本地词库系统。现在可以自定义添加一些女性向音声相关的专业词汇,整体识别准确率提高了不少。

之前我有买过一些脚本小工具、小程序,比如后期剪辑用的,或者批量翻译文件夹里英文音效的工具。有些工具或脚本作者会给程序加锁,比如绑定设备机器码之类的限制,这个功能很好啊。

于是我就和我的“技术总监”(GPT/AI协作对象)一顿沟通,再给 AI 开发助手下达指令,经过一番学习操作之后,我也成功“掌握”了这项能力。具体方式是把源代码上传到触手小猫的私人仓库,再通过 Cloudflare 连接这个私有仓库进行部署。

再就是今天刷 B 站的时候,看到一位博主发的视频,标题是“手搓了一只有视觉听觉的 AI 七海”,感觉非常厉害。看看能不能借用一下这位大佬分享的源代码,做一个融合我自己声音和形象的多模态演出引擎出来给大家玩。

今天是真把所有的空闲时间全都挤出来学习这玩意儿了,非常充实的一天啊,充实的一天过后也是很疲惫,精力耗尽了,小宇宙燃尽了。

发布于 加拿大