我讲AI概率预测

今年编程志愿者只安排了一节课，我选了ai相关的课件。里面比较深入浅出地解释了ai（生成式语言模型）其实是基于人类已有数据库的概率预测机器。
比如你问ai向日葵为什么朝着太阳？它会从数据库列出一个个词语，对于“为什么”的问题，第一个词是“因为”的概率最高，而“因为”后面接问句主语的概率也最高，以此类推，一次次预测直到拼成一个完整句子。
介绍完原理后又讨论了ai的优缺点，有一个缺点是它容易产生偏见，ai既然是基于已存在语料的概率预测，偏见就是不可避免的。之前有流行过让ai生成不同地区的居民形象，结果总是符合传播较广的刻板印象，这是植根于生成式语言模型的偏见。
想起在大语言模型出现在大众视野的前三年，那时候监管模型训练的语料还很重要。google 23年因为生成的罪犯图片总是黑人被大众抵制过，股票狂跌。
但感觉随着ai based各种工具的发展，使用门槛下降，进行道德管理、人为语料修正之类的抗拒偏见的声音已经消失在了浪潮里。big tech好像已经不会被模型不符合ground truth和“正义”而影响了。我觉得这是最让人担心的一点
而且生成式语言模型由已存语言训练而成，随着普及它们的输出又流回了社会，且占比不可逆的上升中。有点像第一颗不由自然环境生成的转基因番茄，里面的artificial部分像水一样滴这个世界里，然后迭代迭代，直到没有人能保证自己没吃过人工食物（好吧蛋白质其实是可以消化的
不过往乐观想，人类的历史语料足够复杂，有很多很不同观点交织，不管是自己表达还是借由工具表达，语言这个载体总会永远延续下去。ai有点像人类社会的切片标本，它只是用数学概率选出了当前数据的biggest voice，工具无罪（那谁有罪
最后回归现实，志愿者活动能给小学生做ai启蒙真的挺有意义的，其实大人们也正在思考这种问题诶

发布于上海