今年编程志愿者只安排了一节课,我选了ai相关的课件。里面比较深入浅出地解释了ai(生成式语言模型)其实是基于人类已有数据库的概率预测机器。
比如你问ai向日葵为什么朝着太阳?它会从数据库列出一个个词语,对于“为什么”的问题,第一个词是“因为”的概率最高,而“因为”后面接问句主语的概率也最高,以此类推,一次次预测直到拼成一个完整句子。
介绍完原理后又讨论了ai的优缺点,有一个缺点是它容易产生偏见,ai既然是基于已存在语料的概率预测,偏见就是不可避免的。之前有流行过让ai生成不同地区的居民形象,结果总是符合传播较广的刻板印象,这是植根于生成式语言模型的偏见。
想起在大语言模型出现在大众视野的前三年,那时候监管模型训练的语料还很重要。google 23年因为生成的罪犯图片总是黑人被大众抵制过,股票狂跌。
但感觉随着ai based各种工具的发展,使用门槛下降,进行道德管理、人为语料修正之类的抗拒偏见的声音已经消失在了浪潮里。big tech好像已经不会被模型不符合ground truth和“正义”而影响了。我觉得这是最让人担心的一点
而且生成式语言模型由已存语言训练而成,随着普及它们的输出又流回了社会,且占比不可逆的上升中。有点像第一颗不由自然环境生成的转基因番茄,里面的artificial部分像水一样滴这个世界里,然后迭代迭代,直到没有人能保证自己没吃过人工食物(好吧蛋白质其实是可以消化的
不过往乐观想,人类的历史语料足够复杂,有很多很不同观点交织,不管是自己表达还是借由工具表达,语言这个载体总会永远延续下去。ai有点像人类社会的切片标本,它只是用数学概率选出了当前数据的biggest voice,工具无罪(那谁有罪
最后回归现实,志愿者活动能给小学生做ai启蒙真的挺有意义的,其实大人们也正在思考这种问题诶
