【#数据标注员教会电脑淘汰自己#】河南商丘生产粮食,还有数据。粮食给人吃,管饱;人加工数据给机器吃,叫“机器学习”。薛再强就是在商丘给自动驾驶做数据的,用他的话说,汽车里有个“傻电脑”,他的工作就是训练“傻电脑”学开车。
就像小麦要打谷筛磨做成面粉才能吃,训练“傻电脑”学开车,就得把影像文字变成可以用代码理解的语言,也就是“数据标注”。让“傻电脑”变成一个会自动驾驶的AI需要把多少图像变成数据?目前业内最广泛的共识是千亿公里。也就是说,至少需要将一千亿公里的路况数据化,才能“培养”出一个可以安全驾驶的AI。拿每公里标注十辆车计算,如果让一个人每秒钟标出一辆车,那么他至少需要三万一千多年;商丘七百多万常住人口,所有人昼夜不休一起干,才能完成这项工作。
就像从零搭建一座结构精密的建筑,每个AI的成长都会经历人工训练的过程。导航语音的生成,智能音箱的应答,人脸支付,动作捕捉……现在,你去问ChatGpt,它也会“亲口”承认,“在我的训练过程中,开发者们还使用了一些人工标注的数据集,以帮助我识别语言中的关键概念和语法规则。这些数据集通常由人类专家进行标注,包括注释句子结构、命名实体识别和情感分析等等。这些标注数据可以帮助我更好地理解自然语言,并使我更准确地执行我的任务。”
据估计,在中国,有约千万名“人类专家”正在给数据“打谷子”。商丘市城西的北航星数字产业园就是这样一座谷场,打开招聘网站,你能找到二十多家公司在商丘招聘数据标注员。AI就从这里开始,睁开眼认识世界。
http://t.cn/A6NAHgWB
