Joken是个runner
26-02-27 16:48 微博认证:2023年深圳宝安马拉松 马拉松运动员 海外新鲜事博主

经济学人的文章,对PDF的战争正在升温The war against PDFs is heating up

这种文件格式能否在AI革命中存活?

1993年,当Adobe推出可移植文档格式(PDF)时,高德纳咨询公司的一位顾问称其为"我这辈子听过的最蠢的主意"。用户不得不对着拨号网络,眼巴巴等待动辄兆字节大小的文件慢慢下载,再等着电脑一点点渲染出来。这家软件公司的董事会甚至想直接砍掉这个项目。然而,随着数字文件共享成为刚需,PDF最终笑到了最后——尤其是在美国国税局开始使用PDF填报税表之后。如今,超过2.5万亿份PDF文件飘荡在数字空间中。但这种格式能否熬过人工智能革命?

PDF至今仍有其痼疾。在智能手机上阅读PDF令人头疼;从中复制数据颇为繁琐;为视障人士朗读屏幕内容的辅助软件,遇上PDF也常常捉襟见肘。这种文件格式于2008年由Adobe移交公众管理,同时也成了恶意软件的温床:据网络安全公司Check Point统计,五分之一的电子邮件网络攻击借助PDF附件实施。

近来,又一股批评之声涌现。支撑生成式AI的大型语言模型,常常被PDF搞得晕头转向——例如,将分栏排版的页面从左到右逐行阅读,而非按列自上而下解析,或是被页眉页脚弄得一团糊涂。解析PDF的困难,正是AI聊天机器人偶尔"产生幻觉"、生成胡言乱语的原因之一。

颠覆者们已然登场。Factify等初创公司正致力于打造一种更契合AI时代的新文件格式。其掌门人马坦·加维什大谈自己"狂妄自大"的愿景——将PDF彻底取而代之。

然而,PDF协会主席、这一格式的捍卫者达夫·约翰逊认为,问题的根源不在文件格式本身,而在于我们自己。他坚持认为,开发者完全有能力构建出能够正确处理PDF的AI程序,没有任何技术障碍。Adobe旗下PDF阅读器Acrobat内嵌的AI助手,正是专为此目的而设计的——该公司PDF技术专家莱昂纳德·罗森索尔如是指出。AI领域的领军者谷歌,也已面向使用其Gemini模型的开发者推出了一款工具,大幅降低了摄取PDF内容的难度。PDF的统治时代,尚未走到终点。#海外新鲜事#

发布于 广东