来盲评一下 GPT-4.5、Claude 3.7 Sonnet (Extended Thinking)的翻译能力,提示词都是:
「请翻译下面的内容为简体中文,保持原有格式不变无删减,通俗易懂引人入胜:
{原文 Markdown}
」
文章选的是 Andrej Karpathy 的这篇"Power to the people: How LLMs flip the script on technology diffusion" x.com/karpathy/status/1909308143156240538
模型1 翻译结果
人民力量:大型语言模型如何颠覆技术扩散模式
变革性技术通常遵循自上而下的扩散路径:起源于政府或军事环境,经过企业,最终到达个人 - 比如电力、密码学、计算机、飞行、互联网或GPS。这种进展感觉很直观,新的强大技术在早期阶段通常稀缺、资本密集,且使用需要专业技术知识。
因此,大型语言模型(LLMs)展现出这种模式的戏剧性逆转让我感到非常独特和令人瞩目 - 它们为普通人带来不成比例的巨大收益,而在企业和政府中的影响则明显更为温和且滞后。ChatGPT是历史上增长最快的消费应用,拥有4亿周活跃用户,他们使用它进行写作、编程、翻译、辅导、总结、深度研究、头脑风暴等。这不是对已有技术的微小升级,而是在广泛能力范围内对个人能力水平的重大倍增器。而使用门槛异常低 - 这些模型很便宜(甚至免费),速度快,任何人都可以通过网址(甚至本地机器)按需获取,并且它们能说任何人的母语,包括语调、俚语或表情符号。这太疯狂了。据我所知,普通人从未经历过如此戏剧性、如此快速的技术解锁。
那么为什么在企业和政府领域,这些好处要温和得多呢?我认为第一个原因是LLMs提供了一种非常特殊的能力特征 - 仅仅是准专家级别的知识/表现,但同时跨越了非常广泛的领域。换句话说,它们同时具有多功能性,但也浅薄且容易出错。与此同时,一个组织的独特超能力是通过雇佣工程师、研究人员、分析师、律师、营销人员等,将多样化的专业知识集中到单一实体的能力。虽然LLMs肯定可以使这些专家个人更加高效(例如,起草初步法律条款、生成样板代码等),但对组织的改进表现为在已经能做的事情上变得更好一点。相比之下,个人通常最多只能在一件事上成为专家,因此LLM提供的广泛准专业知识从根本上允许他们做以前无法做的事情。人们现在可以轻松编写应用程序。他们可以处理法律文件。他们可以理解深奥的研究论文。他们可以进行数据分析。他们可以为品牌和营销生成多模态内容。他们可以在不需要额外专家参与的情况下,以足够的能力完成所有这些工作。
第二,组织处理的问题复杂度更高且需要更多协调,比如:各种集成、遗留系统、企业品牌或风格指南、严格的安全协议、隐私考虑、国际化、法规遵从和法律风险。有更多的变量,更多的约束,更多的考虑因素,以及更低的错误容忍度。将所有这些放入一个上下文窗口并不容易。你不能随意编写代码。你可能因为一次灾难性的幻觉而失去工作。第三,存在着有据可查的大型组织惰性,包括文化、历史先例、在剧变期间升级的政治领地之争、沟通开销、分布式劳动力的再培训挑战和传统的官僚主义。当谈到快速采用一个闪亮的新型、多功能但浅薄且容易出错的工具时,这些都是主要阻力。我不想低估LLMs在企业或政府中的影响,但至少就目前而言,整个社会的总体情况是,它们对个人的生活改变远远超过对组织的影响。玛丽、吉姆和乔伊正在体验大部分收益,而不是谷歌或美国政府。
展望未来,LLMs的持续扩散当然取决于持续的性能改进及其能力特征。整体"收益分配"尤其有趣,这在很大程度上取决于性能随资本支出而变化的动态范围。今天,顶级LLM性能非常容易获取且便宜。超出这一点,你无法花费额外的钱来获得更好的性能、可靠性或自主性。金钱买不到更好的ChatGPT。比尔·盖茨使用GPT-4o的方式与你一样。但是,这种情况能持续下去吗?训练时扩展(增加参数、数据)、测试时扩展(增加时间)和模型集成(增加批次)是增加动态范围的力量。另一方面,模型蒸馏(通过训练来模仿大模型,从而训练出不成比例的强大小型模型的能力)一直是减少动态范围的力量。当然,一旦金钱能买到戏剧性更好的ChatGPT,情况就会改变。大型组织得以集中其巨大资源购买更多智能。在"个人"类别内部,精英阶层可能再次与社会其他群体分离。他们的孩子将由GPT-8-pro-max-high辅导,而你的孩子由GPT-6 mini辅导。
但至少在当下,我们发现自己处于技术史上一个独特且前所未有的情况。如果你回顾各种科幻作品,你会发现很少有人预测到AI革命会有这样的发展。它本应是由将军们操控的绝密政府超级大脑项目,而不是ChatGPT几乎一夜之间免费出现在每个人口袋里的设备上。还记得威廉·吉布森的那句话"未来已经到来,只是分布不均而已"吗?令人惊讶的是 - 未来已经到来,而且它的分布令人震惊。人民力量。就个人而言,我爱这一切。
***************************
模型2翻译结果:
权力回归大众:LLM如何颠覆技术扩散的传统路径
革命性的技术通常会遵循一种自上而下的传播路径:首先出现在政府或军事领域,随后扩散到企业,最后才抵达普通个人手中——比如电力、密码学、计算机、飞行技术、互联网或GPS。这种路径符合直觉,因为在技术早期阶段,它们往往稀缺、成本高昂且需要专业的技术知识才能使用。
然而,LLM(大语言模型)却惊人地逆转了这一模式,它们给普通人带来了远超企业和政府的巨大好处。ChatGPT是历史上增长最快的消费级应用,每周活跃用户高达4亿,人们用它进行写作、编程、翻译、辅导、总结、深度研究、头脑风暴等等。这并非现有工具的小幅升级,而是全方位提升了个人在众多领域的能力水平。更重要的是,LLM的使用门槛极低——它们便宜甚至免费,响应迅速,只需通过浏览器链接或个人电脑即可随时访问,而且还能用你熟悉的语言、语气、俚语甚至表情符号与你交流。这简直不可思议。据我所知,普通人从未经历过如此剧烈且快速的技术跃迁。
那么,为什么企业和政府从中获得的好处却相对有限?首先,大语言模型具备一种特定的能力特征——在许多领域都拥有类似专家但并不深入且容易犯错的“准专家”水平。换句话说,它们很全能,但也相对浅显易错。相比之下,一个组织真正的超级能力在于,它能通过雇佣工程师、研究人员、分析师、律师、营销专家等,将深度的专业技能集中到单一实体中。虽然LLM可以提高这些专家个人的效率(如初步起草法律条款、生成代码模板等),但对于组织整体而言,它们的作用更像是锦上添花,让原本就能完成的任务变得稍微更好一些。而个人通常最多只精通一个领域,因此LLM提供的广泛准专业能力,使他们能做此前根本做不到的事。人们现在可以凭直觉编写应用程序、理解法律文档、读懂晦涩的研究论文、进行数据分析、甚至独立创建多媒体营销内容,而无需再寻求额外的专家帮助。
其次,企业和政府面对的问题复杂得多,且需要大量协调:例如各种系统集成、遗留系统、品牌规范、严格的安全协议、隐私保护、国际化需求、监管合规以及法律风险。这里面变量更多、限制更多、顾虑更多,犯错的余地却更小。这种复杂性远不是一个上下文窗口就能简单解决的。你不能仅凭直觉编写企业级代码,因为可能一次严重的“幻觉”错误就足以让你丢掉饭碗。
第三,大型组织还存在着众所周知的惯性问题:文化、历史积淀、政治斗争在快速变化中会加剧,沟通成本增加,重新培训分布式员工队伍的挑战,以及传统官僚主义。这些都是迅速采用一种新颖但浅显易错工具的重大阻碍。我无意低估LLM在企业或政府中的影响,但至少就当前而言,对社会整体来说,这些模型对个人生活的改变远超过组织。真正享受大部分好处的是普通的玛丽、吉姆和乔,而不是谷歌或美国政府。
展望未来,LLM的进一步扩散当然取决于其性能持续提升及能力特征的发展。整体“收益分配”将是个特别有趣的话题,并高度依赖于性能与资本投入之间的动态范围。目前,顶级LLM性能极易获取且成本低廉,现阶段你无法通过花更多钱获得显著更好的性能、可靠性或自主性。钱买不到更好的ChatGPT。比尔·盖茨使用的GPT-4o与你使用的完全相同。但这种状况能持续多久呢?增加训练规模(参数、数据),增加推理时间,以及使用模型组合策略,这些都会增加动态范围。另一方面,模型蒸馏技术(通过模仿大模型训练更小但性能强劲的模型)却在缩小这种差距。一旦资金可以明显买到更强的ChatGPT,形势就会发生巨大变化。届时,大型组织将能利用庞大的资源购买更多智能;在个人层面上,精英阶层或许也会再次与大众拉开差距。他们的孩子可能接受GPT-8超级高级版的私人辅导,而你的孩子只能用GPT-6迷你版。
但至少现在,我们正处于技术史上一个独特且史无前例的时刻。如果你回顾各种科幻作品,很少有人会预测AI革命竟然以这样的方式发生。它原本应当是一个由政府主导的绝密超级大脑计划,由军事将领掌控,而不是像ChatGPT这样一夜之间免费出现在每个人口袋里的设备上。记得威廉·吉布森那句名言吗?——“未来早已降临,只是分布并不均匀”。出人意料的是,现在未来不仅已经到来,而且惊人地公平分布。权力回归大众。说实话,我特别喜欢这样的未来。
************
下面是原始对话的分享链接:
GPT-4.5 http://t.cn/A6rassXG
Claude 3.7 Extended Thinking http://t.cn/A6rassXb
本来还测试了 Gemini 2.5 Pro,但是字数有限放不下了,有兴趣可以看图2或者下面的链接:
Gemini 2.5 Pro http://t.cn/A6rassX4
