ViviTech 视频(双语字幕):和 OpenAI 一起打造面向未来的 AI 产品
OpenAI的开发者体验负责人Romain Huet 在 VivaTech 2024 上的演讲和演示,在演示过程中,Huet使用ChatGPT桌面应用让AI对400多人的观众讲话。他甚至让它用法语更热情地讲话。口音听起来像是美国人在说法语,但他说“我们正在努力让它更像法国人说话。”
看来我们要再等几个月才能使用这些新功能,因为OpenAI正在进行进一步的安全测试,但当这些功能到来时,它们将永远改变我们与技术互动的方式。尤其是它还将出现在Windows Copilot中。
最令人印象深刻的时刻之一是Huet在桌面应用程序的(即将推出的)ChatGPT语音部分中打开了摄像头模块。
他展示了一幅简单的埃菲尔铁塔和凯旋门的素描,只是随手画在一张纸上的草图。ChatGPT能够从素描中识别出这两个地标。
然后Huet展示了一张地图,并询问如何从我们在凡尔赛门的位置到达他素描中的地方。ChatGPT能够提供详细的火车路线,包括停靠站和换乘信息。
他本打算用iPhone上的ChatGPT应用程序展示这些功能,但由于场地的技术问题,不得不在笔记本电脑上展示。不过,这也让他即兴展示了如何使用ChatGPT进行编程——毕竟他是开发者体验负责人。
通过与AI共享屏幕,他能够让ChatGPT查看他正在编写的代码,识别其功能并提出改进建议。然后他可以展示输出,并询问如何更改代码以使其看起来或工作得不同——所有这些都是实时进行的。
在巴黎的演示中,Huet还展示了一段新的Sora视频,这是为前一天在巴黎举行的OpenAI开发者活动制作的,展示了城市的多镜头游览。由于Sora视频生成大约需要15分钟,这是整个演示中唯一预先制作的部分。
他将Sora视频交给ChatGPT,并让它总结内容并为视频编写旁白脚本。这时我们看到了另一个OpenAI的产品——语音引擎。由于安全问题,这个工具目前仅供内部使用。
Huet能够实时录制一段20秒的语音样本,让语音引擎克隆并创建一个完美的副本。然后将其应用到Sora视频中,创建一个宣传视频。更进一步的是,他能够快速将语言从英语切换到法语再到日语,只需点击一个按钮。
Sora和语音引擎尚未公开,因为他们正在“努力寻找安全发布的方法”。
另外 Huet 提到 OpenAI 未来的四个主要投资领域:
1. 提升文本智能
2. 降低模型成本并提高运行速度
3. 帮助开发者根据需求定制模型
4. 鼓励构建多模态智能体
开发者应为未来的 AI 模型做好准备,预计模型将会变得更加强大,从而在创新中占据领先地位。 http://t.cn/A6H9ROJ6
发布于 美国
