宝玉xp 24-04-12 08:55
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

推荐视频:什么事情被这些公司隐藏了?- Rabbit R1 - Humane AI Pin

引言

有两款 AI 智能助手设备即将上市, 一种是 Rabbit R1,另一种是 Humane AI Pin。这两家公司都对他们的产品功能做出了一些非常引人注目但又令人质疑的声明。他们展示了这样的例子, 只要和设备说两三句话, 它就能为你的全家预订一次去欧洲的旅行, 这真是太疯狂了。他们还展示了其他例子,比如向设备展示一把杏仁, 它就能计算出卡路里或者其中的蛋白质含量。你不需要使用手机,也不需要启动任何应用程序。这些设备的设计理念是使你的生活变得更加轻松。你可以利用 AI 来帮助你进行一些维修工作, 你也可以进行实时翻译。他们甚至暗示, 这些设备有朝一日可以替代你的手机。现在,随着这些设备即将发货的日期越来越近, 我忍不住想要更深入地了解这些公司。为什么这些设备离发货只有几周的时间, 却还没有人真正接触过它们呢?这真的有点奇怪。所以我进行了一些研究, 我开始觉得我们可能被忽悠了。

Rabbit R1 和 Humane AI Pin 的介绍

好的,我首先要讲的是 Rabbit R1。这是两者中更受欢迎的一个。这个设备售价 200 美元,外观可爱。它采用了一些青少年工程设计的元素, 设备上有一个小屏幕,一个相机,一个模拟滚轮,一个扬声器,一个按钮。它的硬件非常简单。拍摄这个视频时, 据说他们的预订单已经超过了 10 万台。这个设备火得一塌糊涂。然后是另一台设备,Humane AI Pin, 相比之下,这是一台售价 700 美元的设备,还需要每月支付 25 美元的订阅费。但这也是一个 AI 助手。不过,它没有屏幕, 而是使用一个投影仪将用户界面的图像投影到你的手上。这个功能看起来很酷,可能稍微有点噱头, 但这个设备并不是手持的。它是一个可以固定在你的衣服上的别针。他们还没有透露销售数字, 但根据在线信息来看, 这个产品的发布并没有像 Rabbit R1 那样成功, 可能是因为它的 700 美元的售价以及其每月的订阅费用。

这些设备能做什么?

你看到这两样东西后可能会有的第一个问题是, 它们到底能做什么?这是一个非常重要的问题,对吧?但每次我看到这些公司回答这个问题时, 他们都在回避。他们谈论的都是一些 AI 的热门词汇,比如上下文计算。我想他们之所以不愿意回答这个问题可能是因为答案并不让人舒服。我认为,这些设备的功能目前来看, 基本上就是你的手机所能完成的, 只不过它们的执行效果远不如手机。换句话说,手机的表现更出色, 你可以自由地使用它。比如呢?告诉我你会用它来做些什么, 你可以用它来做几乎任何事情, 比如发送短信, 或者查看你收到的任何通知, 以及你日常会做的所有事情。但是,如果没有屏幕, 我怎么知道有人给我发短信呢?其实呢,你的手机功能更全面,性能更强大, 而且更有保障,因为这些 AI 助手设备主要是依赖于语音交互来完成任务。你不能在这些设备上看视频或者玩游戏。更重要的是,你还必须随身携带你的手机, 这就意味着你需要同时管理两个设备。然而,这些 AI 助手设备确实是以 AI 为基础构建的, 他们的操作系统从头至尾都是基于 AI 的。因此,你可以通过语音命令与这些设备交互, 它们可以执行一些任务。比如,下次日食是什么时候,最佳观看地点在哪里?下一次的全日食将在 2024 年 4 月 8 日出现。其中观看的最佳地点之一是墨西哥的 Nasus Durango。这个设备能够给你答案, 它能执行一连串的任务在手机上可能需要点击五次甚至十次才能完成。这样看起来是有其价值的,对吧?如果你只需要用自然语言和它交流, 这个设备就能完成任务。

为什么这些设备不是应用程序而是硬件?

然而,接下来的问题是,如果这个设备能做到这些, 那为什么它不是一个应用程序?为什么它是一种需要购买的硬件设备, 而不是你可以从应用商店或 Play 商店下载的软件?这个问题非常重要。每次这些公司被问到这个问题时,他们都会避而不答。我认为他们就是不愿意直接承认它为什么是一种硬件的原因。事实上,有一些原因可以解释。首先, 要实现我们正在讨论的这种功能强大的应用, 它需要对操作系统具有更高级别的访问权限。你需要访问密码,信用卡信息, 还需要访问麦克风,相机,GPS 等, 所有这些只需轻轻一按。开发者无法获取这些功能,这是理所应当的,对吧?苹果和谷歌, 他们不可能轻易就给开发者这样的访问权限。至少现在不会。但另一个原因是,即使在未来, 如果苹果和/或谷歌决定, 我们要允许应用开发者一键获取这些权限, 他们仍在积极开发属于自己的版本。当他们的产品问世时, 它将拥有出色的硬件集成和与合作伙伴的整合等。他们的自家应用将会彻底打败任何第三方应用。所以,你不应该去尝试应用。但主要原因,是吸引眼球。因为,如果这只是一个应用程序,那么没人会在意。如果有一款应用, 能完全实现像 Rabbit 或 AI Pin 这样的功能, 但只是手机上的一个应用, 你需要每月支付 25 美元, 真的,没人会在乎。但因为它是一种精美的硬件,特别是像 Rabbit 这样, 我们才对其产生了讨论。你想象一下, R1 引起了人们的注意,一半的原因是因为它的外观。它有独特的设计风格。这并非是官方的合作产品。但它的设计语言中充满了 T.E.的独特元素。所以你现在知道这是什么,以及为什么它不仅仅是一个应用程序。

语音交互的问题

我们来讨论一下问题。我首先要提的问题是, 这两种设备主要依赖语音指令来运行。"今晚我和肯应该去哪里吃晚餐呢?""这里有一些推荐给你。寿司 Ron, 四川餐厅和大象寿司。"它们主要依靠语音作为与这两个设备交互的方式。但是现在,我们使用手机和各种应用时, 经常会在屏幕上尽心操作, 对手机上发生的事情做出实时反应。不论你在做什么, 比如订餐,或者尝试预定酒店或飞机票, 你都在做决策,根据屏幕上看到的评论, 吸引人的图片,或者价格信息,调整你的想法。这些都会影响你接下来的点击和操作。比如使用 Uber 时,我经常会调整我的位置, 比如让司机在街对面接我, 因为这样可以节省我五分钟的时间。我们在使用应用程序时,经常通过各种操作与之交互, 因为应用程序是为了人机交互而设计和优化的。但是如果去掉所有这些操作, 只剩下语音命令, 再加上一个小屏幕用来微调, 这并不是我们习惯的使用方式。一旦出现需要我们评估选项的情况, 我认为整个语音交互的方式就会失去效果。确实遗憾, 但我认为这就是人们目前与在线决策互动的方式。比如,我的妻子会花费整整两三天的时间来精心策划一次假期, 我们应该做些什么?你觉得 AI 可以仅通过几句语音指令就完成吗?哥们,得了吧, 这太不现实了。而且我认为他们以这种方式展示是在误导人。另外, 从他们的一些演示和发布的视频中可以看出, 人们在与这些试用设备互动时, 他们会剪辑掉等待时间。就像他们会提出一个问题, 比如"谁设计了 Williamsburg 桥", 视频制作者并不保留完整的播放过程, 以便观众能真实地感受到事物响应所需的实际时间。相反,他们会剪辑视频, 只保留响应发生的那一刹那。这实在是太奇怪了。等待时间, 这种延迟, 是决定这些设备到底有多好或有多实用的重要因素。有人可能会说,好吧, 这只是预生产阶段的工程问题, 现在的等待时间并不能代表未来的产品会是什么样。好的,贴出一些文本。我们为何要通过剪辑来掩盖这些设备的延迟呢?我真的很不喜欢这种做法。

Humane AI Pin 的问题

另外, 我还想谈谈有关 AI 设备这个话题。我记得在一个 TED 演讲中,他们首次展示了这项激光投影技术, 那真的很酷,对吧?它看起来可以做得非常小巧,但现在产品出来了, 结果发现它其实是个相当厚重的设备。除非你穿着厚实的衣物, 或者你穿着非常贴身的衣服, 否则这个设备在使用时会晃来晃去。现在, 对我来说很奇怪的是, 离他们的发货日期还有几周, 却仍然没有让人们现场试用这个设备。就像你去参加 MWC,你是不能亲自体验这些设备的。你只能眼睁睁看着他们的员工为你演示产品。这真的很奇怪。此时此刻,人们应该已经对这些设备佩戴在身上的感觉有所了解了。有报道提到,设备会因为激光投影器使用过度而过热。这就是当前,离发货日期仅有几周的产品状态,真的非常奇怪。我个人认为,激光投影的概念很酷, 但我担心这只是一个噱头。我个人认为,如果那个功能真的有吸引力, 如果人们真的期待一个可以将屏幕投影在手上的激光项目器, 那现在我们应该是可以在商店买到的。这种技术是可以现在就实现的。例如,可以有一个设备, 无线将你的手机屏幕投影到你的手上。这种设备是可以制造出来的, 但现实中却不存在,因为我认为人们并不真的需要这样的设备。然而,Humane 告诉我们,你刚刚描述的那种设备并不理想, Dave。但如果我们在它上面加入 AI,让它可以用语音操作,那它就会变得很好。我对此表示怀疑, 我真的不认同这个观点。

Rabbit R1 的问题

接下来,我想专门谈谈 Rabbit R1。这个设备有一些特别之处, 它有一个被称为 LAM 的大型行为模型。这也是我对他们试图用 R1 实现的目标最有信心的一个功能。如果要简单描述什么是大型行为模型, 那就是一个可以根据你的指示执行动作的 AI 模型。它不仅可以对语言和文本等做出反应, 还可以执行像鼠标点击和滚动这样的动作。而且,它可以像语言模型一样来进行训练。比如,如果你向这个 LAM 展示了如何在 Photoshop 里编辑一张照片, 然后你让 5000 个人也向这个 LAM 展示他们是如何做的,这个模型就会学习。然后在未来, 它会根据所学来做出决策,LAM 就会说:"嘿, 如果你想制作一张温暖的照片, 这就是你应该做的。"我看到别人在 Photoshop 里的操作, 点这儿,滑那儿,这就是一个大型行为模型的应用, 虽然这只是对它最基础的描述。我认为这个想法非常酷, 但他们在演示中展示的,首先, 都是在有 API 的服务上使用这个大型行为模型。我甚至不知道他们是否真的构建了像演示中那样运作的大型行为模型。我想, 那些预订这台设备的人可能认为这些大型行为模型一开始就能用。但我并不这么认为, 怎么可能呢?我想,预订这台设备的那 100,000 人, 他们将会是这些模型的训练者, 让它们在未来能够做出各种操作。所以,如果你买了一台设备, 期待它能做出除了简单的 GPT 指令或困惑度指令以外的其他事情, 我认为它做不到。怎么可能呢?它现在还没有训练数据, 至少还没有足够的数据让它真正有用。这点,我觉得有些误导人。他们是一家公司, 需要展示产品的最佳潜力,这我可以理解。但是,每次我看到那些演示, 看到那些示范,我就想说,别开玩笑了, 这玩意儿不可能只通过三次语音提示就能可靠地帮你预订一个假期。这是不可能的。还有就是错误,比如 AI 的误判断。现在,如果 AI 犯了一个错误,比如中途做出了错误的判断, 你可能就会看到一个有 12 个手指的人。我们会笑出来,认为这非常有趣。但是,如果你在使用大型行为模型时出现了错误的判断, 那就意味着你可能会点 50 份披萨,或者预订一次超预算 2 万美元的假期。这是非常真实的情况,因为这些都是由行为模型驱动的。我觉得他们不仅在市场上过度宣传这个产品, 而且现在就拥有这样的能力实在是不负责任。这个产品应该还处于非常早期的测试阶段, 人们应该明白现在还无法实现这些功能。

总结

我要强调的一点, 我想你们在听完我对此的抱怨后也会有同样的感觉, 就是我们必须明白, 对于我们现在能够接触到的所有技术, 我们每天使用的所有东西, 都是由许多公司尝试了许多奇特的事情后得出的, 而大多数尝试都以失败告终。但最终的结果却是为消费者提供了出色的产品。所以,我认为这两种产品也是如此,这是他们的成功之路的一部分。我尊重他们,也希望他们能够成功。我不希望看到他们失败。我希望看到这些事情能按照他们设想的方式成功实现。但是现在的市场营销方式实在是过于乐观,他们两者都是如此。我真的不能理解, 他们怎么能负责任地发布这样的市场营销材料呢?就这样, 希望你们喜欢这个视频。

视频来源:http://t.cn/A6TC3Gvx http://t.cn/A6TC3Ios

发布于 美国