【苹果Vision Pro头显AI助手来袭:会调酒、能打麻将 甚至能开飞机】要是苹果Vision Pro头显加上AI助手,有多强?南洋理工大学与微软雷蒙德研究所带来一个震撼概念演示。人在飞机上,不知道怎么降落?带上头显把画面传给AI,就能一步一步教你操作。这个多模态AI助手名叫Otter(水獭),以视频为输入,能完成多模态感知、推理、和上下文学习,也经过专门的遵循指令训练。
还有更贴近生活一些的场景,在麻将桌上,Otter分分钟教你胡几次大的。调酒师小哥忘记配方时,也能分分钟化解尴尬。总之,它可以实时识别现实场景并回答人类提问,而且简直就是个全能选手。训练过程中,团队专门使用了适用于AR头显的第一视角视频,宣传上也明示就是为苹果头显准备的。Otter在各测试项目上的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出十余个百分点。
发布于 北京
