Apple 刚刚在 Hugging Face 上发布了 FastVLM 可以实时理解视频流各种端侧AI可以考虑用这个做点东西，一些智能玩具配上摄像头之后就能理解这个世界，因此会变得更聪明。> 比同等大小的 VLM 快 85 倍，小 3.4 倍> 较大模型的 TTFT 速度提高 7.9 倍 transforms.js 和 WebGPU 也支持，可直接在浏览

Apple 刚刚在 Hugging Face 上发布了 FastVLM
可以实时理解视频流
各种端侧AI可以考虑用这个做点东西，一些智能玩具配上摄像头之后就能理解这个世界，因此会变得更聪明。

> 比同等大小的 VLM 快 85 倍，小 3.4 倍
> 较大模型的 TTFT 速度提高 7.9 倍

transforms.js 和 WebGPU 也支持，可直接在浏览器中实时运行 http://t.cn/AXvg5zfd

发布于广东