Apple 刚刚在 Hugging Face 上发布了 FastVLM
可以实时理解视频流
各种端侧AI可以考虑用这个做点东西,一些智能玩具配上摄像头之后就能理解这个世界,因此会变得更聪明。
> 比同等大小的 VLM 快 85 倍,小 3.4 倍
> 较大模型的 TTFT 速度提高 7.9 倍
transforms.js 和 WebGPU 也支持,可直接在浏览器中实时运行 http://t.cn/AXvg5zfd
发布于 广东
Apple 刚刚在 Hugging Face 上发布了 FastVLM
可以实时理解视频流
各种端侧AI可以考虑用这个做点东西,一些智能玩具配上摄像头之后就能理解这个世界,因此会变得更聪明。
> 比同等大小的 VLM 快 85 倍,小 3.4 倍
> 较大模型的 TTFT 速度提高 7.9 倍
transforms.js 和 WebGPU 也支持,可直接在浏览器中实时运行 http://t.cn/AXvg5zfd