新模型DeepSeek-OCR开源

【依旧主打token性价比，新模型DeepSeek-OCR开源】
10月20日，DeepSeek-AI团队发布《DeepSeek-OCR：Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法。Hugging Face页面显示，该模型的参数量为3B。
在OmniDocBench测试中，DeepSeek-OCR使用100个视觉token就超过了GOT-OCR2.0（每页256个token），而使用不到800个视觉token便优于MinerU2.0（平均每页超过6000个token）。
在实际生产中，DeepSeek-OCR可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据。（IT之家）