#DeepSeek是啥#DeepSeek 全称杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 17 日,是一家专注于开发先进的大语言模型(LLM)和相关技术的创新型科技公司。
2024 年 12 月 26 日,该公司宣布上线并同步开源的 DeepSeek-V3 模型,并公布了长达 53 页的训练和技术细节。它以 1/11 的算力、仅 2000 个 GPU 芯片训练出性能超越 GPT-4 的大模型。2025 年 1 月 20 日,DeepSeek 正式开源 R1 推理模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI GPT-4 的 o1 正式版。
其低成本实现高性能模型研发的特点受到关注。例如,与 OpenAI 的 o1 相比,DeepSeek 模型的百万 token 输入成本从 15 美元锐减到 0.55 美元,输出成本则从 60 美元降低到 2 美元。此外,DeepSeek R1 没有使用业内普遍使用的监督微调(SFT)训练范式,而是直接通过强化学习让模型自主进化出复杂的推理能力,包括反思和长链思考等能力,这种方法不仅提高了训练效率,还减少了对昂贵计算资源的依赖。
DeepSeek 的产品发布后引发了广泛讨论和关注。有人认为它是美国对华进行芯片出口限制之下所激发出的创新。在海外 AI 圈,众多科技大佬也对其表示了肯定,如英伟达高级研究科学家 Jim Fan 称“一家非美国公司正在延续 OpenAI 最初的使命——通过真正开放的前沿研究赋能全人类”,A16Z 创始人马克·安德森称 DeepSeek R1 是其见过的最令人惊叹、最令人印象深刻的突破之一,并且是开源的,是给世界的礼物。在应用方面,它功能强大且免费使用,能够帮助用户进行搜索、答疑、写作、翻译等各种任务。
DeepSeek 的出现展示了中国在人工智能领域的技术实力和创新能力,也为人工智能的发展带来了新的竞争和机遇。
发布于 广东
