DeepSeek-R1发布引发人工智能行业关注

2025年01月26日 15:52

【纬度新闻网】中国AI企业DeepSeek近日宣布正式发布最新人工智能模型DeepSeek-R1，并同步开源模型权重，引发全球科技界高度关注。DeepSeek-R1在后训练阶段大规模应用了强化学习（RL）技术，即便在极少标注数据的条件下，也显著提升了推理能力。

根据测试数据，DeepSeek-R1在数学、代码和自然语言推理等任务中性能比肩OpenAI的o1正式版。在算法类代码（Codeforces）和知识测试（GPQA、MMLU）中的得分略低于o1；在工程类代码（SWE-Bench Verified）和美国数学竞赛（AIME 2024, MATH）项目上，则超越了o1。

DeepSeek-R1在训练过程中展现了“涌现行为”，例如自我反思、评估先前步骤、自发寻找替代方案等。尤其是在一次数学任务中，该模型甚至出现了类似人类的“尤里卡时刻”，主动为问题分配更多时间重新思考，表现出拟人化的反思能力。

Meta的工程师在社交平台Blind中表示，Meta的生成式AI部门正陷入恐慌，称“Llama 4在基准测试中已经落后”。英伟达高级研究科学家Jim Fan指出，DeepSeek-R1可能是首个成功展示强化学习飞轮效用的开源项目，加州大学伯克利分校教授Alex Dimakis则评价其为“向OpenAI最初使命致敬的最佳候选”。

DeepSeek-R1开源模型权重并公开完整训练细节，以开放姿态挑战闭源系统的技术优势。此外，其API服务的定价极具竞争力：输入tokens，每百万1元（缓存命中）/4元（缓存未命中）；输出tokens，每百万16元，仅为OpenAI o1的3%。

DeepSeek-V3的训练成本仅为600万美元，而同类模型Meta的Llama-3405B的训练成本高达6000万美元，差距巨大。

AMD宣布将DeepSeek-V3集成至其Instinct MI300X GPU芯片产品线，试图打破英伟达与OpenAI在AI行业的主导格局。同时，市场人士分析认为，DeepSeek低成本的训练优势或将削弱对英伟达AI芯片的需求，对英伟达的战略布局构成潜在威胁。

DeepSeek是中国量化巨头幻方量化的子公司，其母公司在AI领域的深度布局为DeepSeek的发展提供了强大的底层支撑。幻方量化创始人梁文锋凭借DeepSeek的表现迅速奠定了在AI行业的地位。

梁文锋早年毕业于浙江大学信息与电子工程学专业，并于2015年创立幻方量化。2021年，幻方量化成为中国首家突破千亿规模的量化私募，被誉为“四大天王”之一。公司通过搭建“萤火”算力集群，为DeepSeek的突破奠定了坚实基础。

关注纬度新闻网，更多信息请访问：Twitter Facebook Instagram

相关文章

NASA“好奇号”火星发现：碳酸盐矿物揭示古代火星宜居环境

华为推出昇腾920 AI芯片应对美禁令，CloudMatrix 384挑战英伟达旗舰

特朗普政府拟限制DeepSeek获取美技术

美联邦法官裁定谷歌非法垄断在线广告技术市场