中国AI初创企业DeepSeek聚焦科研,避免短期商业化

【纬度新闻网】中国人工智能(AI)初创公司DeepSeek在其推理模型R1引发全球轰动一个月后,仍然保持低调,继续专注于科研,而非急于实现商业化。
据香港《南华早报》引述知情人士报道,这家总部位于杭州的初创企业,由40岁的梁文峰创立,并从对冲基金业务中独立出来。自R1模型在硅谷和华尔街引发广泛关注以来,DeepSeek一直对外界保持沉默,仅在开发者社区中进行有限交流。
过去一个月,梁文峰没有发表任何公开言论,也未接受媒体采访。尽管他上周曾短暂出现在中国国家电视台的新闻画面中,出席了由国家主席习近平主持的高规格座谈会,但官方通稿中并未提及他的发言内容。
梁文峰的唯一公开活动,是作为联合作者之一,参与了一篇题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的研究论文。该论文的15位作者中,至少有12人曾共同撰写R1相关论文,显示梁仍然与DeepSeek的年轻科学家团队紧密合作,推动技术研发。

知情人士表示,DeepSeek目前无意进行新一轮融资或启动新的商业合作,而是将全部精力放在优化人工通用智能(AGI)的发展路径上,希望通过最少的资源提升模型的效率和能力。AGI指的是能够达到或超越人类认知能力的人工智能。
“DeepSeek的选择是否明智,以及它能坚持多久,只有时间能给出答案。”该人士表示,“一个关键问题是,人工智能仍然受制于‘规模定律’(Scaling Law),仅靠算法优化很难保持领先优势。”
尽管DeepSeek已成为中国最受瞩目的AI企业之一,公司仍然保持低调,回避外界关注,甚至拒绝投资者的主动接洽。DeepSeek官方仅在X(原推特)、微信和RedNote上设有三个社交媒体账号,并未披露团队架构、内部运营或研究进度。
据路透社本周报道,DeepSeek正在加快推出R1的升级版本R2。原计划于5月发布的R2,可能提前问世。此前,DeepSeek的V2大语言模型(LLM)在2024年5月发布,时隔七个月后推出V3,而R1正是基于V3的推理模型,于2025年1月发布。
与此同时,DeepSeek继续向开发者社区开放其研究成果。本周,该公司履行承诺,公开了三大开源代码库,详细介绍其AI基础设施,展示如何在低成本的情况下构建高性能模型。
这一举措受到了开发者的高度评价,被认为有助于推动AI技术的进步。上周末,DeepSeek的一小部分研究人员低调出席了在上海举办的全球开发者大会(Global Developer Conference)闭门会议。
尽管外界对DeepSeek的商业化前景充满好奇,但梁文峰此前在接受中国科技媒体36氪采访时曾表示,DeepSeek的终极目标是实现AGI,而开源技术正是实现这一目标的重要一步。
“我们的终点是AGI。”梁文峰在去年7月的采访中说,“LLM或许是通往AGI的必经之路。”
至于AGI何时能够实现,梁文峰当时表示:“可能需要两年、五年,甚至十年,但最终,它一定会在我们这一代人见证下实现。”