技术

中国AI初创企业DeepSeek聚焦科研，避免短期商业化

2025年03月01日 05:17

【纬度新闻网】中国人工智能（AI）初创公司DeepSeek在其推理模型R1引发全球轰动一个月后，仍然保持低调，继续专注于科研，而非急于实现商业化。

据香港《南华早报》引述知情人士报道，这家总部位于杭州的初创企业，由40岁的梁文峰创立，并从对冲基金业务中独立出来。自R1模型在硅谷和华尔街引发广泛关注以来，DeepSeek一直对外界保持沉默，仅在开发者社区中进行有限交流。

过去一个月，梁文峰没有发表任何公开言论，也未接受媒体采访。尽管他上周曾短暂出现在中国国家电视台的新闻画面中，出席了由国家主席习近平主持的高规格座谈会，但官方通稿中并未提及他的发言内容。

梁文峰的唯一公开活动，是作为联合作者之一，参与了一篇题为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的研究论文。该论文的15位作者中，至少有12人曾共同撰写R1相关论文，显示梁仍然与DeepSeek的年轻科学家团队紧密合作，推动技术研发。

2025年2月17日，中共中央总书记、中国国家主席习近平会见民营企业代表DeepSeek创始人梁文峰。（央视新闻）

知情人士表示，DeepSeek目前无意进行新一轮融资或启动新的商业合作，而是将全部精力放在优化人工通用智能（AGI）的发展路径上，希望通过最少的资源提升模型的效率和能力。AGI指的是能够达到或超越人类认知能力的人工智能。

“DeepSeek的选择是否明智，以及它能坚持多久，只有时间能给出答案。”该人士表示，“一个关键问题是，人工智能仍然受制于‘规模定律’（Scaling Law），仅靠算法优化很难保持领先优势。”

尽管DeepSeek已成为中国最受瞩目的AI企业之一，公司仍然保持低调，回避外界关注，甚至拒绝投资者的主动接洽。DeepSeek官方仅在X（原推特）、微信和RedNote上设有三个社交媒体账号，并未披露团队架构、内部运营或研究进度。

据路透社本周报道，DeepSeek正在加快推出R1的升级版本R2。原计划于5月发布的R2，可能提前问世。此前，DeepSeek的V2大语言模型（LLM）在2024年5月发布，时隔七个月后推出V3，而R1正是基于V3的推理模型，于2025年1月发布。

与此同时，DeepSeek继续向开发者社区开放其研究成果。本周，该公司履行承诺，公开了三大开源代码库，详细介绍其AI基础设施，展示如何在低成本的情况下构建高性能模型。

这一举措受到了开发者的高度评价，被认为有助于推动AI技术的进步。上周末，DeepSeek的一小部分研究人员低调出席了在上海举办的全球开发者大会（Global Developer Conference）闭门会议。

尽管外界对DeepSeek的商业化前景充满好奇，但梁文峰此前在接受中国科技媒体36氪采访时曾表示，DeepSeek的终极目标是实现AGI，而开源技术正是实现这一目标的重要一步。

“我们的终点是AGI。”梁文峰在去年7月的采访中说，“LLM或许是通往AGI的必经之路。”

至于AGI何时能够实现，梁文峰当时表示：“可能需要两年、五年，甚至十年，但最终，它一定会在我们这一代人见证下实现。”

关注纬度新闻网，更多信息请访问：Twitter Facebook Tumblr Instagram

相关文章

SpaceX飞船接送NASA宇航员，九个月太空之旅即将结束

百度发布新AI模型文心X1和文心4.5

亚马逊Echo所有语音记录将上传云端

中国《政府工作报告》首提“6G”，未来产业布局加速推进