【环球时报记者 刘扬 环球时报特约记者 任重】近日,一个名为DeepSeek(深度求索)的中国AI初创公司成为国内外人工智能(AI)大模型领域热议话题。在不到30天的时间里,DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖大模型相当。同时,DeepSeek与外国大模型巨头闭源的路径不同,采用开源模式。中国这家公司的发展模式与成果让硅谷高度关注,多家西方主流媒体纷纷发文感叹“中国AI模型震惊硅谷”,甚至引发了国内外多家知名厂商与机构连夜尝试复现DeepSeek成果的“热潮”。DeepSeek的发展具有哪些特点?是否对国产大模型的发展路径以及创新思路带来一些启示?《环球时报》记者26日采访了多位人工智能领域的专家。
“OpenAI o1经济实惠且开放的竞争对手”
DeepSeek公司本月20日发布大模型R1,并表示“在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版”,引发外媒特别是美国媒体高度关注这家中国公司及其最新大模型成果。
“中国便宜、开放的人工智能模型 DeepSeek让科学家兴奋不已。”《自然》杂志24日以此为题称,中国研制的大语言模型DeepSeek-R1令科学家们兴奋不已,它被认为是OpenAI o1等“推理”模型的经济实惠且开放的竞争对手。
《纽约时报》24日以“中国人工智能初创企业DeepSeek如何与硅谷巨头竞争”为题报道称,能做到上述成绩本已是一个里程碑,但DeepSeek-V3大模型背后的团队描述了一个更大的进步。他们在训练该系统时只用了先进人工智能公司所用的高度专业化计算机芯片的一小部分。中国工程师称,他们只花了约600万美元以及约2000个英伟达专用芯片就完成了新模型的训练,无论资金以及芯片使用规模都远低于世界领先的人工智能公司。
“这不是中国追赶美国的问题,而是开源追赶闭源的问题”
DeepSeek备受关注,除了性价比超高,还有另一个原因:开源。连日来,网络上已经出现了一波复现DeepSeek的热潮。加州大学伯克利分校、香港科技大学、知名人工智能公司HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,甚至只用几十美元的成本就能完成复现。
美国红迪网25日称,中国DeepSeek的模型是开源的,这是令人兴奋的真正原因。基本上,他们将制造这些东西的知识免费提供给全世界,确保没有人能够真正垄断它。中国公司基本上与美国公司的做法完全相反。你能看到OpenAI、Anthropic或谷歌开源任何强大的模型吗?到目前为止,我们从他们那里得到的只是皮毛。Meta是唯一一家对开源大模型做出重大贡献的西方大公司,但他们将来可能不会开源其最好的模型。被誉为“深度学习三巨头”之一的Yann LeCun(杨立昆)在社交平台X上表示,这不是中国追赶美国的问题,而是开源追赶闭源的问题。
北京邮电大学人机交互与认知工程实验室主任刘伟在接受《环球时报》记者采访时表示,大模型三大核心要素是数据、算法、算力,Deepseek使用较少的数据、较少的算力,通过算法的优化实现了与国外知名大模型等效甚至更优的效果,这是非常值得肯定的。同时还要看到它是开源的,可以供全球希望使用这一大模型的用户来使用和复现。
清华大学新闻学院、人工智能学院教授沈阳26日对《环球时报》记者表示,DeepSeek的大模型是全球开源大模型当中相当优秀的一款,是混合使用多种先进技术实现超越传统预训练技术的创新突破。他结合自身使用的感受谈了这款大模型的几个优点。一是它把目前提升AI大模型能力的方法进行了工程上的微创新组合。二是DeepSeek公布了相关论文,整个过程可以让大家去复现,这就是开源的力量。三是DeepSeek的推理过程,有自身的创新。沈阳作为AI领域的研究者,使用AI超过3万次,他认为,DeepSeek跟美国的AI相比,还有很多中国元素在里面,如中国网络当中的一些热词。
提升推理能力
对于Deepseek的发展模式为国内大模型发展以及创新提供了怎样的重要启示,刘伟认为,“创新不是规划出来的,需要市场、专业机构通过长时间的研究来另辟蹊径,尤其是一些长期关注垂直领域的商业公司可以通过对技术路径的反思、对市场发展的嗅觉,来找到更好的创新点。OpenAI最初的发展过程也是这样,并不是美国官方与科技巨头砸重金规划出来的。”
日前,OpenAI、软银等公司公布了“星际之门”计划,要在4年中砸5000亿美元来加速美国人工智能的发展。刘伟强调,这种集中人力、财力、物力,再给予政策倾斜的发展路径,在未来研究方向与研究结果方面都存在一定的不确定性。“还是要鼓励国内更多商业公司、科研院所聚焦自身的研究领域,找到适合自己的创新与发展路径。”
沈阳表示,在AI发展历史中,新的突破往往是由不显眼的工程创新与科学探索共同驱动的。这种趋势在DeepSeek的成果中得到了深刻体现,它不仅突破了传统的训练方式,也为推理能力的提升带来了全新的视角。“尽管它的成就尚处于一个阶段性水平,但其工程贡献和理论创新已经为未来的AI发展奠定了重要基础。”沈阳认为,DeepSeek团队在基础模型预训练方面的贡献,不仅是在技术层面上的突破,更在于其工程方法的精细与高效。DeepSeek的这种工程创新,标志着AI模型训练的一个全新阶段,这不仅降低了开发成本,也为其他公司提供了可借鉴的路径。同时,DeepSeek的核心创新还体现在推理能力的提升上,尤其是通过相关算法创新来推动模型的自然推理能力,证明了AI领域的一种潜力——无须大量昂贵的思维链标注,模型依然能够涌现出推理能力。
沈阳认为,DeepSeek的成功也让我们看到了未来AI产业的发展方向:更多的开源创新、硬件与软件的深度协同,以及对模型开发成本与推理能力的不断优化。同时,我们也必须看到,DeepSeek虽然取得了显著的阶段性成果,要想在未来发展道路上实现进一步突破,仍然需要面对许多深层次的挑战,例如需要更多的原创性训练数据和算法创新。