DeepSeek:一种范式转变,这对人类意味着什么

Deepseek 中国安全文件 - 2025年1月28日,在北京,一部智能手机屏幕上显示了DeepSeek应用程序页面。(美联社照片/安迪·黄,文件)版权 2025年美联社。保留所有权利在2025年1月20日之前,DeepSeek这只巨鲸是不可见的。然后在1月20日,蓝鲸向全世界展示了自己的身影。那次撞击在全世界引发了震动。

DeepSeek-R1的发布立即使几家硬件和软件公司的市值大幅下滑,这些公司曾因投资者认为的美国卓越而受到支持。 withholding 最新的芯片和人工智能知识产权从中国被认为是应该遵循的战略。结果是 错误的。 这正是跨越式发展的素材。尤其对于像中国这样的制造和设计强国。具有讽刺意味的是,DeepSeek的最新模型是可以免费使用的。他们甚至在自己的服务器上免费运行它。

通过参数和训练数据的扩展开发通用大型语言模型导致了许多突破。2022-23年ChatGPT-3.5和4.0的发布向公众释放了AI的通用潜力。这种方法也大大增加了成本,因为计算和数据需求推动了更大更好的处理器的出现。在2023年底和2024年,甚至现在,建设耗电量大的数据中心被认为是提高模型性能的唯一途径。限制对计算和最新芯片的访问被认为会限制中国作为这些强大模型来源的能力。随着DeepSeek,这一范式发生了转变。

像Nvidia这样的公司,其股票在公告后受到重创,但此后已恢复并蓬勃发展。全球市场却没有吸取教训。最糟糕的情况可能尚未到来,因为受到AI及其应用上升的推动的公司,正被新方法的结合以及进行训练和推理所需计算量的减少拉回现实。

沉没成本和自身强大经济支持者的转换成本阻碍了长期视角,使得美国的人工智能发展受限。成功滋生自满和对成功模型的固守。在人工智能这个快速发展的领域,固守算法、流程和实践是致命的。DeepSeek 表明,仅仅增加计算能力和数据并不能带来指数级的进步。这是许多领域的教训,常常被一个过度使用但错误的格言所忽视:“这次不同。” 创新遵循熟悉的模式;先慢后快。

更多为您## 效率

DeepSeek的训练和运行成本远低于其他模型。在最近的一次演示中,显示DeepSeek的成本为600万美元,而Meta的开源模型Llama的成本为6亿美元(。成本是前者的百分之一。其他模型的成本,包括ChatGPT,更是高得多。成本节约得益于DeepSeek在强化学习中的自主发现以及蒸馏训练。此外,该模型在生成中文方面非常高效。截至三个月前,大量中国公司通过订阅DeepSeek加入了人工智能革命。作为国家冠军,政府的产业政策支持DeepSeek。

RL作为一种训练方法是在阿默斯特大学发明的。2024年ACM图灵奖的获得者,Andrew Barto和Richard Sutton是经典强化学习技术的发明者。对于LLMs和其他大型模型,这种方法属于监督学习。模型通过反馈进行优化,传统上来自人类,这被称为RLHF )带有人类反馈的强化学习(。 这被称为监督微调。人类是监督者。DeepSeek R1的创作者发布的论文详细介绍了他们如何修改RL。

任何涉及大规模人类参与的事情都需要大量资金。消除人类参与使训练变得更便宜。一个模型的版本用于微调另一个模型。换句话说,一个模型充当监督者,而另一个则被训练。新公司如MiniMax-M1的到来进一步体现了这一转变。这些技术将超越使用传统扩展方法创建的模型。

DeepSeek-R1 通过利用多种策略的演变而有效。基于现有技术的多种新颖方法的结合使得训练和推理在时间和资源上变得高效。更多细节可以在本文中找到。简而言之,创建和运行大型语言模型的各个方面都为了成本和时间效率而发生了改变、增强或重构。

MiniMax-M1 系列

MiniMax-M1声称已将DeepSeek-R1训练的成本削减90%。他们以50万美元的成本训练了他们的模型。与此相比,DeepSeek-R1的成本为600万美元,而LLaMa的成本则为6亿美元。对DeepSeek和MiniMax所公布的数字存在疑虑。

效率通过进一步优化RL实现了所谓的闪电注意力。这主要适用于确定性问题,例如数学和逻辑推理,以及诸如编码的长上下文问题。Minimax也可以通过HuggingFace这一开源AI平台获得。

隐私

人们担心DeepSeek正在收集私人数据供其自身使用。这种现象在AI和社交媒体的世界中普遍存在。与DeepSeek或其他私人公司共享私人数据的原因在于,这些数据将用于完善模型。对于DeepSeek或其他中国公司,人们担心数据会到达中国政府。私人AI公司,即使是在美国的公司也是如此,只不过如果法律强迫它们,它们会与美国政府分享这些数据。在此情况下,这种情景更加令人不安。如果政府能够在没有搜查令的情况下搜索我们的身体、我们的家,甚至我们的思想,那么第四修正案将会被抛到一边。

要了解更多关于DeepSeek的风险,请阅读Hidden Layer的这篇分析。由于Hidden Layer的商业模式基于这些分析,最好仔细查看分析,并与他们在其他开放模型上的工作进行比较。

开源人工智能模型

开放源代码国际)OSI(对开放源代码人工智能有一个定义。目前是1.0版本,可能会修订。与软件的开放源代码定义一样,它允许用户在没有任何限制的情况下使用、观察、修改和分发。人工智能模型在很大程度上依赖于其训练数据。人工智能的使用涉及推理,消耗资源。训练的支出与推理的费用是分开的。在开放源代码软件的经典定义中,源代码对任何用户都是可用的,允许使用、观察、修改和分发。在严格的开放源代码人工智能解释中,源代码应包括用于训练模型的数据。然而,这可能并不实际,也不属于开放源代码国际对开放源代码人工智能的定义。

这与OSI对开源软件的指导有很大不同。另一个不同之处在于模型权重和超参数的可观察性。在学习阶段,模型权重会被细化。模型权重体现了模型当前的形式,凝聚了模型所经历的所有训练。超参数控制学习设置的初始配置。在开放模型中,模型权重和模型参数是开放的。

开源AI模型可以称为开放权重模型。许多来自中国的模型都是开放权重模型,包括Qwen )来自AliBababa(。这场竞争也迫使OpenAI发布了一个开放权重模型。这是gpt-oss基础模型,有两个变体。

未来

我们尚未深入探讨多模态提示和多模态生成背后的技术。所谓多模态,不仅包括文本,还包括图像、音频和视频。MiniMax和DeepSeek都具备这些能力。显然,限制对硬件和专业知识的访问无法阻止真正的创新。这种约束也带来了多次范式转变,使得AI的开发成本更低,所需的硬件和电力资源更少,创造了一个去中心化和民主化的未来,我们能够在普通硬件上微调和运行模型。这些发展给了我们希望,让我们能够控制并利用这些能力来帮助人类,而不是伤害我们自己。

DEEPSEEK-3.18%
H2.54%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)