目前看到对DeepSeek真实水平最全面客观的分析 * 阿波罗新闻网
新闻 > 科教 > 正文
目前看到对DeepSeek真实水平最全面客观的分析

训练(预训练和后训练)深度求索 V3大规模应用了前所未有的多令牌预测(MTP)技术,它增加了注意力模块,能够预测接下来的几个令牌,而非单个令牌。这一技术在训练过程中提升了模型性能,且在推理时可舍弃。这是通过算法创新实现低计算量下性能提升的一个范例。

训练过程中还采用了 FP8精度等技术,不过美国的领先实验室采用 FP8训练已有一段时间。

深度求索 V3也是一个混合专家模型,即由多个擅长不同领域的小模型组成一个大型模型,这是一种新兴的模型架构。混合专家模型面临的一个难题是如何确定每个令牌该进入哪个子模型(即“专家”模型)。深度求索通过实施“门控网络”,以一种平衡的方式将令牌路由到合适的专家模型,且不影响模型性能。这意味着路由效率极高,在训练过程中,相对于整个模型的规模,每个令牌仅需改变少量参数。这不仅提高了训练效率,还降低了推理成本。

尽避有人担忧混合专家模型(MoE)带来的效率提升可能并不显著,节省下来的成本会迅速被投入到构建更大规模的模型中,导致总体投入不会减少。但实际上,MoE提高的效率会加速人工智能的规模化发展。企业都在专注于扩大模型的计算规模,并提升算法效率。达里奥指出,更强大的人工智能模型所带来的经济效益十分可观。

就 R1而言,它极大地受益于强大的基础模型(V3),部分原因在于强化学习(RL)。强化学习主要聚焦两个方面:格式规范(确保输出连贯)以及有用性和无害性(确保模型实用)。在基于合成数据集对模型进行微调的过程中,R1的推理能力得以提升,这与 o1的情况类似。需要注意的是,R1的论文中并未提及计算资源的使用情况,因为提及所用的计算资源会暴露他们实际拥有的 GPU数量比对外宣称的更多。如此大规模的强化学习,尤其是在生成合成数据时,需要大量的计算资源,正如我们在关于规模定律的文章中所提到的。

此外,深度求索使用的部分数据似乎来自 OpenAI的模型,我们认为这可能会对输出数据提取相关政策产生影响。从服务条款来看,这种数据提取行为已经属于违规。未来,一种类似“了解你的客户”(KYC)的机制可能会出现,以杜绝此类数据提取行为。

多头潜在注意力机制(MLA)MLA是深度求索大幅降低推理成本的关键创新。它能将每次查询所需的 KV缓存减少约90%(相较于标准注意力机制)。KV缓存是 Transformer模型中的一种内存机制,用于存储对话上下文数据,减少不必要的计算。

正如我们在规模定律文章中所讨论的,随着对话上下文的增加,KV缓存也会增大,从而带来显著的内存限制问题。大幅减少每次查询所需的 KV缓存,意味着每次查询所需的硬件资源减少,进而降低成本。不过,我们认为深度求索以成本价提供推理服务是为了获取市场份额,实际上并未盈利。谷歌的 Gemini Flash2.0 Thinking价格更低,而且谷歌不太可能以成本价提供服务。MLA尤其引起了美国许多领先实验室的关注,它于2024年5月随深度求索 V2发布。由于 H20相较于 H100具有更高的内存带宽和容量,深度求索在使用 H20进行推理工作负载时效率更高。他们还宣布与华为建立合作关系,但目前在昇腾计算方面的合作成果尚不明显。

我们认为,MLA对利润率的影响最为值得关注,这对整个生态系统意义重大。以下是我们对未来人工智能行业定价结构的展望,同时详细阐述了为何认为深度求索在补贴价格,以及杰文斯悖论初现端倪的原因。此外,我们还将探讨出口管制的影响、中国政府可能对深度求索日益增长的主导地位做出的反应等问题。

对利润率的广泛影响在利润率方面,有一个关键发现:R1并非从技术层面削弱了 o1的进展,而是以更低的价格实现了相当的能力。这在本质上是合理的,现在我们引入一个关于未来定价机制的框架。

提升能力能够带来更高的利润率。这与半导体制造行业的发展极为相似,台积电率先进入新节点(实现新能力)时,由于创造出了前所未有的产品,从而获得了显著的定价权。

其他落后的竞争对手(如三星、英特尔)为了在性价比上达到平衡,会以低于领先者的价格提供产品。对芯片制造商(在此类比为人工智能实验室)而言,幸运的是他们可以调整产能。如果在新模型上能够实现更高的性价比,他们就可以将产能转移到新模型的生产上。旧型号仍会得到支持,但供应量会减少。这与当前人工智能实验室的实际情况以及半导体制造行业的规律高度吻合。

能力的商品化与对更强能力的不懈追求这或许就是能力竞争的未来走向。率先达到新的能力层级,将获得可观的定价溢价;而那些迅速跟上的参与者,只能获得微薄利润。处于能力层级下游的产品,如果能满足特定用例的需求,仍会继续存在。每一代能够追赶上领先能力的参与者将越来越少。

我们见证的是,R1达到了领先的能力水平,却以零利润率定价。这种巨大的价格差异引发了一个问题:为什么 OpenAI的产品如此昂贵?这是因为他们基于最前沿的技术定价,并享受着前沿技术带来的溢价。

我们认为,未来的发展将比领先的芯片制造动态更快。追逐最新的能力意味着持续的定价权(例如 ChatGPT Pro),而落后的能力则意味着更低的定价,此时利润主要来源于为令牌服务的基础设施。

鉴于我们正处于快速的技术周期中,为追求领先的能力,产品更新换代的速度也会加快。只要你能不断拓展能力,开发出创造价值的新功能,就理应获得定价权;否则,在开放模型市场中,你很快就会面临产品同质化的问题。

我们认为,在这种背景下,人们对当前发生的事情存在根本性的误解。我们所描述的情况类似于超高速发展的芯片制造行业,这是世界上资本密集度最高的行业。全球没有哪个行业在研发上的投入比芯片制造行业更多,但与之最相似的现实情况却被认为对支持模型公司的芯片产业不利。

将人工智能令牌与杰文斯悖论相比较,会发现二者有着深刻的历史相似性。起初,人们并不确定晶体管是否能够不断缩小尺寸;而当这一趋势明确后,整个行业便致力于将互补金属氧化物半导体(CMOS)技术的尺寸缩小到极致,并在此基础上构建出各种重要功能。我们目前正处于整合多种思维链(CoT)模型和能力的初期阶段,就像最初对晶体管进行规模化发展一样。虽然从技术进步的角度来看,这可能是一个动荡时期,但对英伟达来说却是有利的。

深度求索补贴推理利润率实际情况是,市场在寻找一个理由,而他们选择了这一点。如果深度求索愿意接受零利润率甚至负利润率,那么他们的产品价格可能会如此之低,但显然,提供前沿令牌服务的价格弹性点要高得多。考虑到深度求索正在进行新一轮融资,他们有动机这样做。

深度求索在推理领域的关键切入点上,打破了 OpenAI的领先利润率。这种领先地位会持续下去吗?我们认为不会——毕竟一个开放实验室展示出了封闭实验室的能力。尽避这一点至关重要,但我们仍需注意,深度求索是一个快速追随者。

我们确实认为,一个更强大的开放实验室(深度求索目前是其中的佼佼者)对新兴云服务提供商和服务供应商来说是非常有利的。无论是开放模型还是封闭模型,计算资源的集中化仍然很重要,但如果基于计算资源构建的上层服务免费提供产品,那么计算资源的价值就有可能提升。更多的资金会流向计算资源领域,而非封闭模型供应商,这意味着支出更多地流向了硬件领域。软件企业也能从中受益匪浅。

H100价格飙升——杰文斯悖论的体现我们已经看到了这一理论的早期迹象。自 V3和 R1发布以来,AWS多个地区的 H100 GPU价格上涨,H200也更难获取。

V3发布后,H100价格大幅上涨,因为 GPU开始以更高的费率实现货币化。更低的成本实现更强的智能意味着更多的需求。这与前几个月 H100现货价格的低迷形成了鲜明对比。

出口管制的影响、深度求索与中国政府从地缘政治的角度来看,深度求索与西方实验室在能力方面的对比,以及出口管制的影响,都值得深入思考。目前已经实施的人工智能扩散管制措施,我们认为不会取消。有消息称,出口管制因深度求索的发展而失败,但这是对出口管制机制的误解。最初,H100被禁止出口,而计算能力相近(但带宽受限)的 H800被允许出口;随后,H800也被禁止,现在仅允许 H20出口。我们在《加速器模型》中提到,尽避需求巨大,但英伟达在1月份取消了大量 H20订单,这可能预示着美国即将出台新的禁令。

在这些法律的实施过程中存在宽限期,深度求索很可能在这段时间内大量囤积所需芯片。需要注意的是,H100自发布以来就被禁止出口。从这个角度来看,出口管制未能完全限制高性能芯片的供应。出口管制的目的并非完全切断中国获取芯片的渠道,而是对整个生态系统进行严格限制,意味着限制数十万甚至数百万芯片的供应,而不仅仅是数万个。

然而,我们预计未来 H20也将被禁止出口,这将进一步限制深度求索获取芯片的能力。

而他们对芯片的需求十分迫切。

深度求索的产能限制深度求索难以满足急剧增长的需求。尽避他们拥有世界上最出色的推理技术之一,但进行架构研发、训练模型,与为数千万用户提供可靠服务是截然不同的挑战。深度求索的注册服务时常关闭,即便开放注册时,R1的响应速度也极慢(不过巧妙的用户体验设计掩盖了这一问题)。

我们本月看到的模型受之前出口管制的影响,存在一定滞后性。随着时间推移,深度求索在扩展模型和服务能力方面将面临越来越大的困难。扩展能力迫在眉睫,中国也深知这一点。

在与深度求索的首席执行官兼创始人会面后的第二天,中国银行宣布未来5年将为人工智能产业链提供1400亿美元(1万亿元人民币)的补贴。该补贴的明确目标是助力中国在科技领域实现完全自主,涵盖基础研究、产业应用和开发等方面。人工智能与机器人、生物技术和新材料是重点关注领域。此外,补贴还包括计算基础设施和数据中心建设,以及为第一代技术设备提供保险和风险管理支持。

我们认为,未来出口管制的影响将更加显著:算法和硬件都将不断进步,美国的实验室能够利用这些创新成果进行扩展,达到中国难以企及的高度。虽然中国可能仍会推出与美国实验室相媲美的模型,但将继续处于追赶地位。

我们也认为,从长期来看,深度求索有可能不再开源模型,尤其是在中国政府对其工作给予更多关注,并致力于保护算法创新的情况下。

责任编辑: 方寻  来源:傅里叶的猫/基本常识 转载请注明作者、出处並保持完整。

本文网址:https://d3lxuwvwo1hamd.cloudfront.net/2025/0201/2168825.html