近5万美元不翼而飞!首个被人类骗钱的AI诞生了 * 阿波罗新闻网
新闻 > 科教 > 正文
近5万美元不翼而飞!首个被人类骗钱的AI诞生了
世界上第一个被人类骗走近5万美元的AI,刚刚出现了!巧舌如簧的人类,利用精妙缜密的prompt工程,成功从AI智能体那里骗走了一大笔钱。看来,如果让现在的AI管钱,被黑客攻击实在是so easy。那如果AI进化成AGI呢?可惜,一位研究者用数学计算出,至少靠Scaling Law,人类是永远无法到达AGI的。

众所周知,著名数学家陶哲轩曾为LLM提供了一些训练数据作为参考。但这并不意味着LLM现在能够在所有数学问题上达到他的水平,因为底层模型可能并不具备相应的知识深度和推理能力。然而,这确实意味着LLM的回答质量显著优于一般网络用户的回答水平。

因此,所谓的“标注者”实际上可以是各自领域的专业人士,例如程序员、医生等,而并非随意从互联网上招募的人员。这取决于 LLM 公司在招聘这些数据标注人员时的标准和策略。

如今,他们越来越倾向于雇佣更高技能的工作者。随后,LLM 会尽其所能模拟这些专业人士的回答风格,从而为用户提供尽可能专业的回答。

靠Scaling Law,我们会拥有AGI吗?

说了这么多,我们心心念念的AGI究竟什么时候才能实现呢?

LeCun居然一反常态地说,AGI离我们只有5到10年了。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

现在,他已经和奥特曼、Demis Hassaibis等大佬的说法一致了。

但是继续沿用目前的发展路径,肯定是不行的。

不仅LeCun认为“LLM的路线注定死路一条”,最近也有一位AI研究者和投资人Kevin Niechen发出了长篇博文,用数学公式推演出:为什么仅靠Scaling Law,我们永远到达不了AGI。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

Niechen指出,目前关于AGI何时到来的判断,之所以众说纷纭,就是因为很多观点更多是基于动机或意识形态,而非确凿的证据。

有人觉得,我们会很快迎来AGI,有人认为我们离它还很远。

为什么很多模型提供商对当今模型的扩展能力如此乐观?

Niechen决定,亲自用Scaling Law做出一些计算上的推断,看看未来AI模型究竟将如何进化。

Scaling Law并不像我们想得那么有预测性

Scaling Law是一种定量关系,用于描述模型输入(数据和计算量)与模型输出(预测下一个单词的能力)之间的联系。

它是通过在图表上绘制不同水平的模型输入和输出得出的。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

我们只需要扩展现有模型,就会获得显著的性能提升吗?

显然并非如此,使用Scaling Law进行预测,并不像有些人想的那么简单。

首先,大多数Scaling Law(如Kaplan等人、Chinchilla和Llama的研究)预测的,是模型在数据集中预测下一个词的能力,而不是模型在现实世界任务中的表现。

2023年,知名OpenAI研究员Jason Wei就曾在博客中指出,“目前尚不清楚替代指标(例如损失)是否能够预测能力的涌现现象……这种关系尚未被充分研究……”

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

将两个近似值串联起来进行预测

为了解决上述问题,我们可以拟合第二个Scaling Law,将上游损失与现实任务性能定量关联起来,然后将两个Scaling Law串联起来,以预测模型在现实任务中的表现。

Loss = f(data, compute)Real world task performance = g(loss)Real world task performance = g(f(data, compute))

在2024年,Gadre等人和Dubet等人提出了这种类型的Scaling Law。

Dubet使用这种链式法则进行预测,并声称其预测能力适用于Llama 3模型,“在四个数量级范围内具有良好的外推能力”。

然而,关于这些第二类Scaling Law的研究才刚刚起步,仍处于初期阶段,由于数据点过少,选择拟合函数会高度依赖主观判断。

例如,在下图中,Gadre假设多个任务的平均表现与模型能力呈指数关系(上图),而Dubet针对单一任务(下图中的 ARC-AGI 任务)假设其关系呈S型曲线。这些Scaling Law还高度依赖于具体任务。

如果没有关于损失与现实任务准确率之间关系的强假设,我们就无法有力地预测未来模型的能力。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

尝试用链式Scaling Law进行预测,是一种拙劣的尝试

如果我们盲目地使用一些链式Scaling Law来进行预测,会发生什么?

请注意,这里的目标是展示如何使用一组Scaling Law(如Gadre的研究)来生成预测,而非获得详细的预测结果。

首先,我们可以利用公开信息,来估算未来几代模型发布所需的数据和计算输入。

这一部分可以参考最大数据中心建设的公告,根据其GPU容量估算计算能力,并将其映射到每代模型的演进上。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

马斯克的xAI超算最初便能容纳10万块H100

接着,我们可以利用Scaling Law来估算这些计算集群所需的数据量。

根据我们使用的Scaling Law,最大的公开宣布的计算集群(可容纳大约1亿块GPU)理想情况下需要训练 269万亿个tokens,以最小化损失。

这个数字大约是RedPajama-V2数据集的十倍,并且是已索引网络规模的一半。

听起来比较合理,所以我们暂时沿用这个假设。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

最后,我们可以将这些输入代入链式Scaling Law并进行外推。

需要重点关注右侧的图表,因为该图显示了垂直轴上的实际任务性能,与水平轴上的数据和计算输入相对应。

蓝色点表示现有模型的性能(如GPT-2、GPT-3等),而红色点则是通过外推预测的下一代模型(如GPT-5、GPT-6、GPT-7等)的规模扩展表现:

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

从图中可以得到这样的预测结果——

从GPT-4开始,性能提升将显现出显著的边际递减趋势。

GPT-4到GPT-7模型(计算量约增加4000倍)在实际任务中的预测性能提升,与从GPT-3到GPT-4(计算量约增加100倍)的预测性能提升相当。

我们是否正在接近不可降低的损失?

如果你查看左侧的图表就会发现:这些Scaling Law的问题在于,我们正在逐渐接近不可降低的损失。

后者与数据集的熵密切相关,代表了模型在该数据集上能够达到的最佳理论性能。

根据Gadre的Scaling Law,在RedPajama数据集上,如果最优模型只能达到约1.84的不可降低损失,而我们已经在GPT-4上达到了约2.05,那改进空间就十分有限了。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

然而,大多数实验室并未发布其最新前沿模型训练的损失值,因此我们现在并不知道,我们实际上离不可降低的损失有多近。

拟合函数的主观性与数据的局限性

如前所述,第二条Scaling Law中拟合函数的选择具有很强的主观性。

例如,我们可以使用sigmoid函数而不是指数函数,重新拟合Gadre论文中的损失和性能点:

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

然而,结论基本没有变化。

如果只是比较左图中的指数拟合(红线)和我们自定义的sigmoid拟合(紫色虚线),局限性是明显的:我们根本没有足够的数据点,来自信地确定将损失与现实世界性能关联的最佳拟合函数。

没人知道下一代模型的强大程度

显然,有许多方法可以改进上述“预测”:使用更好的Scaling Law,使用更好的数据和计算估计,等等。

归根结底,Scaling Law是嘈杂的近似值,而通过这种链式预测方法,我们将两个嘈杂的近似值结合在了一起。

如果考虑到下一代模型可能由于架构或数据组合的不同而拥有适用于不同条件的全新Scaling Law,那么实际上没有人真正知道未来几代模型规模扩展的能力。

为什么大家对Scaling如此乐观?

如今,不管是科技大厂还是明星初创,都对Scale现有模型十分乐观:

比如微软CTO就曾表示:“尽管其他人可能不这么认为,但我们并未在规模的Scaling上进入收益递减的阶段。实际上,这里存在着一个指数级的增长。”

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

有些人将这种乐观归因于商业动机,但Niechen认为这来自以下几个方面的结合:

(1)实验室可能掌握了更乐观的内部Scaling Law

(2)尽管存在广泛怀疑,但实验室亲身经历了Scaling所带来的成效

(3)Scaling是一种看涨期权

谷歌CEO劈柴表示:“当我们经历这样的曲线时,对于我们来说,投资不足的风险远远大于投资过度的风险,即使在某些情况下事实证明确实投资得有些多了……这些基础设施对我们有广泛的应用价值……”

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

而Meta CEO小扎则这样认为:“我宁愿过度投资并争取这样的结果,而不是通过更慢的开发来节省资金……现在有很多公司可能正在过度建设……但落后的代价会让你在未来10到15年最重要的技术中处于劣势。”

未来何去何从

总结来说,Niechen认为外推Scaling Law并不像许多人声称的那样简单:

(1)当前大多数关于预测AI能力的讨论质量不高

(2)公开的Scaling Law对模型未来能力的预示非常有限

因此,为了有效评估当今的AI模型是否还能Scaling,我们就需要更多基于证据的预测和更好的评估基准。

如果我们能够了解未来模型的能力,就可以优先为这些能力做好准备——比如,为生物学研究革命提前构建生物制造能力,为劳动力置换准备技能提升公司,等等。

从个人的角度,Niechen对AI能力的进步还是非常乐观的,因为这个领域拥有杰出的人才。

但AI的Scaling并不像人们想象的那样具有确定性,也没有人真正清楚AI在未来几年将带来怎样的发展。

责任编辑: 方寻  来源:新智元 转载请注明作者、出处並保持完整。

本文网址:https://d3lxuwvwo1hamd.cloudfront.net/2024/1201/2138218.html