编译者:TechFlow
在过去的一个周末,我们将来看到了一些线索。我长期以来一直在探索AI中的两种重要革命:自动源代理的兴起以及自OpenAI引入O1模型以来强大的推理系统的发展。现在,这两种技术途径终于朝着整合迈进,产生了惊人的结果 - AI系统不仅可以在人类专家的深度和细致水平进行研究,而且还以机器式的速度完成。这种融合的代表是Openai的深入研究,它为我们描绘了未来的图片。但是,要了解为什么所有这些都很重要,我们需要从基础知识开始:推理系统和代理。
推理者
在过去的几年中,当您使用聊天机器人时,它通常非常简单:输入问题后,系统将逐字化(或更准确地逐个标记)。由于AI只能在生成这些代币时“思考”,因此研究人员开发了许多技术来提高其推理能力。例如,通过提示AI“在回答之前逐步推理”,这称为经过思考链的提示,可显着改善AI的性能。
推理系统的出现使该过程自动化。在回答问题之前,系统将创建一个“思考令牌”(即推理步骤),然后给出最终答案。这种方法带来了两个重要的突破。
首先,人工智能公司可以通过出色的问题解决者的示例来培训推理系统,从而使AI的“思考”过程更加有效。这种训练方法比人类提示可以产生更高的推理链,从而使推理系统可以解决更复杂的问题,尤其是在传统聊天机器人表现较差的领域,例如数学和逻辑。
其次,推理系统的一个独特特征是它“思考”的时间越长,答案的质量越高(尽管改进的速度随时间逐渐减慢)。这尤其重要,因为过去改善AI性能的唯一方法是训练更大的模型,这需要大量数据和金钱。推理系统表明,仅通过让AI回答问题时会产生更多的推理步骤(即在推理期间计算它们时),它可以显着提高性能而无需添加模型培训资源。
研究生级的无Google问答测试(GPQA)是一组多项选择问题,旨在评估AI的推理能力。即使是Internet访问的博士生,在非专业领域的准确性也只有34%,而在专业领域中可以实现81%的精度。该测试证明了推理模型如何加速AI功能的提高(数据源)。
由于推论系统仍是新兴技术,因此它们的能力正在迅速提高。在短短几个月内,我们目睹了Openai的O1系列迈出了显着的跳向新的O3型号。同时,中国的DeepSeek R1通过创新方法提高了性能并降低成本,而Google还启动了其第一个推理系统。这仅仅是开始 - 将来,我们会看到更强大的推理系统出现,并且可能比预期的要快。
代理商
到目前为止,专家尚未就AI代理的定义达成协议。但是,我们可以简单地将其理解为一个AI系统,它可以实现目标并可以独立实现。提到了一些早期示例,例如具有某些计算机操作功能的Devin和Claude。
以下视频(更快的16次处理)展示了通用代理及其当前局限性的巨大潜力。我给了操作员一个任务:在Oneusefulthing平台上阅读我的最新替代帖子,然后访问Google ImageFX,设计合适的图像,下载并将其发布给我。最初,操作员的性能非常出色 - 它找到了我的网站,阅读文章,导航到ImageFX(在暂停期间让我输入登录信息),然后成功创建了一个图像。但是,问题一个接一个地遵循,主要反映在两个方面:一个是,通过OpenAI的安全限制,操作员被阻止下载文件,另一个是任务执行过程中存在混乱。代理商尝试了各种解决方案,例如复制到剪贴板,生成直接链接,甚至钻探到网站的源代码中。但是,这些尝试都没有成功 - 有些是由于Openai的浏览器限制造成的,有些人对代理商对任务的理解有偏见。观察这种持久性但最终失败的尝试不仅揭示了当前系统的局限性,而且还提出了对代理商在现实世界中遇到障碍时如何反应的想法。
尽管操作员揭露了通用代理的缺点,但这并不意味着代理人毫无价值。目前,专注于特定任务的狭窄场代理已经显示出巨大的经济价值。这些代理商依靠当前的大语言模型(LLM)技术来在特定领域取得惊人的成果。例如,OpenAI的新产品深入研究是集中代理商的一个例子。
深入研究
Openai的深入研究(请注意不要与Google的深入研究混淆,这将在稍后将详细介绍)是一个专注于研究领域的狭窄场代理。它基于O3推理器,OpenAI尚未发布,并配备了专用的工具和功能。这是我最近看到的最令人印象深刻的AI应用程序之一。
为了展示其功能,我为其设定了一个主题:随着初创企业的增长,我什么时候应该停止探索并开始扩展?在我的研究领域,这是一个非常技术性和有争议的问题。我要求深入研究研究相关的学术研究,重点是分析高质量论文和随机对照试验(RCT),并处理其中可能的定义争议,以及常识和研究结论之间的矛盾。最终,它需要详细的结果进行研究生级别的讨论。
在任务开始时,AI问了几个非常有见地的问题,我进一步阐明了我的需求。然后,OpenAI的O3推理系统(推理器)开始工作。在整个过程中,您可以清楚地看到其进度和“思考”过程。这里有一些关键样本,值得花一些时间来仔细观察。您会发现AI系统与研究人员的行为非常紧密:它将主动探索发现,深入研究“引起感兴趣的”内容并尝试解决问题(例如寻找绕过付费墙文章的方法)。整个过程持续了大约五分钟。
最后,我收到了13页,三千七百八百八百个字符的草稿,其中包含六个引用和一些其他参考文献。尽管引文来源的数量有改善的余地,但总体质量是令人满意的。本文成功地将复杂和矛盾的概念有机地整合在一起,并发现了一些我没有想到的新联系。它仅引用高质量的学术来源,并包含准确的引文内容。尽管我不能完全保证一切都是正确的(我没有发现明显的错误),但是如果这是新的博士生的工作,我会对它的表现感到满意。这里有一些摘录,说明了为什么我对表现如此深刻的印象(请参阅此处的完整结果)。
这次,AI中引用的质量标志着显着的改善。引用不再是常见的AI“偶像”或错误的论文,而是合法,高质量的学术来源,包括我的同事Saerom(Ronnie)Lee和Daniel Kim的开创性研究。当我单击引用链接时,它们不仅指向相关论文,而且通常直接跳到特定的突出显示部分。尽管仍然存在一些局限性 - AI只能在几分钟之内访问它可以找到和阅读的内容,而付费沃尔文章仍然不可用 - 这已经代表了AI处理学术文献的基本飞跃。 AI首次不仅要总结研究,而且还以接近人类学术研究的方式积极参与其中。
值得注意的是,Google上个月还推出了同名的产品,深入研究(叹气)。 Google的系统提供了更多的引用,但是引用来源的质量不同,通常是各种网站的混合(对于所有代理商来说,无法访问付费信息和书籍都是一个困难的问题)。与OpenAI的研究代理不同,Google的系统似乎立即收集所有文档,而不是通过探索性发现逐步获取。此外,由于Google的产品目前是基于旧的Gemini 1.5型号(无需推理),因此它们的摘要更为肤浅,尽管总体而言仍然很稳固,并且没有明显的错误。可以说,它的表现更像是一个非常出色的本科生的工作。
要更直观地理解这一点:OpenAI和Google的研究代理都可以做通常需要几个小时才能完成的工作。不同之处在于,OpenAI的系统已经实现了与博士研究水平接近的分析,而Google的系统更像是杰出的本科生的工作。在OpenAI的官方声明中,他们提出了一些大胆的主张,并绘制了他们的代理商如何处理15%的高经济价值研究项目和9%的极高价值研究项目。尽管这些数据的具体方法没有被披露,因此从我的实际用户体验来看,这些陈述并未完全夸大。深入的研究确实能够在几分钟内完成复杂而有价值的分析,而不是花费数小时。鉴于技术进步的速度,我相信Google不会持续太久。在接下来的几个月中,我们可能会看到研究代理的能力的迅速提高。
技术协调的发展
从当前的发展趋势来看,主要AI实验室建立的技术不仅简单地拼接在一起,而且还通过互动实现了更高的效率。推理者提供了强大的逻辑分析功能,而代理系统则可以使这些推理能力在实践中采取行动。目前,我们正处于狭窄域代理的时代,例如深入研究,这些研究的重点是特定任务,因为即使在此阶段最先进的推理系统也尚未满足一般自治的要求。但是,“狭窄区域”并不意味着局限性 - 这些系统已经能够完成复杂的任务,这些任务曾经需要一支高薪专家或专业咨询公司。
当然,这并不意味着因此将更换专家和咨询公司。相反,随着他们从直接执行工作转向协调和验证AI系统的结果时,他们的专业判断将变得更加重要。但是AI实验室的目标远不止于此。他们希望使用更强大的模型来解决普通代理的问题,以便他们可以超越狭窄的任务并成为真正的自主数字劳动力。这些代理不仅可以独立浏览网络,还可以处理多种形式的数据(例如文本,图像和音频),并在现实世界中采取有意义的行动。尽管操作员的绩效表明我们并没有完全实现这一目标,但深入研究的成功表明,我们朝着这个方向稳步发展。