当Musk担心AI培训数据已经耗尽时,具体的智能企业正面临残酷的数据生命状况:训练浇注浇注行动需要超级计算机来运行数以万计的次数,第三方数据是“有毒的”数据。随时会导致模型崩溃,模拟数据的成本也在上升...
在决定未来机器人进化的速度和方向的这场无形的数据战中,一些智能企业正在通过“违反直觉”培训方法撕裂突破,使机器人能够理解无关紧要且凌乱的任务的物理定律,并试图建立物理定律数据护城河。
当AI扩展到物理空间时,数据最有可能成为重塑技术力量的关键。但是,如果机器人想越过临界价值并引入大型大型模型的GPT时刻,它也需要解决许多问题,例如数据质量,算法和计算能力。毕竟,体现智能的结束将不是单点技术的胜利,而是软件,硬件和商业模型之间的系统战争。
克服“数据饥饿”
培训机器人的大型型号需要多少数据?
“一般而言,超级计算机每秒可以执行数十万亿的浮点操作,而所涉及的计算量是模拟杯中摇摆水的作用。可能需要超级计算机来计数十分钟。”
X Square的创始人兼首席执行官Wang Qian体现了大型模型企业独立变量机器人(X Square),将上述示例交给了第一个财务记者,以说明需要多少模态现实和多模式现实,以使机器人能够实现复杂的机器人物理世界中的互动。仿真数据支持。 “更重要的是,对于某些复杂的行动,根据行业常用的层次模型逻辑,几乎是不可能实现的。”王应说。
层次模型曾经被视为机器人技术领域中的黄金法则:模型首先,然后计划并最终执行。但是,在执行过程中,Wang Qian发现,随着每一层模型的传输,模型在特定层中产生的轻微误差将在随后的链接中成倍扩散。
每个步骤都可以采取每个步骤,可以向模型引入噪声。 “如果一开始建模误差为1%,随着分层模型的传导,在执行的最终结果中,误差很可能是数十个次的情况。”王应说。因此,端到端模型逐渐成为下一个发展方向。在端到端的模型设计中,直接连接输入和输出的“黑匣子”特征使体现大型模型的自我纠正成为可能。
技术路径变化和大量数据始终是体现智能模型前面的自然障碍。 Wang Qian告诉第一位财务记者,行业中始终存在“数据饥饿”。 “它的基本逻辑是,强化学习的途径需要指数增长的数据,并且由于物理相互作用的复杂性,很难迁移到现实的模拟数据。”
直到GPT-3出现,这种数据饥饿才能缓解。 “ GPT-3的出现实际上为我们带来了'反人类直觉'的启示。” Wang Qian解释说,以前训练机器人的某种动作模型总是以相似的任务数据语料库喂给他们。 “但是GPT-3的基本逻辑是,通过多任务学习,该模型被迫在跨任务上完善常见定律,以便能够使用几个样本甚至零样本学习。”
似乎完全无关紧要的任务是强迫模型更快地学习物理世界的共同原理。 Wang Qian说,当该模型同时学习诸如倒水和换衣服之类的任务时,似乎没有直接的联系,但是大型模型可以通过大量这些任务来学习如何处理类似的摩擦,并意识到“抓握”,“材料”等。物理世界共有的逻辑。
一旦验证了此逻辑,大型语言模型具有很少的样本甚至零样本的学习能力将有机会在体现的智能模型上复制,从而帮助机器人越过数据的死亡谷。
第三方数据需要“排毒”
尽管GPT3的出现为具体的智能模型带来了“防毒”,但体现的智能数据字段中的无形战争并没有停止。
杰里(Jerry)是一所大学的助理教授,也是世界上最早研究浮雕智能数据的学者之一。他告诉第一位财务记者,与大语言模型上的数据资源相比,压纹大型模型的数据成本将要高得多。 “在过去的很长一段时间里,互联网已经完成了人类知识的积累。这些资源是一种新的能源,但在AI培训的底部被'挖掘'。”
他告诉记者,大型模型的数据源主要分为三个部分。第一部分是过去由互联网存放的数据,该数据记录了人类对世界的看法;第二部分是图片,文本,3D等的嫁接。第三个块是通过不同传感器获得的数据。
“在培训机器人的大型模型的过程中,我们实际遇到的是该行业没有数据资源,因此我们需要冷漠地开始并收集数据以实际促进该行业。”王应说。
在过去的几年中,人工智能的普及使AI缩放了AI训练AI模型数据并添加标签,因此在机器人领域中会出现与Scale AI相似的独角兽吗?
随着机器人行业的扩展,上游数据供应商也在出现。 2023年左右,国内第三方体现了智能机器人方案数据提供商,例如IO Intelligent。 Zhiyuan机器人在2024年底宣布了开源Agibot世界,Zhiyuan说这是一个开源数据集,可收集数百万个真正的机器人数据。 2025年1月,Songling机器人推出了一种新的通用数据采集解决方案,该解决方案配备了200°Fisheye摄像机,双眼深度摄像机等传感器,以确保数据感知。
但是,另一位使用第三方提供的数据的体现的智能从业人员告诉第一名财务记者,就大型模型的培训要求而言,第三方的数据使用率可能小于1%。 “我们经常遇到一种购买100万个数据的情况,经过严格的质量筛选,使用的实际数据量可能只有10,000甚至更少。”
上述从业者向记者解释说,在操作过程中,将记录在操作过程中数据运算符的轻微暂停或轨迹抖动时。 “此类数据不仅是无用的数据,而且是有毒数据。随着更多有毒数据,该模型将崩溃。”
数据质量是判断具体智能大型模型的竞争力的重要标准。 Wang Qian告诉记者,为了确保数据质量符合标准,自变量机器人已经投入了大量的能源和资源来开发自发开发的数据系统来“排毒”数据。
在这场无形的数据战中,将来,高质量的数据可能成为具体智能企业的核心障碍。杰里说:“将来,数据集的护城河可能比算法更深。”
仿真数据还需要成本效益
与具体的智能大型模型相比,大语言模型越来越快,并且已经暴露了一些数据问题。
马斯克在今年在社交媒体X上的现场直播中提到,AI数据培训已经用尽。他说:“我们基本上已经消耗了累积的人类知识来培训AI,这发生在去年左右。”去年12月,OpenAI的前首席科学家Ilya Sutskever也在一份份额中提到。而且,尽管现有数据仍然可以推动人工智能的发展,但在该行业中可以使用的新数据几乎已经耗尽了。
“对于大型模型的预培训,我们使用的数据确实接近峰值。” Mingyue(化名)是中国顶级大语模型的数据标签。她认为,人类产生的高质量内容的比例正在下降。 “现在,大型语言模型的培训已移至垂直领域,公共数据资源较少。以医疗领域为例,法律和公共数据非常有限。”
因此,合成数据已成为“挽救生命的吸管”。明格尤告诉第一名财务记者,大型模型培训中合成数据的比例有所增加,这是行业中的默认规则。 “但是,它是否会产生幻觉以及将在行业中讨论多少幻觉。”
对于具体的智能,合成数据不一定比实际数据“具有成本效益”。 Wang Qian告诉第一名财务记者,模拟对象在不同状态的数据量不同。 “因为我们无法使用超级计算机中心计算10分钟,以准确模拟摇动一杯水几秒钟的动作。因此,在合成数据时,模拟器的精度通常会相对较低。”
因此,通常,在模拟器中训练的模型迁移到现实世界将遇到严重的障碍,这是所谓的低概括。要训练被概括为现实世界中部署的模型,一种普遍的做法是模拟模拟器中不同的物理定律的世界,并在这些环境中训练大型模型。 “如果它可以在所有这些环境中取得出色的结果,那么从理论上讲,将其转移到现实世界将很容易。”
Wang Qian为记者举了例子。如果您想训练一个可以操作六个免费参数的刚体模型,则需要模拟的数量级可能具有十到六个的功率。 “但是,如果它是一个灵活的对象,它可能具有100个参数,并且模拟环境的数量级可能会更大,而且成本和技术难度太高。”王应说。
“在GPU中运行模拟数据也要花费金钱,因此,在更复杂的任务上,模拟器实际上具有明显的缺点。” Wang Qian认为,将来,机器人的灵巧手术不能仅仅依靠模拟器。数据是制作的。
体现的情报已经发展到今天,一些大型模型逐渐浮出水面。 Xingdong时代于去年12月发布了本地端到端机器人型号ERA-42;在同一时期,Lingchu Intelligent还根据增强学习发布了端到端压纹模型PSI R0。 Galaxy General Motors也于今年1月发布。 Graspvla,一个基于大数据的模拟综合设计的精心设计的模型。
但是,第一位财务记者注意到,这些大型模型中的大多数都强调了演示中的一些简单的手姿势,并且这些动作的重点是保持和放置大型模型。大型模型的概括和输出稳定性未清楚。