自2024年底以来,关于大型模型进行了很多讨论。声音之一是,从技术上讲,诱人的法律面临着“墙壁的碰撞”,大型模型的迭代却放慢了速度。另一方面,大型模型在实施中也有许多限制。这些主题也是对GDC(全球开发人员先驱会议)讨论的重点。
“该行业非常关注该行业的实施,但是在与许多公司交谈时,我们经常说,大型模型适合示范。当它们实际实施时,存在许多挑战,例如成本,效率,可靠性,稳定性和安全。
Qiao Yu认为这些讨论表明,尽管大型模型取得了某些结果,但仍然有许多“乌云”。他判断,从2025年开始,当大型模型进入下一阶段时,破解这些瓶颈的关键是创新和应用,而DeepSeek在这方面带来了一些灵感。
DeepSeek正在进行系统的创新。 Qiao Yu提到:“ DeepSeek不仅进行了良好的技术系统,而且还与模型架构,培训方法和高速培训框架相似,并进行了系统的优化,这带来了很好的结果。效率的提高和成本降低,培训,培训语言大型V3(成本)的语言相当于Llama3的1/10。”
Qiao Yu在此基础上补充说,在大型模型产业链中,DeepSeek的作用仅是中间模型和系统,“如果我们能够更好地制作芯片,互连,框架,数据,模型,评估和应用程序。”系统创新将有更多的空间。一方面,它将使模型更强大,另一方面,它将使效率更高。”
在一次采访中,他是上海人工智能实验室的年轻科学家Conghui认为,DeepSeek所做的事情在一定程度上打开了当前的一些大型瓶颈。 “它降低了整个培训的成本,并将允许更多的研究人员参与。另一方面,将加强学习直接引入后培训阶段也将促进许多科学探索,这是一个非常强大的推理模型也可以促进作为科学发现的好起点。”
以前,缺乏数据语料库被认为是使法律“击中墙”并放慢迭代的核心原因。 “互联网上的人类语料库是基本的原材料,已经耗尽了。尽管该模型变得更大,但投入并没有变得更多,无法学习新知识。”一名从业者告诉记者。
他长期以来一直研究了大型模型的数据语料库。他告诉记者:“我们正在谈论的数据现在已经用完了。更重要的是,已经看到了一些已知的公共数据模型,但实际上它们还没有被充分利用。质量仍然是持续改进的空间还没有结束然而。”
他说,提高质量可以提高数据效率,并且该模型可能不需要太多数据,这将导致计算成本的进一步降低,并进一步推动越来越多的人来优化数据。
在另一个论坛上,Minimax副总裁Liu Hua还提到了他演讲中大型模特的“击中墙”的话题。他认为,大型模型现在处于快速发展阶段,因为开放AI是在2024 O1末推出的,这意味着大型模型仍在推理阶段“扩展法”。借助1月的DeepSeek开源,每个人都对强化学习是更熟悉。
“这一切还没有结束。在接下来的两到三年中,高度可预测的是,诸如GPT3.5到GPT4等技术将两次发生。” Liu Hua的判断是,在未来两到三年内,大型模型将很快。技术限制远非被看到。
该行业目前对未来相对乐观。 Qiao Yu认为,在2025年,有三件事值得关注,包括出现更多多模式智能和AI来帮助科学发现。
在过去的一两年中,多模式在语言上取得了突破之后,该行业期望对图像,视频,音频等多模式有很多期望,但是现在,许多模式只是在对齐和理解,理解,理解,理解方面取得了进步这实际上就像语言的出现能力,例如发电和理解的结合,以及从多模式中发现知识的能力仍然非常有限。 Qiao Yu认为,在2025年这方面,可能会有进展值得期待的。
其次,就与“ AI4S”相关的科学智能而言,它是未来人工智能的高价值领域。人工智能不应简单地与我们聊天或绘画,而应帮助人类发现知识。
“我们在诸如Alphafold之类的单点方面取得了巨大的成功,但是人工智能的潜力绝对不是特殊的智能,而是如何实现科学假设的目标,实验的设计,甚至实验的自动化,也是如此作为科学知识发现整个过程的过程。” Qiao Yu提到他期待的是AI是否会在2025年突破重要的科学问题中发挥作用。