2月10日,Bytedance的Doubao Big Model团队发布了视频生成模型“ VideoWorld”,该模型是由Doubao Big Model Team,Beijing Jiotong大学和中国科学技术大学共同提出的。与Sora,Dall-E和Midjourney等主流多模型不同,VideoWorld在行业中首次实施了不依赖语言模型的世界。
在新闻的影响下,根据风数据,今天的闭幕式上升了2.45%。在组成股中,中东光学元件达到了每日限制,凝胶雪松量增长了9.69%,而Yutong Optics上涨了7.54%。
应当指出的是,字节内部人士告诉记者,Videoworld Visual模型是一个学术研究项目,正在探索新的技术方法,目前尚未应用于产品方面。此外,尽管Videoworld在GO和模拟机器人控制环境中表现出了出色的性能,但其在现实环境中的应用仍然面临着诸如高质量视频生成和多环境概括之类的挑战。
根据官方披露,为了进行视频模型研究,Doubao团队建立了两个实验环境:视频GO战斗和视频机器人模拟控制。前者是因为GO可以评估学习,理性和计划模型规则的能力,而GO的关键信息仅是黑白和棋盘,它们可以将复杂的细节(例如外观和纹理)分开,例如评估高级知识。
同时,Doubao团队还选择了机器人任务,以检查模型了解控制规则和计划任务的能力。在模型培训课程中,团队构建了一个脱机数据集,其中包含大量视频演示数据,从而使模型可以“观看”并学习,以获取可以根据过去观察结果预测未来图像的视频生成器。
经过一段时间的探索,Doubao团队发现,视频序列的知识挖掘效率显着落后于文本形式,主要是因为视频中有大量冗余信息,这会影响模型的学习效率。例如,在学习国际象棋棋子运动的过程中,该模型仅需要由状态序列中的少数位置标记编码,但是对于视频数据,编码器将生成太多的冗余标记,这不是有利于模型对复杂知识的快速学习。这也是Videoworld模型。出生的背景,同时保留丰富的视觉信息,压缩与关键决策和动作相关的视觉变化,以实现更有效的视频学习。
VideOworld并不是Byte发布的第一个视频模型。上周,Bytedance透露,其一站式AI创建平台Imeng AI将启动一个多模式的视频生成模型Omnihuman,该模型Omnihuman可以生成一个只有一张图片和音频的AI视频。该模型是由兽人开发的。封闭的源模型。以前,Byte发布了Wensheng视频模型MagicVideo -V2,UNIDOC和其他产品等产品。
除了野兽外,阿里巴巴,腾讯,库阿舒和其他公司还连续推出了视频生成产品,并在多模式领域披露了它们的布局。在接受第一个金融新闻和其他媒体的采访中,火山引擎主席谭领导说,公司制作了大型模型来帮助人们做各种事情,并需要在语言,愿景等方面进行完整的能力,这需要很大拥有它们的模型。只有通过多模式能力,我们才能帮助个人企业家和企业端到端解决特定问题。
Citic Securities研究报告分析:领先的制造商继续追求彼此的趋势,军备竞赛仍然很激烈。多模式大型模型算法的突破将在自动驾驶和机器人等技术中带来革命性的进步。视频模式更符合C端用户的娱乐需求,尤其是在短视频行业的情况下,因此更有希望能孕育备受瞩目的应用程序,但是它需要进一步的模型性能和进一步的探索产品定义。