阿里巴巴、腾讯等巨头开源视频生成模型，推动大模型技术新浪潮

大型模型的开源浪潮已经从文本模型传播到视频生成。 2月25日，阿里巴巴开设了Wanxiang 2.1视频生成模型。 3月6日，Tencent打开了地图并生成视频模型，Jieyuexingchen还计划打开地图并生成本月的视频模型。

根据Tencent的说法，新开源图生成的视频模型的总参数为130亿，适用于现实的视频制作，动画角色生产和发电等。开源内容包括重量，推理代码和LORA培训代码。用户上传图片，并简要描述图片想要如何移动以及镜头的计划方式，并可以生成5秒的简短视频。用户还可以输入文本或音频，以使图片中的字符在唇部同步中说话或唱歌。

腾讯展示的视频生成案例包括爱因斯坦吃苹果，梵高喝红酒，机械马走动，虚拟角色诵经舌头扭曲等。从示范视频来看，视频中的主题运动相对顺畅，唇形相对真实。

2月，阿里巴巴的开源Wanxian 2.1视频生成模型有两个参数：14B（B为10亿）和1.3B。 Wanxian 2.1的特征包括支持无限长度1080p视频的有效编码和解码，以及中文文本视频生成功能的首次实现。

关于视频发电的成熟度和开源作用，腾讯多模式一代技术负责人凯撒（Caesar）在去年12月对第一本金融新闻和其他媒体采访时说，视频生成的开源生态系统并不是很受欢迎。最大的问题是，开源视频生成和封闭源的基本模型（基本模型）之间的差距太大。视频生成所需的计算能力和数据消耗是与图像生成相比的数量级差距。该行业不想开源以大量资金制作的模型。在这种闭门造车的情况下，许多人没有使用最佳模型，因此Hunyuan于去年12月开设了Wensheng视频模型。

此外，一些行业内部人士告诉记者，视频生成模型的技术路径尚不完全清楚，行业仍在探索。在技术抛光阶段，开源还可以促进行业进步。

记者注意到，随着许多大规模模型制造商最近推广开源的开源，开源模型已经占据了具有出色功能的大型模型的视频大型模型。记者在视频生成模型评估系统的VBench列表中看到了Wanxian 2.1模型当前在列表中排名第一，总得分为86.22％，超过了Sora，Sora是封闭消息的。此外，在标有开源模型的前20个模型中还有另外6个型号。 Hunyuanvideo由Tencent于去年12月推出，排名第12位，Zhipu的子公司Cogvideox1.5-5b排名第15位。这两个模型都是开源模型。在此列表中的第20至50位，开源模型的数量远远超过了封闭的源模型。

图像生成模型是图像生成视频模型的基础。记者还从香港大学经济与管理学院获悉，该学院今天发布了“关于人工智能模型的图像产生能力的全面评估报告”。就新图像生成的内容质量（包括图形一致性，美学等）而言，字节IMENG AI首先排名。在此列表的前20名中，包括Dall-E3和Hunyuan-Dit在内的多个模型是开源模型。