Vidu是一种AI模型,可以从文本和图像中快速生成高质量的视频。Vidu AI是由北京生数科技有限公司联合清华大学共同研发的中国首个长时长、高一致性、高动态性视频大模型。该模型于2024年4月27日在中关村论坛未来人工智能先锋论坛上正式发布,并于2024年7月30日正式上线。
Vidu的核心技术是U-ViT架构,这是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构。
Vidu的主要特点
- 长时长、高一致性、高动态性视频生成:Vidu能够生成长达16秒、分辨率达1080P的高清视频内容。它不仅能够模拟真实的物理世界,还拥有丰富的想象力,能够生成细节复杂、符合真实物理规律的场景,例如逼真的光影效果、细腻的人物表情等。
- 多镜头生成与时空一致性:Vidu具备多镜头生成、时空一致性高等特点,能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括长镜头、追焦、转场等效果,给视频注入镜头语言。
- 理解中国元素:Vidu能够理解并生成具有中国特色的元素,例如熊猫、龙等。
- 文本到视频的直接生成:Vidu能够根据提供的文本描述直接生成视频,文本到视频的转换是直接且连续的,不涉及中间的插帧和其他多步骤的处理。
- 技术突破与应用前景:Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。Vidu的发布预示着视频大模型有望在影视、广告、游戏、建筑设计、艺术创作等行业掀起变革。
Vidu宣称仅需3次眨眼就可以将创意转化为视频,还能将视频动画化,让您体现双重世界的精彩,让真实与动画风格尽在掌握。因此Vidu还是挺值得期待的。