您的位置: 首页 > 科技频道

2024中关村论坛年会|中国首个Sora级视频大模型Vidu亮相

出处:北京商报 作者:杨月涵 网编:陶凤 2024-04-27

北京商报

北京商报讯(记者 杨月涵)4月27日上午的2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后,全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

“Vidu是全栈自主创新的最新成果,在多个维度实现了技术突破,比如可以模拟真实的物理世界、具有想象力、可以理解多镜头语言、可以一键生成长达16秒的视频、人物场景时间具有高度一致性,还可以理解中国元素。”现场,清华大学人工智能研究院副院长、生数科技首席科学家朱军说道。

据了解,Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。

基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术,研发了Vidu视频大模型,显著提升视频的连贯性和动态性。

右侧广告

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号