您的位置: 首页 > 乳饮频道

2025中关村论坛年会|生数科技发布Vidu Q1模型

出处:北京商报 作者: 孔文燮 网编:陶凤 2025-03-29

北京商报讯(记者 孔文燮)3月29日,在2025中关村论坛年会“人工智能主题日”未来人工智能先锋论坛上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军发布了高可控视频大模型Vidu Q1。Vidu Q1 作为业内首个高可控AI视频大模型,其在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得显著成效。

以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。

音效同步可控功能则确保了随着视频环境与画面转场,Vidu Q1能够输出生成相应音效,并可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,如0-2s风声、3-5s雨声等,节省时间的同时,也大大增强了视频的沉浸感与感染力。

一直以来,AI视频生成过程中的随机性都是老大难问题,Vidu Q1针对AI视频生成的痛点,通过技术手段引入多元素控制,它不再是没有头绪的乱生成,而是到了人为可控,让AI视频生成与当下精益求精制作逐渐趋向一致。

右侧广告

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号