产品介绍 Vidu是生数科技(原智源研究院孵化)自主研发的AI视频生成大模型,定位为全球领先的长视频、音画同步型视频创作工具。Vidu在2026年最大的亮点是推出Vidu Q3模型,实现了16秒音视频同步输出——在同一模型内生成长达16秒的连续视频,并且在视频画面上同时输出了高质量的同步语音、音效和完整的背景音乐配乐。生数科技称其为“声画同出”技术,这标志着AI视频全面进入了叙事化的新阶段。 Vidu于2026年1月上线了“一键生成MV”功能——用户只需提交音乐文件、参考图像及文本指令,系统内置的多智能体协同系统自动拆解专业导演、分镜师、生成师和剪辑合成师等角色,全自动合成一部具有故事线、歌词对应口型匹配的音乐视频。Vidu同时支持国际语言:中、英、日多种语言的语音口型模型,口型匹配精度高达99%,极大地拓展了全球化内容分发的可能。 Vidu现阶段支持最高4K分辨率、长达数秒到16秒的完整短视频生成。 主要功能 文生视频/图生视频:AI合成内容。16秒声画同出(Q3模型):在同一段视频中生成完全同步的语音与音效,事件动作匹配音频流。多语言口型匹配:支持中、英、日三种语言的口型同步技术…
产品介绍
Vidu是生数科技(原智源研究院孵化)自主研发的AI视频生成大模型,定位为全球领先的长视频、音画同步型视频创作工具。Vidu在2026年最大的亮点是推出Vidu Q3模型,实现了16秒音视频同步输出——在同一模型内生成长达16秒的连续视频,并且在视频画面上同时输出了高质量的同步语音、音效和完整的背景音乐配乐。生数科技称其为“声画同出”技术,这标志着AI视频全面进入了叙事化的新阶段。
Vidu于2026年1月上线了“一键生成MV”功能——用户只需提交音乐文件、参考图像及文本指令,系统内置的多智能体协同系统自动拆解专业导演、分镜师、生成师和剪辑合成师等角色,全自动合成一部具有故事线、歌词对应口型匹配的音乐视频。Vidu同时支持国际语言:中、英、日多种语言的语音口型模型,口型匹配精度高达99%,极大地拓展了全球化内容分发的可能。
Vidu现阶段支持最高4K分辨率、长达数秒到16秒的完整短视频生成。
主要功能
文生视频/图生视频:AI合成内容。16秒声画同出(Q3模型):在同一段视频中生成完全同步的语音与音效,事件动作匹配音频流。多语言口型匹配:支持中、英、日三种语言的口型同步技术。一键生成MV(多智能体系统):用户提交歌曲和参考素材后AI模拟导演,全自动输出45秒-60秒MV。参考生/首尾帧控制:用户引入视频参考或首尾帧。最高4K分辨率出片:专业级的视觉效果。高动态运动范围:画面细节和光影反射等。配乐与音效自动生成:AI生成符合情绪的配乐、环境音。
使用场景
音乐产业直接应用:为独立音乐人和唱片公司快速生成AI音乐视频(MV)。音乐片段推广分发。短剧/漫剧制作:完全由AI生成剧情片头和音效。社交媒体广告:生成带人声演绎的短广告。AI导演辅助工具:视频导演可以用Vidu快速生成自己脑中的概念场景作为分镜决策。品牌定制歌曲:品牌方用AI生成品牌推广的MV。虚拟动画师:个人内容创作者或无动画基础的人制作视频故事。教育课程引入虚拟主持人实现AI人物口播。
工具的问题
对动作复杂度的限制:当视频涉及多人混战与复杂动作时,视频连贯性低于真实物理模拟器水平。最终视频时长和完全叙事统一性仍有局限:16秒能满足一部分抖音文化,但在高级叙事影视中太短。专业免费额度有限。模型构建的风格局限:缺乏艺术创造性风格训练,产品化设计比较功能化和模块化。缺乏整体物理引擎。未全面开放4K到所有免费用户。与大型国际品牌的认知度相比,Vidu的北美普及度一般。