
Seedance 2.0:字节跳动的下一代人工智能视频生成器
Seedance 2.0 于2026年2月7日进入测试版。2K 分辨率、多镜头叙事、12 文件的多模态输入,以及原生音频同步。以下是来自测试版测试者和早期访问用户的信息。
Seedance 2.0 于2026年2月7日进入测试版,首先在 CapCut 面向中国用户推出。全球发行日期预计在2026年2月中旬左右,可用性通过Dreamina,Editly以及其他平台。字节跳动的 Seed 团队在原定计划之外的数月里一直在优化该模型。此版本在 Seedance 1.0 Pro(2025 年 6 月)和 1.5 Pro(2025 年 12 月)所提供的基础上,新增原生多镜头叙事、2K 输出,以及更紧密的音视频同步。
版本历史
- Seedance 1.0 Pro, 2025年6月11日。文本转视频和图像转视频,分辨率为1080p/24fps,5-10秒的片段。上线时同时登顶T2V和I2V排行榜。Dreamina上免费访问。
- Seedance 1.5 Pro, 2025年12月16日。新增在一次处理中实现音视频联合生成,具备跨六种语言的毫秒级口型同步。电影级镜头控制,并通过蒸馏实现十倍推理加速。
- Seedance 2.0, 测试版将于 2026 年 2 月 7 日(CapCut,中国)。全球上线预计在二月中旬。原本计划在 2025 年晚些时候,因进一步优化而推迟。测试者描述输出明显优于 1.5 Pro。
背景故事
在谷歌放弃 Veo 3 之前,Seedance 团队仍在寻找方向。Veo 3 向他们展示了市场真正需要的是什么。他们放弃了旧的路线图,重新从零开始构建。
这一转折催生了 Seedance 1.5 Pro,已经相当稳健。团队随后在大约 2025 年 11 月至 12 月之间将 2.0 置于可出货状态,但觉得质量还可以进一步提升。他们又花了两到三个月来打磨它。
拥有早期访问权限的测试者表示,1.5 Pro 与 2.0 之间的差距不容忽视。CapCut 测试版的中国用户自上线日起就一直在制作短片和广告。一位测试者在一个提示中就生成了一个邵氏风格的武术短片,配有同步音频和自由移动镜头。另一位仅凭文本就生成了一个15秒的鬼灭之刃风格的动画。延迟看起来是故意的:字节跳动正在花时间把这件事做好。
新功能
多镜头叙事。一个提示生成多个连贯的镜头,角色保持一致,在不同镜头角度下保持同一张脸和同一套服装。
2K 分辨率,速度提升约 30%,相较于 1080p。一个 2K 剪辑大约在 60 秒内生成。支持六种宽高比(16:9、9:16、4:3、3:4、21:9、1:1)。剪辑时长为 5-15 秒。
多模态输入,最多可用 12 个参考文件。混合图像、视频和音频。使用一张图像来锁定视觉风格,使用视频来实现运动和镜头移动。
一次性生成音频。Dual-Branch Diffusion Transformer 处理对话、拟音和环境音,并与视频一起处理。在 8 种以上语言中实现音素级口型同步。
视频内编辑。通过文本指令完成替换角色、添加或移除对象、扩展片段、画布扩展和修补等操作。
对比
Sora 2 在物理精度方面更高,具备单镜头真实感,但原生音频较弱,且不支持多镜头叙事。
Veo 3.1 是当前的真实感基准,在 1,003 个提示的评估中得分最高。它也具备原生音频,但成本更高,且可访问性较低。
Kling 2.6 提供强大的原生音频生成能力,以及一个用于从参考视频复制动作的动作迁移功能。较低的分辨率上限。
Seedance 2.0 在多次输出的一致性和多模态参考输入方面具备差异化优势,得益于字节跳动的速度优势。
在哪里访问
CapCut 测试版现已面向中国用户上线。全球可用性预计将在二月中旬实现:
- Editly, 集成正在进行中,一旦模型在全球范围内可用就上线
- Dreamina (dreamina.capcut.com),主要的第一方平台
- 像 Replicate 和 Segmind 这样的第三方 API
Dreamina 历史上一直为新的 Seedance 版本提供免费层级访问权限。
要点
多镜头叙事生成和12文件的多模态输入是主要特征。Beta 测试者的反应积极。独立基准测试将在模型公开后补充细节。