Seedance 2.0 : le générateur vidéo IA de prochaine génération de ByteDance

Seedance 2.0 est entré en bêta le 7 février 2026. Résolution 2K, narration à prises multiples, entrée multimodale à 12 fichiers et synchronisation audio native. Voici ce que nous savons des testeurs bêta et des utilisateurs en accès anticipé.

Seedance 2.0 est entré en bêta le 7 février 2026, déployé d'abord dans CapCut pour les utilisateurs chinois. La date de sortie mondiale est attendue vers la mi-février 2026, avec une disponibilité à traversEditly,Dreaminaet d'autres plateformes. L'équipe Seed de ByteDance a optimisé le modèle pendant des mois après le calendrier initial. Cette version ajoute une narration à prises multiples native, une sortie 2K et une synchronisation audio-visuelle plus serrée, en plus de ce que Seedance 1.0 Pro (juin 2025) et Seedance 1.5 Pro (décembre 2025) ont offert.

Historique des versions

Seedance 1.0 Pro, 11 juin 2025. Texte vers vidéo et image vers vidéo à 1080p/24fps, clips de 5 à 10 secondes. Il a dépassé les classements T2V et I2V au lancement. Accès gratuit sur Dreamina.
Seedance 1.5 Pro, 16 décembre 2025. Ajout de la génération audio-visuelle conjointe en une seule passe, avec une synchronisation labiale à l'échelle de la milliseconde sur six langues. Contrôle de la caméra cinématographique et accélération de l'inférence de 10x grâce à la distillation.
Seedance 2.0, bêta le 7 février 2026 (CapCut, Chine). Le déploiement mondial est attendu à la mi-février. Initialement prévu pour fin 2025, retardé pour une optimisation supplémentaire. Les testeurs bêta décrivent le rendu comme nettement meilleur que la 1.5 Pro.

L'histoire

Avant que Google n'abandonne Veo 3, l'équipe Seedance cherchait encore sa direction. Veo 3 leur a montré ce dont le marché avait réellement besoin. Ils ont abandonné l'ancienne feuille de route et ont reconstruit à partir de zéro.

Ce pivot a donné Seedance 1.5 Pro, qui était déjà solide. L'équipe a ensuite eu la version 2.0 dans un état prêt à être expédiée vers novembre-décembre 2025, mais estimait que la qualité pouvait aller encore plus loin. Ils ont consacré deux à trois mois supplémentaires à le peaufiner.

Les testeurs bêta en accès anticipé affirment que l'écart entre la 1,5 Pro et la 2,0 est difficile à manquer. Des utilisateurs chinois sur la bêta CapCut génèrent des courts métrages et des publicités depuis le jour du lancement. L'un des testeurs a produit un court métrage d'arts martiaux dans le style des Shaw Brothers avec une piste audio synchronisée et une caméra libre de mouvement dans une seule requête. Un autre a généré une animation de 15 secondes dans le style Demon Slayer à partir d'un texte seul. Le retard semble délibéré : ByteDance prend son temps pour bien faire les choses.

Nouveautés

Récit en plans multiples. Un seul prompt génère plusieurs plans cohérents avec des personnages constants, en conservant le même visage et la même tenue à travers les angles de caméra.

Résolution 2K, 30 % plus rapide. Par rapport au 1080p. Un clip en 2K se génère en environ 60 secondes. Prend en charge six rapports d'aspect (16:9, 9:16, 4:3, 3:4, 21:9, 1:1). Les clips durent de 5 à 15 secondes.

Entrée multimodale avec jusqu'à 12 fichiers de référence. Mélangez des images, des vidéos et de l'audio. Utilisez une image pour verrouiller le style visuel, une vidéo pour le mouvement et le déplacement de la caméra.

Audio généré en une seule passe. Un Dual-Branch Diffusion Transformer gère le dialogue, les effets Foley et les bruits ambiants aux côtés de la vidéo. Synchronisation labiale au niveau des phonèmes dans plus de 8 langues.

Édition dans la vidéo. Échanger des personnages, ajouter ou retirer des objets, prolonger les extraits, extension du canevas et l'inpainting, le tout via des instructions textuelles.

Architecture

Dual-Branch Diffusion Transformer (DiT) avec des branches vidéo et audio parallèles, s'appuyant sur le cadre cross-modal MMDiT issu de la version 1.5 Pro. Fonctionne sur l'infrastructure de ByteDance (le même backend que TikTok et CapCut). La génération d'API serait inférieure à 10 secondes par clip.

Comment cela se compare

Sora 2 offre une meilleure précision physique et un réalisme en une seule prise, mais son audio natif est moins bon et il n'y a pas de support narratif multi-shot.

Veo 3.1 est la référence actuelle en matière de réalisme, obtenant le score le plus élevé lors d'une évaluation comportant 1 003 prompts. Il dispose également d'un audio natif, mais coûte plus cher et est moins accessible.

Kling 2.6 offre une génération audio-native robuste et une fonction de transfert de mouvement pour copier les mouvements à partir d'une vidéo de référence. Plafond de résolution plus bas.

Seedance 2.0 se distingue par sa cohérence multi-shot et son entrée de référence multimodale, soutenue par l’avantage de rapidité de ByteDance.

Editly, l'intégration est en cours et sera mise en ligne dès que le modèle sera disponible dans le monde entier.
Dreamina (dreamina.capcut.com), la principale plateforme de première partie
Des API tierces comme Replicate et Segmind

La bêta de CapCut est désormais en ligne pour les utilisateurs chinois. La disponibilité mondiale est attendue à la mi-février par le biais de :

L'essentiel

Dreamina a historiquement offert un accès au niveau gratuit pour les nouvelles versions de Seedance.

Seedance 2.0 : le générateur vidéo IA de nouvelle génération de ByteDance