Formation à l’aide d’un pipeline de données automatisé
Voyager s’appuie sur HunyuanWorld 1.0, publié par Tencent en juillet. Voyager fait également partie de l’écosystème « Hunyuan » plus large de Tencent, qui comprend le modèle Hunyuan3D-2 pour la génération de texte en 3D et HunyuanVideo pour la synthèse vidéo.
Pour entraîner Voyager, les chercheurs ont développé un logiciel qui analyse automatiquement les vidéos existantes afin de traiter les mouvements de caméra et de calculer la profondeur pour chaque image, éliminant ainsi la nécessité pour les humains d’étiqueter manuellement des milliers d’heures de séquences. Le système a traité plus de 100 000 clips vidéo provenant à la fois d’enregistrements du monde réel et des rendus d’Unreal Engine susmentionnés.
Schéma du pipeline de création de mondes Voyager.
Crédit :
Tencent
Le modèle exige une grande puissance de calcul pour fonctionner, nécessitant au moins 60 Go de mémoire GPU pour une résolution de 540p, bien que Tencent recommande 80 Go pour de meilleurs résultats. Tencent a publié les poids du modèle sur Hugging Face et a inclus un code qui fonctionne avec des configurations mono et multi-GPU.
Le modèle est assorti de restrictions de licence notables. Comme pour les autres modèles Hunyuan de Tencent, la licence interdit l’utilisation dans l’Union européenne, au Royaume-Uni et en Corée du Sud. En outre, les déploiements commerciaux desservant plus de 100 millions d’utilisateurs actifs mensuels doivent faire l’objet d’une licence distincte de la part de Tencent.
Sur le benchmark WorldScore développé par les chercheurs de l’université de Stanford, Voyager aurait obtenu le score global le plus élevé, soit 77,62, contre 72,69 pour WonderWorld et 62,15 pour CogVideoX-I2V. Le modèle aurait excellé dans le contrôle des objets (66,92), la cohérence du style (84,89) et la qualité subjective (71,09), bien qu’il se soit classé deuxième dans le contrôle de la caméra (85,95) derrière WonderWorld (92,98). WorldScore évalue les approches de génération de mondes selon plusieurs critères, notamment la cohérence 3D et l’alignement du contenu.
Bien que ces résultats de référence auto-déclarés semblent prometteurs, leur déploiement à plus grande échelle reste problématique en raison de la puissance de calcul qu’ils impliquent. Pour les développeurs qui ont besoin d’un traitement plus rapide, le système prend en charge l’inférence parallèle sur plusieurs GPU à l’aide du cadre xDiT. L’utilisation de huit GPU permet d’obtenir des vitesses de traitement 6,69 fois supérieures à celles des configurations à un seul GPU.
Compte tenu de la puissance de traitement requise et des limites de la génération de « mondes » longs et cohérents, il faudra sans doute attendre un certain temps avant de voir des expériences interactives en temps réel utilisant une technique similaire. Mais comme nous l’avons vu jusqu’à présent avec des expériences telles que Genie de Google, nous assistons potentiellement aux premiers pas d’une nouvelle forme d’art interactif et génératif.