Sora, développé par OpenAI, est un nouveau modèle capable de créer des vidéos d'une durée allant jusqu'à une minute à partir de textes descriptifs. Cette capacité marque une avancée prometteuse dans le domaine, permettant la génération de scènes complexes incluant plusieurs personnages, des mouvements spécifiques, ainsi que des détails précis sur les sujets et l'arrière-plan. Sora se distingue par sa compréhension du langage, lui permettant de saisir une large gamme d'instructions pour créer des vidéos captivantes, avec des personnages exprimant des émotions nuancées et des séquences variées enrichissant le récit. Cette technologie tente d’assurer une constance dans le style visuel et l'authenticité des personnages, renforçant l'impact et la cohérence de chaque production. Néanmoins, cette cohérence n’est pas systématique. À l’instar d’autres IA dédiées à la génération d’images, des discordances en termes de cohérence spatiale, de respect des lois physiques ou de texture peuvent survenir. La nature spécifique du contenu généré peut aussi entraîner des anomalies temporelles, telles qu’un biscuit montré comme partiellement consommé qui réapparaît intact ultérieurement. OpenAI n’est pas pionnier dans le développement de modèles capables de produire des séquences vidéo. D'autres entreprises travaillent également sur des projets similaires. Google a annoncé Lumiere, tandis que Meta prévoit de lancer Emu, bien que ces modèles ne soient pas encore disponibles pour des tiers. En outre, Runway a lancé Gen-2 en juin dernier, un modèle capable de générer des séquences vidéo de courte durée, soulignant ainsi la compétition croissante et l'innovation dans le secteur de la génération de contenu vidéo par IA. L’atout majeur d’OpenAI réside dans l’interface utilisateur qu’ils offrent, à l’exemple de ChatGPT, ce qui leur confère un avantage précurseur dans l’exploitation de leur modèle.
Dissection de Sora : Décryptage technique de la génération de vidéos
Sora représente une progression significative dans le domaine de la génération de contenu visuel, s'appuyant sur une méthodologie d’apprentissage de modèles de diffusion guidés par des prompts pour traiter des vidéos et des images aux durées, résolutions et formats d'aspect variés. L’hypothèse de départ derrière la construction du modèle est que les Large Language Models (LLMs), lorsqu’entraînés sur des grands volumes de données, permettent d’unifier plusieurs modalités de textes (des langues différentes, du langage naturel, du code, des équations mathématiques, etc.). Les auteurs émettent donc l’hypothèse que les données visuelles peuvent hériter de ces bénéfices, via non plus des tokens comme en langage naturel mais en « patches ». Un patch fait référence à un petit bloc ou une région d’une image qui comprend plusieurs pixels. Ces patchs permettent de décomposer les images efficacement pour qu'elles puissent être traitées par l'outil lors de l'apprentissage et de l'inférence. Un transformer, un type de modèle également utilisé dans les LLM, permet de capter les instructions de l'utilisateur (texte, vidéos, images, etc.), puis de les traiter pour construire une trame cohérente pour la vidéo. Cette trame, qui pourrait être vu comme un scénario, est ensuite transmise à un modèle de diffusion. Les
modèles de diffusion permettent de générer des images réalistes à partir d'images bruitées (où tous les pixels ont des valeurs aléatoires) et de texte, et sont aujourd’hui les modèles les plus prometteurs pour la génération d’images. Le rôle du modèle de diffusion est de créer les patches nécessaires pour la vidéo, en suivant les instructions du transformer. L'ensemble des patches sont ensuite assemblés pour générer la vidéo attendue. En résumé, le transformer s'occupe de traiter les instructions de l'utilisateur et de construire un scénario cohérent, et le modèle de diffusion se charge pour sa part de créer les images conformément à la commande issue du transformer.
La génération de texte-vidéo chez Sora bénéficie également d'une technique de re-légendage similaire à celle utilisée pour DALL-E 3, où un modèle hautement descriptif produit des légendes pour améliorer la représentation textuelle et la qualité globale des vidéos générées. Cette approche enrichit l'entraînement de Sora, lui permettant de créer du contenu adapté à différents formats et résolutions natifs, offrant ainsi une grande flexibilité d'échantillonnage et une amélioration notable du cadrage et de la composition des vidéos.
Sora innove non seulement par son approche de traitement des données visuelles via des « patches » mais aussi par son entraînement sur des images à leur résolution native, sans modification de taille. Cette approche ouvre la voie à une meilleure adaptation du contenu aux caractéristiques de divers appareils, tout en améliorant la qualité et la pertinence du contenu créé, ouvrant ainsi la porte à une large gamme d’applications.
Applications Pratiques de SORA : Impacts sur l'Audiovisuel, l'Éducation et la Communication Digitale
Sora représente une avancée prometteuse pour diverses applications pratiques. Au sein de l’industrie audiovisuelle, son potentiel pour le développement accéléré de prototypes de scènes et d’effets visuels offre aux studios de cinéma et de télévision la possibilité d'explorer différents concepts visuels avant de passer à la production réelle, promettant une réduction des dépenses et une optimisation des délais de conception. Concernant la formation et l’éducation, cet outil pourrait révolutionner la création des supports d'apprentissage grâce à la génération de simulations réalistes utiles dans des contextes variés, comme la préparation chirurgicale, l’amélioration de la compréhension des règles de circulation pour les apprentis conducteurs, ou encore l’enrichissement de l’expérience muséale avec des reconstructions historiques et des démonstrations interactives, améliorant ainsi l’assimilation des connaissances par le public. Dans le secteur de la communication, l'utilisation de cet outil pourrait dynamiser l'engagement sur les réseaux sociaux par la production de contenus visuels attractifs, renforçant de ce fait la portée et l’efficacité des stratégies de communication digitale.
Entre innovation et controverse, les défis éthiques de la vidéo IA
Sora présente également des inconvénients similaires à ceux des autres IA génératives, et il est important de les mentionner. Le premier danger est la création de vidéos à des fins malveillantes. Un utilisateur pourrait générer et diffuser des vidéos particulièrement violentes dans le but de choquer un public. De même, alors que des campagnes de désinformations sont régulièrement mise à jour, la génération automatique de vidéos pourrait devenir un outil de prédilection pour la création de deepfakes destinés à porter atteinte à la réputation et à la crédibilité des personnes
ou des institutions représentées. Heureusement, dans une démarche préventive contre les abus potentiels dès son lancement, OpenAI a choisi de restreindre l'utilisation de l'interface à des spécialistes dans des domaines clés tels que la lutte contre la désinformation, les contenus haineux, et la réduction des biais. Cette stratégie vise à soumettre le modèle à des tests rigoureux par le biais d'attaques adversariales, permettant ainsi d'identifier et de corriger ses vulnérabilités et d'implémenter des filtres préventifs pour restreindre la production de contenu sensible par le modèle.
D’autre part, tout comme les autres outils d’IA génératives, Sora pourrait avoir un impact environnemental important. Nous savons que l’apprentissage et l’inférence des modèles derrières ChatGPT sont de grands consommateurs d’énergie et donc émetteurs de CO2. L’apprentissage du modèle derrière Sora pourrait avoir les mêmes revers environnementaux, tout en ajoutant la consommation liée au stockage et à l’échange des données crées, une vidéo étant un type de fichier plus volumineux que des images ou du texte.
Sora Sous Verrou : Un accès restreint à Sora
Actuellement, l'accès à Sora est limité et n'est pas ouvert à tous les utilisateurs. Comme détaillé dans la partie précédente, l’outil est encore en phase de test, notamment pour renforcer sa sécurité. Malheureusement, aucune date d’ouverture au public n’a encore été annoncé. Il faudra donc faire preuve de patience pour pouvoir profiter de la puissance de cet outil innovant.
Auteurs : Dr Axel Journe et Dr Alexandra Benamar