
Cet article est extrait du numéro mensuel de Sciences et Avenir – La Recherche n°908, octobre 2022.
Est-ce une image réelle ou a-t-elle été créée avec un algorithme ? L’incroyable développement de l’intelligence dite artificielle (IA) brouille régulièrement un peu plus la frontière entre la réalité et son imitation. Les premiers mois de 2022 ont permis une phase inédite : pour arriver à maturité, le travail de recherche permet de façon troublante la transformation des mots en images (photos, dessins, croquis, imitations de collages, etc.) sur l’écran de l’ordinateur. l’ordinateur.
Les plus puissantes de ces technologies ont encore un accès limité. Mais pour nous convaincre, d’autres sont déjà disponibles en ligne. Dall-E 2 (le nom combine celui de Salvador Dalí et du robot Wall-E du film éponyme) est le plus connu. Il a été présenté en avril par le centre de recherche en intelligence artificielle OpenAI, qui a été à la pointe des développements. Craiyon est une version simplifiée pour le grand public. Imagen de Google et StableDiffusion, conçu par une équipe de recherche de l’Université Ludwig-Maximilians de Munich (Allemagne) en collaboration avec la start-up Stability.AI, est spécialisé dans le rendu photoréaliste. Les créations de Midjourney, la start-up américaine du même nom, ont l’esthétique d’œuvres d’art. En juin, l’hebdomadaire britannique L’économiste il s’en est même servi pour dessiner la première page : un visage rétrofuturiste sur fond de formes géométriques colorées illustrant un dossier “Les nouvelles frontières de l’intelligence artificielle “.
Ce flux est appelé “text-to-image”. La première étape consiste pour l’utilisateur à générer des éléments visuels à partir de mots et de phrases en langage naturel. Mais l’état de la recherche permet d’aller beaucoup plus loin. En ajoutant des termes comme ‘feutre’, ‘fusain’, ‘aquarelle’, mais aussi ‘Van Gogh’ ou ‘Dali’, vous pouvez leur appliquer le style graphique approprié.
Le niveau de détail, la fidélité à la description proposée, le réalisme des textures peuvent prêter à confusion, même avec des textes absurdes. Ceci est démontré par la capacité d’Imagen à “Un raton laveur portant un casque d’astronaute regarde par la fenêtre la nuit “. Un résultat spectaculaire, mais il faut beaucoup d’essais et d’erreurs sur le texte avant d’obtenir un résultat satisfaisant.
Pourtant, rarement les travaux de recherche se sont retrouvés aussi rapidement au centre des questions de société, d’art et d’économie. Pour preuve : fin août, un tableau avec pour titre Théâtre de l’Opéra de l’Espace, Il a remporté le concours d’art numérique généré par Midjourney et présenté au jury de la Colorado State Fair (USA). Un verdict qui a immédiatement suscité l’ire d’autres artistes qui utilisaient eux-mêmes des logiciels d’infographie classiques. Le lauréat en sciences humaines (ou plutôt co-auteur) a dû se défendre en disant qu’il avait travaillé 80 heures, modifiant son texte et corrigeant des éléments à la main avant d’arriver à l’ouvrage final.
Des résultats différents selon les bases de données d’images
Cependant, la démarche soulève des questions. L’artiste dépend ici des bases de données sur lesquelles les algorithmes sont entraînés. Cependant, ils affectent leurs performances, sans parler des distorsions qu’ils provoquent. “On peut obtenir un affichage très différent entre des algorithmes entraînés sur une collection d’images publiées sur Facebook et des algorithmes basés sur des images Flickr, – explique Michel Nerval, co-fondateur du studio de création numérique U2p050. Certaines personnes sont beaucoup plus instruites que d’autres. “
Le studio a sorti la bande dessinée en septembre Moebia, “dessiné” par l’algorithme VQGan+Clip à partir d’une histoire courte. Mais nous avons dû tester et choisir parmi cinq bases de données. “D’habitude, on commençait par taper la phrase écrite pour le livre. Parfois cela donnait directement le résultat attendu, mais parfois des phrases trop longues “perdent” l’IA et ça ne marche pas. Dans ce cas, il fallait plus travail basé sur des mots-clés pour contrôler l’algorithme Michel Nerval précise.
La révolution du « text-to-image » est en fait une extension des intelligences artificielles dites génératives, comme les GAN ou réseaux génératifs antagonistes, apparus en 2014. (lis S. et A. n° 858, août 2018). Cette approche consiste en deux algorithmes « s’affrontant », l’un créant du contenu et l’autre le jugeant acceptable ou non. Il est parfois associé à la saisie de texte, par exemple dans le GauGan 2 du géant des processeurs graphiques Nvidia.
L’outil GauGan Avec Nvidia, vous pouvez créer des photos à partir de croquis approximatifs. Il prédit GauGan 2, qui part d’une description textuelle. Crédit : Nvidia
L’algorithme associe une description à une image que vous n’avez jamais vue auparavant
“L’innovation en termes de texte vient du modèle Clip, qui permet d’afficher du texte et des images dans un espace commun » – note Matthieu Labeau, spécialiste du traitement automatique du langage à Télécom Paris. Sorti par OpenAI en janvier 2021, Clip s’entraîne sur 400 millions d’images et leurs descriptions textuelles sur Internet (légendes, métadonnées), et non plus sur des images avec un résumé tag (“chien”, “chaise”), comme dans les jeux de données destinés aux chercheurs. L’aspect colossal de ce matériel d’entraînement permet alors à l’algorithme d’extrapoler une description pour une image qu’il n’a jamais vue.
L’objectif initial d’OpenAI était de pouvoir indexer et classer les images plus efficacement. Le clip peut également être utilisé pour rechercher des images similaires ou pour modérer le contenu. Mais c’est ce projet qui a conduit l’entreprise à développer l’algorithme génératif Dall-E, dont la première version est sortie en même temps que Clip. “Notre modèle est proche de GPT (modèle de traitement du langage naturel également créé par OpenAI, ndlr)qui consiste à prédire un élément à la fois (mot, article, espace, ponctuation…, ndlr) sauf que ces éléments sont constitués de fragments d’images au lieu de mots ” – explique le créateur de Craiyon Boris Dayma.
Dans le cas de la composante “image”, il s’agit d’une approche différente : “diffusion”. Ces types d’algorithmes d’apprentissage en profondeur produisent du « bruit », c’est-à-dire un nuage de pixels aléatoires. Puis elle “s’estompe” progressivement en réarrangeant les pixels, non plus au hasard, mais en tenant compte du texte décrivant l’image souhaitée. L’efficacité de cette approche permet le photoréalisme de Dall-E 2, qui était mal géré par la première version (qui n’utilisait pas la diffusion) ou par Imagen.
Ce n’est que le début. Début septembre, l’équipe du Massachusetts Institute of Technology (Cambridge, USA) a présenté Composable Diffusion, l’amélioration de la diffusion. “Les algorithmes actuels de conversion de texte en image ont quelques difficultés à créer des scènes à partir de descriptions complexes, par exemple lorsqu’il y a plusieurs marqueurs ; certains éléments peuvent être absents de l’image » note Shuang Li, co-auteur de l’étude.
L’approche proposée fait alors intervenir plusieurs modèles de diffusion, chacun considérant un fragment de phrase. Cela montre à nouveau que lorsque l’IA présente des capacités à couper le souffle, les humains gardent le contrôle. C’est lui qui acquiert le code, le publie ou non, le corrige, développe les modèles, décide des jeux de données d’entraînement. Si la créativité des machines existe, elle dépend (encore) des humains.
Le côté obscur de la performance technique
En utilisant les algorithmes Midjourney ou Dall-E 2, il est impossible d’obtenir une image à partir d’expressions à connotation sexuelle ou violente. Ils sont prêts à les bloquer. Mais StableDiffusion n’a pas ces garanties… D’où Joshua Achiam, spécialiste de l’apprentissage par renforcement chez OpenAI. Dans ses tweets publiés le 10 septembre, il salue les promesses de créativité “texte-image”, mais redoute l’afflux de contenus violents, choquants, manipulateurs.
Un autre problème récurrent en IA est le biais. Parce que ces algorithmes sont formés sur le contenu trouvé sur le Web, ils entretiennent toutes sortes de discriminations. A cela s’ajoutent d’éventuelles atteintes au droit d’auteur. L’agence photo Getty Images a annoncé fin septembre qu’elle rejetterait les images créées par l’intelligence artificielle, des œuvres protégées pouvant apparaître sur des bases d’entraînement sans autorisation.