Sommet de l’IA : les frontières de l'IA générative

Lors de la conférence « AI, Science and Society » organisée par l'Institut Polytechnique de Paris les 6 et 7 février 2025 à l’École polytechnique, le symposium « Frontiers in Generative AI» a permis d'explorer les avancées des IA génératives, dont ChatGPT est l'exemple emblématique. Vicky Kalogeiton a en particulier présenté ses travaux de recherche menés au Laboratoire d'informatique de l'École polytechnique (LIX*).

17 fév. 2025

Recherche, IA et Science des données, LIX

L'IA générative est la suite naturelle de l'apprentissage automatique (machine learning en anglais). Un ordinateur prédit le comportement d'un système en se basant sur des données qu'il a déjà analysées Pour ce faire, il apprend à reconnaître des motifs dans les données existantes lors d'une phase "d'entraînement". Ce processus élimine la nécessité de passer au crible manuellement d'énormes quantités de données.

Mais en plus de reconnaître et de prédire des motifs, l'IA générative peut également de créer de nouveaux contenus, de manière statistique. Par exemple, elle peut inventer une histoire à partir de quelques lignes d'entrée ou transformer de simples commandes en images réalistes et même en clips vidéo.

Une histoire qui n'a pas commencé avec ChatGPT

L'IA générative la plus connue est ChatGPT (où GPT signifie generative pre-trained transformer). Cet exemple de grand modèle de langage (en anglais, Large language model ou LLM) remonte en fait aux années 1950, lorsque le mathématicien américain Claude Shannon a appliqué la théorie de l'information - la branche des mathématiques qui traite de la quantification, du stockage et de la transmission de l'information - au langage humain. Ces méthodes statistiques de modélisation du langage sont désormais régulièrement utilisées pour un large éventail de tâches, des logiciels de correcteur d’orthographe à la traduction.

Depuis le lancement de ChatGPT fin 2022, d'autres modèles d'IA générative ont fait leur apparition. Gemini et Perplexity, Mistral en sont d'autres exemples. Tous ces modèles sont entraînés sur une large gamme de sources, comme des livres et des articles Wikipédia (ce qui n'est pas sans poser des problèmes de non-prise en compte des droits d'auteur). Pour les applications linguistiques, ils fonctionnent en attribuant des probabilités à chaque mot possible dans une phrase. Ils ne sont donc pas, à proprement parler, de véritables « intelligences ».

Le symposium « Frontiers in Generative AI», présidé par Karteek Alahari, directeur de recherche à Inria, a mis en lumière les recherches de pointe en mathématiques qui font progresser le domaine. La technologie a maintenant atteint un niveau supérieur et permet aux chercheurs dans le domaine d'explorer de nouveaux scénarios plutôt que de traiter simplement les données existantes. Cela pourrait avoir des implications pour une multitude de domaines scientifiques et médicaux, notamment la découverte de nouveaux matériaux pour des applications industrielles et technologiques et le développement de modèles physiques et mathématiques. L'un de ces modèles bien connus est « AlphaFold », qui peut prédire les structures moléculaires pour accélérer la découverte de médicaments et aider à concevoir de nouvelles protéines. Ces modèles reposaient auparavant sur des techniques telles que la dynamique moléculaire, qui sont coûteuses et prennent du temps et qui ont besoin des superordinateurs.

S’inspirer des cinéastes

L'une des principales intervenantes du symposium, Vicky Kalogeiton, professeure à l'École polytechnique, travaille sur des modèles génératifs avancés de conversion dynamique de texte en image ou de parole en image. L'objectif de ces recherches est de créer des vidéos à partir de reportages, d'histoires et d'autres contenus textes écrits et de sons qui transmettent avec fidélité les émotions. Pour y parvenir, l'IA doit aller au-delà de la simple génération d'images ou de séquences (comme les systèmes de traitement vidéo ordinaires tels que ceux utilisés par YouTube, Netflix et Amazon). Les processus qu’elle utilise s'inspirent de la façon dont les cinéastes humains travaillent soigneusement les scènes, sélectionnent les angles de prise et ajustent l'éclairage pour évoquer des émotions bien spécifiques.

La tâche est difficile car la plupart des modèles d'IA actuels sont « autorégressifs », c'est-à-dire, ils s'appuient sur une image fixe précédente pour construire la suivante, et ainsi de suite. Ils ne peuvent donc pas « raconter » une histoire. Être capable de relier des images fixes distinctes et même de compléter les images manquantes constitue un changement de paradigme dans le domaine.

Le travail de Vicky Kalogeiton consiste à comprendre les interactions entre les personnages dans les films, par exemple, en exploitant des données multimodales. Pour les humains, ces données peuvent être perçues sous forme de visions, d'odeurs et de sons, mais pour l'IA, il s'agit de données sous forme de texte, d'images, de fichiers audio ou de vidéos.

Ces techniques multimodales avancées pourraient être utilisées au-delà des applications de divertissement et de narration et être appliquées à des domaines spécialisés tels que l'imagerie médicale.

*LIX : une unité mixte de recherche CNRS, École polytechnique, Institut Polytechnique de Paris, 91120 Palaiseau, France

Retour