Le seuil de 100 milliards de dollars de bénéfices que nous avons mentionné précédemment associe le succès commercial à la capacité cognitive, comme si la capacité d’un système à générer des revenus disait quelque chose de significatif sur sa capacité à « penser », à « raisonner » ou à « comprendre » le monde comme un humain.
Sam Altman s’exprime sur scène lors du New York Times Dealbook Summit 2024 au Jazz at Lincoln Center le 4 décembre 2024 à New York.
Crédit :
Eugene Gologursky via Getty Images
En fonction de votre définition, il se peut que l’AGI existe déjà ou qu’elle soit physiquement impossible à réaliser. Si l’on définit l’AGI comme une « IA plus performante que la plupart des humains pour la plupart des tâches », alors les modèles de langage actuels répondent potentiellement à cette exigence pour certains types de travaux (quelles tâches, quels humains, qu’est-ce qui est « mieux » ? Cela ne dit rien du concept encore plus obscur de « superintelligence », autre terme nébuleux désignant une intelligence hypothétique, semblable à celle d’un dieu, qui dépasse tellement la cognition humaine que, comme l’IAG, elle échappe à toute définition solide et à tout point de référence.
Face à ce chaos définitionnel, les chercheurs ont tenté de créer des repères objectifs pour mesurer les progrès vers l’AGI, mais ces tentatives ont révélé leur propre série de problèmes.
Pourquoi les repères continuent de nous faire défaut
La recherche de meilleurs benchmarks pour l’AGI a produit quelques alternatives intéressantes au test de Turing. Le Corpus d’abstraction et de raisonnement (ARC-AGI), introduit en 2019 par François Chollet, teste si les systèmes d’IA peuvent résoudre de nouvelles énigmes visuelles qui nécessitent un raisonnement analytique profond et novateur.
« Presque tous les critères de référence actuels de l’IA peuvent être résolus purement par mémorisation », a déclaré Chollet à Freethink en août 2024. L’un des principaux problèmes des tests d’IA provient actuellement de la contamination des données : lorsque des questions de test se retrouvent dans les données d’entraînement, les modèles peuvent sembler performants sans vraiment « comprendre » les concepts sous-jacents. Les grands modèles de langage servent de maîtres imitateurs, reproduisant les schémas trouvés dans les données d’entraînement, mais ne proposant pas toujours de nouvelles solutions aux problèmes.
Cependant, même les critères de référence sophistiqués comme ARC-AGI se heurtent à un problème fondamental : ils tentent toujours de réduire l’intelligence à un score. Et si des critères améliorés sont essentiels pour mesurer les progrès empiriques dans un cadre scientifique, l’intelligence n’est pas une chose unique que l’on peut mesurer, comme la taille ou le poids, c’est une constellation complexe de capacités qui se manifestent différemment dans des contextes différents. En fait, nous ne disposons même pas d’une définition fonctionnelle complète de l’intelligence humaine, de sorte que la définition de l’intelligence artificielle à l’aide d’un seul score de référence n’englobera probablement qu’une petite partie de l’image complète.