Comment un changement important dans la formation des LLM a conduit à une explosion des capacités

Dans un article récent, Benj Edwards, d’Ars Technica, a exploré certaines des limites des modèles de raisonnement formés à l’aide de l’apprentissage par renforcement. Par exemple, une étude « a révélé des incohérences déconcertantes dans la manière dont les modèles échouent. Claude 3.7 Sonnet a pu effectuer jusqu’à 100 mouvements corrects dans l’espace de travail. Tour de Hanoi mais a échoué après seulement cinq coups dans une énigme de traversée de rivière, bien que cette dernière ait nécessité moins de coups au total ».

Conclusion : L’apprentissage par renforcement a rendu les agents possibles

L’une des applications les plus discutées pour les LLM en 2023 était la création de chatbots capables de comprendre les documents internes d’une entreprise. L’approche conventionnelle de ce problème était appelée RAG (retrieval augmented generation).

Lorsque l’utilisateur pose une question, un système RAG effectue une recherche par mot-clé ou par vecteur pour récupérer les documents les plus pertinents. Il insère ensuite ces documents dans la fenêtre contextuelle d’un LLM avant de générer une réponse. Les systèmes RAG peuvent faire l’objet de démonstrations convaincantes. Mais ils ne fonctionnent généralement pas très bien dans la pratique, car une seule recherche ne permet souvent pas de retrouver les documents les plus pertinents.

Aujourd’hui, il est possible de développer des systèmes de recherche d’informations beaucoup plus performants en permettant au modèle lui-même de choisir les requêtes de recherche. Si la première recherche n’aboutit pas aux bons documents, le modèle peut réviser la requête et réessayer. Un modèle peut effectuer cinq, vingt ou même cent recherches avant de fournir une réponse.

Mais cette approche ne fonctionne que si un modèle est « agentique », c’est-à-dire s’il peut rester concentré sur sa tâche pendant plusieurs cycles de recherche et d’analyse. Les LLM étaient très mauvais dans ce domaine avant 2024, comme l’ont montré les exemples d’AutoGPT et de BabyAGI. Les modèles d’aujourd’hui y parviennent beaucoup mieux, ce qui permet aux systèmes modernes de type RAG de produire de meilleurs résultats avec moins d’échafaudage. On peut considérer les outils de « recherche approfondie » d’OpenAI et d’autres comme des systèmes RAG très puissants, rendus possibles par le raisonnement en contexte long.

Le même point s’applique aux autres applications agentiques que j’ai mentionnées au début de l’article, telles que les agents de codage et d’utilisation de l’ordinateur. Ce que ces systèmes ont en commun, c’est une capacité de raisonnement itératif. Ils pensent, entreprennent une action, réfléchissent au résultat, entreprennent une autre action, et ainsi de suite.

Timothy B. Lee a travaillé pour Ars Technica de 2017 à 2021. Aujourd’hui, il écrit Comprendre l’IA, une lettre d’information qui explore le fonctionnement de l’IA et la façon dont elle change notre monde. Vous pouvez vous abonner ici.