L’entreprise a testé 123 cas représentant 29 scénarios d’attaque différents et a constaté un taux de réussite de 23,6 % lorsque le navigateur est utilisé sans mesures de sécurité.
Un exemple concerne un courriel malveillant qui demande à Claude de supprimer les courriels d’un utilisateur à des fins d' »hygiène de la boîte aux lettres ». Sans mesures de protection, Claude a suivi ces instructions et a supprimé les courriels de l’utilisateur sans confirmation.
Anthropic affirme avoir mis en place plusieurs mesures de défense pour remédier à ces vulnérabilités. Les utilisateurs peuvent accorder ou révoquer l’accès de Claude à des sites web spécifiques par le biais d’autorisations au niveau du site. Le système exige une confirmation de l’utilisateur avant que Claude n’entreprenne des actions à haut risque telles que la publication, l’achat ou le partage de données personnelles. L’entreprise a également empêché Claude d’accéder à des sites web proposant des services financiers, des contenus pour adultes et des contenus piratés par défaut.
Ces mesures de sécurité ont permis de réduire le taux de réussite des attaques de 23,6 % à 11,2 % en mode autonome. Dans le cadre d’un test spécialisé portant sur quatre types d’attaques spécifiques à un navigateur, les nouvelles mesures d’atténuation auraient permis de réduire le taux de réussite de 35,7 % à 0 %.
Le chercheur indépendant en IA Simon Willison, qui a beaucoup écrit sur les risques de sécurité de l’IA et a inventé le terme « prompt injection » en 2022, a qualifié le taux d’attaque restant de 11,2 % de « catastrophique », écrivant sur son blog que « en l’absence d’une protection fiable à 100 %, j’ai du mal à imaginer un monde dans lequel c’est une bonne idée de déclencher ce modèle ».
Par « modèle », M. Willison fait référence à la récente tendance à intégrer des agents d’intelligence artificielle dans les navigateurs web. « Je pense fortement que le concept même d’une extension de navigateur agentique est fatalement défectueux et ne peut pas être construit en toute sécurité », a-t-il écrit dans un article précédent sur des problèmes de sécurité similaires d’injection rapide récemment découverts dans Perplexity Comet.
Les risques de sécurité ne sont plus théoriques. La semaine dernière, l’équipe de sécurité de Brave a découvert que le navigateur Comet de Perplexity pouvait être piégé pour accéder aux comptes Gmail des utilisateurs et déclencher des flux de récupération de mot de passe grâce à des instructions malveillantes cachées dans des messages Reddit. Lorsque les utilisateurs demandaient à Comet de résumer un fil de discussion Reddit, les attaquants pouvaient intégrer des commandes invisibles qui demandaient à l’IA d’ouvrir Gmail dans un autre onglet, d’extraire l’adresse électronique de l’utilisateur et d’effectuer des actions non autorisées. Bien que Perplexity ait tenté de corriger la vulnérabilité, Brave a confirmé par la suite que ses mesures d’atténuation avaient été mises en échec et que la faille de sécurité subsistait.
Pour l’instant, Anthropic prévoit d’utiliser son nouvel aperçu de recherche pour identifier et traiter les modèles d’attaque qui émergent dans le monde réel avant de rendre l’extension Chrome plus largement disponible. En l’absence de bonnes protections de la part des fournisseurs d’IA, la charge de la sécurité incombe à l’utilisateur, qui prend un risque important en utilisant ces outils sur le web ouvert. Comme l’a fait remarquer M. Willison dans son billet sur Claude pour Chrome, « je ne pense pas qu’il soit raisonnable d’attendre des utilisateurs finaux qu’ils prennent de bonnes décisions concernant les risques de sécurité ».