D’autant plus que l’article évoque un taux d’erreur de 70 % sur les navigateurs “agentiques”. Ce chiffre est avancé sans aucune méthodologie claire — un chiffre à l’emporte-pièce. Aucun LLM sérieux ne présente un taux d’erreur aussi élevé de manière globale. Les tests ne se passent pas comme cela : les erreurs sont évaluées par tâche, par domaine, selon des benchmarks rigoureux (MMLU, GSM8K, ARC, etc.).
Par exemple, GPT-4 atteint plus de 85 % de réussite sur des tests en logique, droit ou médecine. Sur des tâches bien définies comme la rédaction ou le résumé, il peut même atteindre 100 % de satisfaction humaine :
Rédaction d’emails ou de rapports : 98–100 % de clarté et pertinence.
Résumé d’articles de presse ou scientifiques : 90–100 % de fidélité sans hallucination.
Correction grammaticale : >95 % sur des corpus spécialisés.
Ce que l’étude semble confondre, c’est l’erreur du système agentique dans son ensemble (interface, exécution, supervision) avec l’erreur du modèle de langage lui-même. Si un navigateur IA met 16 minutes à réserver un vol et se trompe de date, cela relève autant de la conception de l’agent que du LLM — absence de validation, mauvaise gestion des états, etc.
Enfin, l’étude sur la consommation de CO₂ est totalement hors-sol. Elle avance des chiffres spectaculaires (68 g de CO₂ par requête ChatGPT contre 0,2 g pour Google Search), mais sans citer aucun protocole de mesure, ni préciser les hypothèses retenues. Parle-t-on d’une requête simple ou d’un échange complexe ? D’un modèle hébergé sur GPU A100 ou sur TPU ? Inclut-on le refroidissement, la fabrication des serveurs, ou seulement l’inférence ?
Par contre, je rejoins l’article sur le fond : la pertinence de ce type de navigateur reste très discutable. Demander à un agent comme Comet de “passer la pub sur YouTube” est non seulement contre-productif, mais révèle une incompréhension du rôle que devrait jouer un assistant intelligent. Ce n’est pas ce type de navigateur qui deviendra notre super assistant de direction personnel.