Décoder le raisonnement LLM | Progrès du leadership éclairé en IA

Hollywood fournit des indices de raisonnement basés sur la narration de nombreux films. Nous pouvons utiliser les analogies dans les scènes de films pour montrer comment les grands modèles linguistiques (LLM) arrivent à des conclusions, qui sont plus précisément décrites comme des hypothèses.
Lors de l’évaluation des stratégies de raisonnement, nous pouvons distinguer ce qu’elles visent à réaliser :
- Le raisonnement déductif est le plus rigoureux, visant à certitude si ses prémisses universelles sont vraies.
- Le raisonnement inductif vise à forte probabilité en généralisant des observations spécifiques.
- Le raisonnement abductif vise à meilleure explication ou l’hypothèse la plus plausible basée sur un ensemble de faits.
La scène finale du film Les suspects habituels (1995) est une masterclass en raisonnement déductif. L’agent Kujan réalise la vérité sur le suspect, Verbal Kint, sur la base d’une prémisse observable et fixe, car au départ, Kujan croyait que le témoignage de Verbal était un récit factuel d’un complot criminel.
L’histoire présentée par Verbal Kint contenait des entités spécifiques, notamment des noms, des lieux et des événements, mais il s’agissait toutes de fabrications qu’il avait construites en faisant référence à des objets de son environnement immédiat. L’agent finit alors par se rendre compte que les objets présents dans le bureau correspondent aux détails et aux noms figurant dans le témoignage de Verbal Kint, à savoir Kobayashi, Keaton et Soze de la marque de café et de l’affiche dans son bureau.
Ces noms et détails, identiques aux objets du bureau, suggéraient que l’histoire avait été entièrement fabriquée sur place en utilisant ces détails comme indices. La déduction ultime et certaine de l’agent est que Verbal Kint lui-même est le mythique chef du crime, Keyser Soze, et que tout son témoignage est un mensonge. Ceci est un exemple de raisonnement déductif classique : pour le raisonnement déductif, la prémisse est vraie et la conclusion s’ensuit avec certitude.
La nature abductive du raisonnement LLM
Le processus de raisonnement d’un LLM est plus précisément appelé raisonnement abductif. Le raisonnement abductif est un processus utilisé pour arriver à une conclusion qui constitue la meilleure hypothèse probable. Le résultat est très probable mais la véracité n’est pas garantie. Un LLM peut arriver à la vérité la plus probable en utilisant la correspondance de modèles.
Si A et B sont vrais, alors C est la meilleure explication. La « meilleure explication » n’exige pas de preuves concluantes, mais plutôt un ensemble de faits identifiés afin de créer une hypothèse qui prend en compte tous les faits. Un enlèvement est un scénario qui offre l’explication la plus complète et la plus logique des circonstances.
Le processus de raisonnement LLM reflète le raisonnement abductif humain. Un LLM répondra à une question qui n’a pas de vérité universelle garantie. Au lieu de cela, ses conclusions sont des hypothèses basées sur ses ensembles de données de formation. Il renvoie l’explication la plus probable ou la meilleure pour un ensemble de faits donné. Le monde intérieur d’un LLM est composé de milliards de jetons et crée un million de modèles probabilistes différents et forme des généralisations. Ainsi, le raisonnement du LLM est, par nature, incertain.
Étant donné qu’un LLM ne peut pas faire de déductions entièrement nouvelles, je m’attends à ce que si je pose une question basée sur un scénario nouveau ou sous-estimé, il récupère des informations basées sur sa mémoire.
Le test du projet architectural
Auparavant, je testais des modèles basés sur des informations abstraites, mais ils ne pouvaient pas effectuer de recherche car ils manquaient de détails spécifiques sur le domaine individuel et étaient incapables d’établir certaines connexions.
Pour effectuer un test plus rigoureux, j’ai créé une tâche pour cinq LLM connectés à Internet. La tâche impliquait des entités chargées d’effectuer une recherche avec les détails d’un projet architectural unique. Le test a été conçu pour voir si les modèles pouvaient établir des connexions ou des relations (c’est-à-dire une étape de raisonnement supérieure comprenant une étape déductive).
Entité A – [Relationship] – Entité B
Les détails du projet comprenaient :
- Nom unique du bâtiment
- Commissaire
- Architecte
- Emplacement (j’ai accidentellement ajouté la mauvaise ville pour cette entité.)
En raison de mon erreur, les modèles présentaient trois entités factuelles nommées sur quatre. J’ai ensuite fourni les étapes à suivre pour les modèles :
- Recherchez des preuves de l’achèvement ou de l’annulation du bâtiment.
- Sur la base uniquement des preuves trouvées, déterminez si le bâtiment a été érigé/achevé ou reste non construit/annulé.
- Résultat requis : « Oui » (Construit) ou « Non » (Non construit/Annulé) + Résumé des preuves
Les cinq modèles sont arrivés à la même conclusion : « Non » (Non construit/Annulé). Néanmoins, les résultats ont été surprenants ! J’ai pu mesurer la planification et le raisonnement des modèles. Même si tous les modèles sont parvenus à la bonne conclusion, tous leurs raisonnements n’étaient pas valables. En conclusion, seuls trois modèles ont réussi ce test, avec un grand gagnant.
Analyse des stratégies de modèle
Voici un tableau des résultats :
Bien que GPT-5 et Grok-4 aient pu parvenir à la conclusion correcte, leur raisonnement n’est pas solide et, dans un scénario différent, ne conduirait pas à un résultat correct.
Le raisonnement fallacieux (inductif)
Grok-4 et GPT-5 ont conclu que le projet n’était toujours pas construit car ils n’ont trouvé aucune preuve de son achèvement.
Grok-4 fait directement référence à « l’absence de preuves, combinée à des détails de localisation erronés », indiquant que le projet n’est toujours pas construit. Il a trouvé 16 sources et recherché des mentions directes dans ces sources, en basant sa conclusion sur ce qui manquait.
GPT-5 a trouvé deux sources et a également déclaré qu’il n’y avait « aucune mention d’achèvement ou d’ouverture » pour arriver à sa conclusion.
Le principe de ces deux modèles est qu’il existe un ensemble limité de documents ou de données. Ils concluent effectivement que « j’ai examiné ma base de connaissances et elle ne contient aucune preuve de l’état du bâtiment ». Leur conclusion sur l’existence du bâtiment n’est pas vraie car il ne s’agit pas d’un fait établi.
Ce raisonnement est erroné. Ce n’est pas parce qu’il n’y a pas de données disponibles qu’il n’y a pas de bâtiment. L’existence du bâtiment n’est peut-être pas documentée, mais elle pourrait bien être un fait. Ce type d’erreur logique est appelé « appel à l’ignorance ».
« L’absence de preuve n’est pas la preuve de l’absence. »
Le bon raisonnement (déductif)
Claude Opus 4 a trouvé quatre sources et les a toutes référencées. Il a fortement pondéré une déclaration provenant de la source originale du projet et a vérifié cette information par rapport à trois sources distinctes comme preuve définitive. Claude a trouvé la source faisant autorité (le plan du bâtiment sur le site Internet de l’architecte), puis a activement recherché des informations plus récentes, ce qui a conduit à une conclusion solide.
La stratégie de Gemini 2.5 Pro est une mise à la terre basée sur le temps. C’est l’approche la plus judicieuse car les articles précédents semblaient se contredire. Gemini a utilisé les documents officiels les plus récents pour vérifier que le projet n’était pas terminé à cette date, tout en le confirmant à l’aide de contre-preuves. Dans ce scénario, le filtrage de haute autorité de Gemini a joué en sa faveur ; cependant, les Gémeaux dépendent du document officiel le plus récent comme résultat final.
Le raisonnement supérieur (vérification déductive/inverse)
Étonnamment, le gagnant est Perplexity Sonar Reasoning Pro. En effet, Perplexity a trouvé 16 sources, y compris la conception de l’architecte officiel, et l’a utilisée comme preuve de scène. Perplexity n’a pas utilisé les mêmes sources que Gemini (c’est-à-dire les documents officiels) mais a trouvé des sources pertinentes. De plus, Perplexity a utilisé des sources supplémentaires pour trouver l’exploitation proposée du bâtiment et son état actuel de fonctionnement grâce aux recherches en plusieurs étapes suivantes :
Perplexity a pu trouver la réalité actuelle à cet endroit comme preuve.
Il a ensuite effectué une vérification inverse en utilisant des sources indépendantes pour combiner les preuves.
Ensuite, elle a utilisé ces sources pour conclure que le bâtiment n’était probablement pas construit.
Enfin, il cherchait une contradiction comme preuve définitive. Ce type de raisonnement est supérieur car c’est le seul qui prouve logiquement que le bâtiment n’a pas été achevé ou occupé sur la base des preuves actuelles qu’un autre bâtiment est occupé.
Source link
