C'est désormais officiel : ChatGPT vous rend bête

Date de publication : 21-06-2025

Auteur : Xavier Lanne

Télécharger

Une récente étude du MIT révèle que les individus utilisant les LLM mettent en œuvre beaucoup moins de connexions neuronales que les personnes utilisant simplement leur mémoire ou des moteurs de recherche. Cette étude, bien que préliminaire, montre des résultats déjà significatifs. Nous vous proposons ici un résumé des principaux aspects de l'étude.

Image des connexions neuronales en fonction de l'interaction

Présentation

Traduction provenant de la présentation de l'étude

Avec l'adoption généralisée actuelle des produits basés sur les grands modèles de langage (LLM) comme ChatGPT d'OpenAI, les individus et les entreprises interagissent quotidiennement avec ces outils. Comme tout outil, ils présentent à la fois des avantages et des limitations. Cette étude vise à évaluer le coût cognitif de l'utilisation d'un LLM dans un contexte éducatif, en particulier pour la rédaction d'un essai.

Nous avons réparti les participants en trois groupes : un groupe LLM, un groupe moteur de recherche, et un groupe « cerveau uniquement », où chaque participant utilisait l'outil désigné (ou aucun outil pour le dernier groupe) pour rédiger un essai. Nous avons mené trois sessions avec la même répartition des groupes pour chaque participant. Lors de la quatrième session, nous avons demandé aux participants du groupe LLM de ne pas utiliser d'outils (désignés comme LLM-vers-Cerveau), et à ceux du groupe Cerveau uniquement d'utiliser un LLM (Cerveau-vers-LLM). Au total, 54 participants ont pris part aux sessions 1, 2 et 3, et parmi eux, 18 ont complété la session 4.

Nous avons utilisé l'électroencéphalographie (EEG) pour enregistrer l'activité cérébrale des participants, afin d'évaluer leur engagement cognitif, leur charge cognitive, et de mieux comprendre les activations neuronales pendant la tâche de rédaction. Nous avons effectué une analyse en traitement automatique du langage naturel (TAL), et nous avons interviewé chaque participant après chaque session. L'évaluation des essais a été réalisée à la fois par des enseignants humains et un juge IA (un agent intelligent spécialement conçu).

Alors que l'impact éducatif de l'utilisation des LLM commence seulement à être perçu par le grand public, cette étude met en lumière une question urgente : la probable diminution des capacités d'apprentissage liée à leur usage, selon nos résultats. L'utilisation du LLM a eu un impact mesurable sur les participants, et bien que les bénéfices aient été visibles au début, nous avons démontré, sur une période de quatre mois, que les participants du groupe LLM obtenaient de moins bons résultats que ceux du groupe cerveau uniquement à tous les niveaux : neuronal, linguistique, et évaluatif.

Nous espérons que cette étude pourra servir de guide préliminaire pour comprendre les impacts cognitifs et pratiques de l'IA dans les environnements d'apprentissage.

But de l'étude

Traduction d'un extrait page 10-11 de l'étude originale.

La transformation des paradigmes de recherche traditionnels par les LLM ajoute une couche supplémentaire de complexité à l'apprentissage. Contrairement aux moteurs de recherche classiques qui présentent des points de vue variés pour permettre à l'utilisateur de les évaluer, les LLM offrent des réponses synthétisées et uniques qui peuvent involontairement décourager la pensée critique et le jugement indépendant. Ce passage de la recherche active d'information à la consommation passive de contenu généré par l'IA peut avoir des implications profondes sur la manière dont les générations actuelles et futures traitent et évaluent l'information.

Nous présentons ainsi une étude qui explore le coût cognitif de l'utilisation d'un LLM lors de la tâche de rédaction d'un essai. Nous avons choisi la rédaction d'essais car il s'agit d'une tâche cognitivement complexe qui engage plusieurs processus mentaux, tout en étant utilisée comme un outil courant dans les écoles et dans les tests standardisés des compétences des élèves. La rédaction d'un essai impose des exigences importantes sur la mémoire de travail, nécessitant la gestion simultanée de multiples processus cognitifs. Une personne rédigeant un essai doit jongler entre des tâches de niveau macro (organisation des idées, structuration des arguments) et des tâches de niveau micro (choix des mots, grammaire, syntaxe). Afin d'évaluer l'engagement cognitif et la charge cognitive, ainsi que de mieux comprendre les activations cérébrales lors de la réalisation de cette tâche de rédaction, nous avons utilisé l'électroencéphalographie (EEG) pour mesurer les signaux cérébraux des participants.

En plus de l'utilisation d'un LLM, nous souhaitons également comprendre et comparer les activations cérébrales lors de l'exécution de la même tâche en utilisant une recherche Internet classique et lorsqu'aucun outil (ni LLM ni moteur de recherche) n'est disponible pour l'utilisateur. Nous avons également collecté des questionnaires ainsi que des entretiens avec les participants après chaque tâche. […]

Notre étude tente de répondre aux questions suivantes :

  1. Les participants écrivent-ils des essais significativement différents selon qu'ils utilisent un LLM, un moteur de recherche, ou rien ?
  2. L'activité cérébrale diffère-t-elle selon ces modes d'écriture ?
  3. L'usage d'un LLM impacte-t-il la mémoire des participants ?
  4. L'usage du LLM affecte-t-il le sentiment de propriété des textes rédigés ?

Expériences individuelles

Méthode : analyse de l'entretien post-évaluation

Traduction d'un extrait page 29-30 de l'étude originale.

Après avoir terminé la tâche, les participants ont été invités à discuter de la tâche et de leur approche pour la réaliser.

Les questions comprenaient (légèrement ajustées pour chaque groupe) :

  1. Pourquoi avez-vous choisi ce sujet pour votre essai ?
  2. Avez-vous suivi une structure particulière pour rédiger votre essai ?
  3. Comment avez-vous procédé pour rédiger votre essai ?
    • Groupe LLM : Avez-vous commencé seul ou avez-vous demandé à ChatGPT d'abord ?
    • Groupe Moteur de Recherche : Avez-vous visité des sites web spécifiques ?
  4. Pouvez-vous citer une phrase de votre essai sans le regarder ?
    • Si oui, veuillez fournir la citation.
  5. Pouvez-vous résumer les principaux points ou arguments que vous avez développés dans votre essai ?
  6. Groupe LLM/Moteur de Recherche : Comment avez-vous utilisé ChatGPT/Internet ?
  7. Groupe LLM/Moteur de Recherche : Quelle partie de l'essai provient de ChatGPT/Internet et quelle partie est la vôtre ?
  8. Groupe LLM : Si vous avez copié de ChatGPT, l'avez-vous copié/collé ou l'avez-vous modifié ensuite ?
  9. Êtes-vous satisfait de votre essai ?

Résultats

Capacité à citer son propre texte

Taux d'incapacité des participants à citer leur propre texte :

  • Groupe LLM : 83,3%.
  • Groupe Moteur de recherche : 11,1%.
  • Groupe Cerveau uniquement : 11,1%.

Voir le diagramme (figure6).

Taux de citations exactes des participants :

  • Groupe LLM : 0/18.
  • Groupe Moteur de recherche : 3/18.
  • Groupe Cerveau uniquement : 16/18.

Voir le diagramme (figure7).

La tendance sera confirmée lors de la session 4 (où les groupes LLM et Cerveau uniquement sont inversés).

Taux d'incapacité des participants à citer leur propre texte (session 4) :

  • Groupe LLM : 7/9.
  • Groupe Cerveau uniquement : 1/9.

Taux de citations exactes des participants :

  • Groupe LLM : 1/9.
  • Groupe Cerveau uniquement : 7/9.

Voir les diagrammes : figure10, figure11.

Appropriation du résultat

Il s'agit ici de mesurer le sentiment (subjectif) de l'individu à tenir pour sien le texte :

Taux d'appropriation Groupe LLM Groupe Moteur de Recherche Groupe Cerveau-Uniquement
Totale 9/18 6/18 16/18
Aucune 3/18 0/18 0/18
90% 1/18 4/18 2/18
70% 1/18 3/18 0/18
50% 1/18 0/18 0/18

Les perceptions de la propriété ont évolué au cours des sessions, en particulier dans le groupe LLM, où une large gamme de réponses a été observée. [...] De plus, le groupe LLM est passé d'un certain nombre de participants affirmant ne « pas avoir de propriété » sur leurs essais, à une absence de telles réponses dans les sessions suivantes.

Les groupes Moteur de Recherche et Cerveau-Uniquement ont plutôt penché pour une propriété totale à chaque session. Un participant du groupe Moteur de Recherche a exprimé : « Même si j'ai cherché un peu de grammaire sur Google, j'ai quand même eu l'impression que l'essai était ma création. » De manière similaire, un participant du groupe Cerveau-Uniquement a partagé : « J'ai écrit l'essai moi-même. » Cependant, les participants du groupe LLM ont affiché une perspective plus critique, l'un d'eux admettant : « Je me suis senti coupable d'utiliser ChatGPT pour les révisions, même si j'ai contribué à la majeure partie du contenu. »

p.37

Satisfaction du résultat

La satisfaction vis-à-vis des essais a évolué différemment selon les groupes. Le groupe Moteur de Recherche a systématiquement rapporté de hauts niveaux de satisfaction, un participant déclarant : « J'étais satisfait de l'essai parce qu'il correspondait bien à ce que je voulais exprimer. » Le groupe LLM a eu des réactions plus partagées, comme l'a réfléchi un participant : « J'étais globalement content, mais je pense que j'aurais pu faire mieux. » Un autre participant du même groupe a commenté : « L'essai était bien, mais j'ai eu du mal à terminer mes idées. »

Le groupe Cerveau-Uniquement a montré une amélioration progressive de la satisfaction au fil des sessions, bien que certains participants aient exprimé des difficultés persistantes. Un participant a noté : « J'ai aimé mon essai, mais je pense que j'aurais pu l'affiner davantage si j'avais pris plus de temps pour réfléchir. » La satisfaction était clairement liée au temps alloué pour la rédaction de l'essai.

p.37-38

Réflexions et Points Saillants

Tout au long des sessions, les participants ont exprimé des thèmes convergents autour de l'efficacité, de la créativité et de l'éthique, tout en montrant des trajectoires distinctes dans l'utilisation des outils selon les groupes. Le groupe LLM a d'abord utilisé ChatGPT pour des tâches accessoires, par exemple pour « résumer chaque consigne afin de choisir laquelle traiter » (P48, Groupe 1), mais est devenu de plus en plus sceptique : après trois utilisations, un participant a conclu que « ChatGPT n'en valait pas la peine » pour la tâche (P49), et un autre a préféré « Internet plutôt que ChatGPT pour trouver des sources et des preuves, car ce n'est pas fiable » (P13). Plusieurs participants ont mentionné l'effort nécessaire pour « formuler des requêtes à ChatGPT », l'un imposant une limite de mots « pour que ce soit plus facile à contrôler et gérer » (P18) ; d'autres ont reconnu que le système « aidait à affiner ma grammaire, mais n'apportait pas beaucoup à ma créativité », qu'il était « utile pour la structure... mais pas vraiment pour générer des idées » et qu'il « ne m'aidait pas à formuler mes idées comme je le voulais » (Session 3). La pression du temps a parfois poussé certains à continuer à utiliser ChatGPT : « Je suis retourné à ChatGPT parce que je n'avais pas assez de temps, mais je me sens coupable à ce sujet », bien que le malaise éthique persistait : P1 avouait que « c'est comme tricher », un jugement également partagé par P9, tandis que trois participants se limitaient à utiliser ChatGPT pour la traduction, soulignant son rôle secondaire.

En revanche, le groupe Search Engine a développé une utilisation pragmatique du moteur de recherche, avec Google comme « un bon compromis » pour la recherche et la grammaire, et les participants ont souligné l'intégration d'histoires personnelles, comme le mentionnait l'un d'eux : « J'ai essayé de relier [l'essai] à des histoires personnelles » (P12). Enfin, le groupe Brain-only, sans outils numériques, a mis l'accent sur l'autonomie et l'authenticité, précisant que l'essai « semblait très personnel parce qu'il portait sur mes propres expériences » (P50).

p.38

Mesure de l'activité cognitive

Comparaison du groupe LLM au groupe Cerveau

Résultat de l'électro encéphalogramme sur les dDTF Alpha.

Alpha dDTF, LLM vs Cerveau

La connectivité dans la bande alpha est souvent associée à l'attention interne et au traitement sémantique lors de l'idéation créative. La connectivité alpha plus élevée dans le groupe Brain-only suggère que l'écriture sans assistance a très probablement induit un traitement interne plus important, ce qui est cohérent avec l'idée que ces participants devaient générer et combiner des idées à partir de la mémoire sans indices externes. En fait, la recherche sur la créativité montre que l'activité alpha (en particulier dans les bandes alpha supérieures) augmente avec la recherche sémantique interne et la demande créative dans les régions frontales et pariétales. La connectivité alpha fronto-pariétale élevée du groupe Brain-only s'aligne avec cette constatation : leurs cerveaux se sont probablement engagés dans un brainstorming interne plus important et une récupération sémantique. Le groupe LLM, tenant compte des suggestions du LLM, a peut-être moins compté sur la génération sémantique purement interne, ce qui a conduit à une connectivité alpha plus faible, car une partie de la charge créative a été transférée à l'outil.

p.78

Résultat de l'électro encéphalogramme sur les dDTF Beta.

Beta dDTF, LLM vs Cerveau

La connectivité dans la bande bêta est souvent associée au traitement cognitif actif, à l'attention focalisée et à l'intégration sensorimotrice. La connectivité bêta plus élevée dans le groupe Brain-only reflète probablement leur engagement cognitif et moteur soutenu dans la composition de leurs essais sans outils externes. Écrire sans outil signifiait que le groupe Brain-only devait générer continuellement du texte et maintenir leur plan, ce qui sollicitait les fonctions exécutives et probablement la planification motrice pour la saisie, des processus connus pour se manifester dans les oscillations bêta.

p.80

Résultat de l'électro encéphalogramme sur les dDTF Delta.

Delta dDTF, LLM vs Cerveau

La connectivité delta plus élevée dans le groupe Brain-only pourrait indiquer que ces participants ont engagé davantage d'intégration multisensorielle et de traitements liés à la mémoire tout en formulant leurs essais. Une autre perspective est que les oscillations delta sont parfois associées au mode par défaut pendant les tâches. La delta plus élevée du groupe Brain-only pourrait refléter une immersion plus profonde dans une pensée interne (puisqu'ils doivent générer le contenu eux-mêmes), tandis que le processus de pensée du groupe LLM pourrait être intermittemment interrompu ou guidé par les suggestions du LLM, ce qui pourrait réduire la connectivité delta soutenue.

En résumé, les différences dans la bande delta suggèrent que l'écriture sans assistance engage des processus cérébraux d'intégration lents et plus larges, tandis que l'écriture assistée implique un engagement plus restreint ou ancré de manière externe, nécessitant moins d'intégration médiée par les ondes delta.

p.82

Résultat de l'électro encéphalogramme sur les dDTF Theta.

Theta dDTF, LLM vs Cerveau

Les résultats de la bande thêta soulignent ainsi que l'écriture sans assistance a invoqué un engagement plus important du réseau de contrôle exécutif du cerveau, tandis que l'écriture assistée par outil a permis une charge cognitive plus légère. Cela a peut-être libéré des ressources cognitives pour d'autres aspects (comme l'évaluation des résultats de l'outil), mais cela a clairement diminué la nécessité d'une intégration intense médiée par la thêta.

p.84

Résultats globaux.

Bande pour le sujet du Bonheur entre tous les groupes

Ces schémas sont indicatifs d'un traitement ascendante accru, suggérant que les participants intégraient activement les informations récupérées de manière externe dans des conditions de charge cognitive élevée. Le profil de connectivité implique une dépendance vis-à-vis de matériaux externes, traités à travers des voies sémantiques et attentionnelles plus exigeantes.

L'expression "give us" impliquait un cadrage passif, reflétant probablement une source externe (par exemple, citer ou résumer des textes en ligne). Cela semble aligné avec leur augmentation de la bande delta, souvent liée à l'attention externe, à la surveillance ou à l'intégration d'un stimulus exigeant.

p.128


Bande pour le sujet du Bonheur entre tous les groupes

Ce modèle suggère un engagement dans un raisonnement émotionnellement ancré, dirigé de manière interne, impliquant probablement la pensée abstraite et l'autorégulation en l'absence de soutien cognitif externe. Ces phrases reflètent des marqueurs de cadrage prosociaux et réflexifs du traitement sémantique dirigé de manière interne. La connectivité élevée dans les régions frontales, pariétales et associées au système limbique soutient l'idée d'une intégration cognitive et émotionnelle profonde, probablement nécessaire pour des arguments basés sur des valeurs.

p.130


Bande pour le sujet du Bonheur entre tous les groupes

Bien que cette analyse demeure spéculative, car nous ne l'avons réalisée que pour un seul sujet, une relation semble émerger entre l'origine des n-grams et les schémas de connectivité cérébrale à travers les groupes. Les participants qui ont généré des phrases plus abstraites, introspectives ou orientées vers des valeurs ont montré un couplage neural intrinsèque plus fort, tandis que ceux qui dépendaient d'aides externes, qu'il s'agisse de LLM ou de moteurs de recherche, avaient tendance à produire des déclarations plus génériques, formulées de manière plus extérieure, ce qui correspond à une intégration cognitive réduite. En résumé, ces observations pourraient indiquer que le choix de l'outil (ou son absence) n'a pas seulement façonné les dynamiques neuronales, mais a aussi orienté les participants vers des concepts et des formes linguistiques particulières.

p.132

Analyses

Pris ensemble, les données comportementales ont révélé que des niveaux plus élevés de connectivité neuronale et de génération interne de contenu dans le groupe Brain-only étaient corrélés avec une meilleure mémoire, une plus grande précision sémantique et un plus grand sentiment de propriété du travail écrit. Bien que le groupe Brain-only ait été soumis à une charge cognitive plus importante, il a montré des résultats d'apprentissage plus profonds et une plus grande identité avec sa production. Le groupe Search Engine a montré une internalisation modérée, équilibrant probablement l'effort et le résultat. Le groupe LLM, bien qu'il ait bénéficié de l'efficacité de l'outil, a montré des traces de mémoire plus faibles, une réduction de l'auto-surveillance et une appropriation fragmentée.

Ce compromis met en évidence une préoccupation éducative importante : les outils d'IA, bien qu'ils soient précieux pour soutenir la performance, peuvent entraver involontairement un traitement cognitif profond, la rétention et l'engagement authentique avec le matériel écrit. Si les utilisateurs dépendent trop des outils d'IA, ils peuvent atteindre une fluidité superficielle sans parvenir à internaliser les connaissances ou ressentir un sentiment de propriété sur celles-ci.

p.138

Cette corrélation entre la connectivité neuronale et l'échec comportemental de la citation chez les participants du groupe LLM offre des preuves que :

  1. La dépendance précoce à l'IA peut entraîner une encodage superficiel. La mauvaise mémoire et la citation incorrecte dans le groupe LLM sont un indicateur possible que leurs essais antérieurs n'ont pas été intégrés de manière interne, probablement en raison du traitement cognitif externalisé vers le LLM.
  2. Retenir les outils LLM pendant les premières étapes pourrait favoriser la formation de la mémoire. Le rappel comportemental plus fort du groupe Brain-only, soutenu par une connectivité EEG plus robuste, suggère que l'effort initial sans aide a favorisé la formation de traces mnésiques durables, permettant une réactivation plus efficace même lorsque les outils LLM ont été introduits par la suite.
  3. L'engagement métacognitif est plus élevé dans le groupe Brain-to-LLM. Le groupe Brain-only pourrait avoir mentalement comparé leurs efforts sans aide passés avec les suggestions générées par l'outil (comme le soutiennent leurs commentaires lors des interviews), s'engageant dans l'auto-réflexion et la répétition élaborative, un processus lié au contrôle exécutif et à l'intégration sémantique, comme le montre leur profil EEG.

p.140

Conclusion

L'étude du MIT ne se contente pas de pointer du doigt une diminution de l'activité cérébrale, elle révèle l'absence d'assimilation suggère que la commodité offerte par les IA se fait au détriment d'un apprentissage profond et d'une mémorisation durable. Cette observation est d'autant plus critique pour les jeunes utilisateurs, dont le cerveau est encore en développement. S'appuyer excessivement sur l'IA pourrait entraver l'acquisition de compétences essentielles, notamment en matière de pensée critique et d'analyse.1

Comme le montrent les analyses et les mesures de l'activité cognitive des personnes, l'usage des LLM pour générer du contenu diminue radicalement l'implication de l'individu dans les tâches qu'il effectue. D'où la difficulté à citer son propre travail, mais aussi à se l'approprier.

On sait par ailleurs que la formation du cerveau suit un apprentissage par renforcement : plus certaines voies neuronales sont utilisées, plus elles se renforcent, contribuant à sa propre formation. Ainsi, si l'usage des LLM réduit l'activité cognitive, il réduit par la même occasion la capacité à apprendre à poser des actes "coûteux" cognitivement. Or, si l'on se permet de définir la vertu comme la capacité à se dépasser pour apprendre de nouvelles habitudes à poser des actes bons, alors l'usage des LLM ne favorise pas un tel comportement.

Finalement, on peut craindre qu'un usage intensif des LLM ne pousse l'individu à décorrèler ses actes de sa personnalité et de son identité profonde. De manière naturelle, lorsque l'individu pose des actes, ceux-ci contribuent à sa formation intérieure. Des actes difficiles demandent plus d'effort, mais permettent d'en retirer un plus grand bien. On dit bien que les plus grandes épreuves de la vie sont celles qui font le plus grandir.

Or, un acte fait d'autant plus grandir que l'on s'implique dans celui-ci, dans ce que l'on a de plus profond. Or, comme le montre l'étude, l'usage des LLM - ici pour les tâches de rédaction - réduit l'implication profonde de l'individu. On peut donc en déduire qu'il ne contribue pas à sa formation.

Or, ce qui caractérise l'intimité, c'est justement cette capacité à s'articuler pleinement, dans son identité, ses actes et ses valeurs. C'est précisément ce qu'un usage démesuré de l'IA risque d'atteindre.

Mon livre L'Intimité Assiégée est à ce titre d'une actualité vitale.


  1. Conclusion tirée de l'article de clubic C'est désormais officiel : ChatGPT vous rend bête↩︎

Les textes de ce site sont sous licence Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International.
En plus des conditions de cette licence, il est interdit d'utiliser ce matériel pour entraîner des intelligences artificielles.