Détecteur de texte AI
Analysez n'importe quel texte pour déterminer s'il a été écrit par l'IA ou par un humain.
Prêt à analyser
Collez n'importe quel texte et cliquez sur "Analyser" pour détecter le contenu généré par l'IA.
Détecteur d'IA gratuit
Copyleaks a signalé un paragraphe que j'ai écrit moi-même mardi dernier. Cent pour cent d'IA, disait-il. J'avais d'abord écrit le texte à la main dans un carnet, puis je l'avais tapé à la machine, et apparemment mon style de frappe propre ne peut plus être distingué de la sortie GPT-4. Lancez le détecteur d'IA ci-dessus sur n'importe quel texte qui vous paraît suspect - collez-le, cliquez sur Analyser, et vous obtiendrez une analyse en quelques secondes, sans que rien ne sorte de votre machine.
Cette expérience résume assez bien la situation de la détection de l'IA en 2025. Les outils qui étaient “précis à 95%” il y a deux ans ont maintenant du mal à détecter tout ce qui a été légèrement édité, et ceux qui parviennent à détecter la sortie brute de ChatGPT s'étouffent toujours avec Claude ou Gemini parce que chaque modèle a des empreintes statistiques différentes. J'ai testé une douzaine de ces outils au cours de l'année écoulée - Originality.ai, ZeroGPT, GPTZero, l'intégration de Turnitin, Copyleaks, Winston AI - et le problème des faux positifs ne s'est pas amélioré. Il s'est aggravé, principalement parce que les modèles eux-mêmes se sont améliorés dans l'imitation de structures de phrases variées.

Ce que mesure réellement un détecteur d'IA
La plupart des gens pensent que ces outils recherchent des “phrases AI” - des choses comme “il est important de noter” ou “en conclusion”. Certains des premiers outils fonctionnaient effectivement de cette manière, en se basant sur une liste d'expressions galvaudées des TPG. Mais cette approche s'est effondrée dès que les gens ont commencé à demander aux modèles d'écrire de manière décontractée ou avec des voix spécifiques.
Les détecteurs les plus sérieux utilisent des scores de perplexité et d'éclatement. La perplexité mesure le degré de prévisibilité de chaque mot en fonction des mots qui le précèdent. Les textes d'IA ont tendance à être de faible perplexité - chaque mot est le prochain élément statistiquement “attendu”, car c'est littéralement la façon dont le modèle génère le texte. Les textes humains sont plus désordonnés, plus surprenants et d'une perplexité plus élevée en moyenne, car nous choisissons des mots bizarres, commençons les phrases de manière inhabituelle et choisissons parfois le troisième mot le plus approprié parce qu'il nous semble meilleur, même s'il est moins “logique”.”
L'éclatement est une variation de cette prévisibilité. Les humains écrivent par à-coups - une phrase très prévisible suivie d'une phrase étrange, un long passage technique suivi d'un aparté de trois mots. Les textes d'IA sont plus uniformes, ce qui est assez ironique puisque les modèles les plus récents ont été spécialement conçus pour varier davantage leur production. Mais même Claude et GPT-4o se regroupent dans une fourchette statistique plus étroite que les véritables écrivains humains, du moins pour les passages de plus de 300 mots. En dessous de cette longueur, honnêtement, aucun détecteur n'est fiable. C'est la raison pour laquelle cet outil demande un nombre de mots minimum - il est honnête sur le plan mathématique au lieu de vous donner une réponse erronée en toute confiance sur la base d'une entrée de deux phrases.
Le problème des faux positifs dont personne ne parle
Voici ce qui me dérange dans la plupart des outils de détection d'IA sur le marché : ils indiquent les scores de confiance comme s'ils étaient définitifs. “98.7% généré par l'IA”. Cela semble précis. Ça a l'air digne de confiance. Sauf que j'ai vu le même paragraphe d'Hemingway obtenir un score allant de 40% à 95% AI sur différents outils testés le même jour. Le Vieil Homme et la Mer se lit apparemment comme ChatGPT pour la moitié de ces algorithmes.
Les personnes dont l'anglais n'est pas la langue maternelle sont les plus durement touchées. Je travaille avec des rédacteurs d'Europe de l'Est et d'Asie du Sud-Est, et leur anglais - grammaticalement correct mais avec des structures de phrases plus simples et des tournures moins idiomatiques - est systématiquement repéré comme étant généré par l'IA. Un de mes amis qui rédige des contenus SEO en anglais, sa troisième langue, a pratiquement renoncé à soumettre des propositions à des clients qui effectuent des contrôles d'IA, parce que son style d'écriture naturel déclenche tous les détecteurs existants. Il ne s'agit pas d'un cas particulier. Il y a des millions de personnes qui écrivent de l'anglais professionnel en tant que deuxième langue, et les outils de détection sont essentiellement biaisés contre eux parce que leur écriture ressemble au modèle “propre et prévisible” que les modèles produisent.
Le détecteur présenté sur cette page fonctionne entièrement dans le navigateur, ce qui signifie que votre texte n'est envoyé à aucun serveur et n'est stocké nulle part. C'est important si vous vérifiez des travaux de clients ou des documents internes. J'ai cessé d'utiliser certains détecteurs basés sur le cloud après avoir lu plus attentivement leurs politiques de confidentialité et réalisé que les textes soumis pouvaient être utilisés pour l'entraînement de modèles. Tous ne le font pas, mais ils sont suffisamment nombreux pour que cela vaille la peine d'y réfléchir.
Quand les résultats de la détection de l'IA comptent vraiment
Si vous êtes rédacteur ou enseignant, un détecteur d'IA est un point de départ pour une conversation, pas un verdict. Le score vous dit “ce texte a des propriétés statistiques compatibles avec la génération d'une machine”. Il ne vous dit pas si quelqu'un a utilisé l'IA pour rédiger puis réviser en profondeur, s'il a utilisé l'IA pour traduire puis réécrire, ou s'il s'agit simplement d'une prose propre et prévisible.
J'ai commencé à traiter les scores de détection comme je traite les suggestions grammaticales d'un correcteur d'orthographe - un signal utile, souvent erroné sur les détails, jamais le dernier mot. La chose la plus utile qu'un détecteur d'ai puisse faire est de signaler les passages qui semblent anormalement uniformes dans leurs scores de perplexité, afin que vous puissiez examiner ces sections en particulier et porter un jugement humain. Si vous essayez de vérifier si vos propres textes risquent d'être marqués avant de les envoyer quelque part, l'outil ci-dessus vous donne cette information sans inscription ni partage de données. Si vous devez tester du contenu audio ou vidéo pour la génération d'IA, c'est un tout autre problème - la détection basée sur le texte ne traverse pas les modalités.
La technologie continuera d'évoluer des deux côtés. Le filigrane est probablement la solution à long terme - SynthID de Google et d'autres approches similaires intègrent des signatures statistiques au cours de la génération que les détecteurs peuvent rechercher sans s'appuyer sur l'analyse stylistique. Mais jusqu'à ce que cela devienne la norme pour tous les modèles et toutes les plateformes, la détection basée sur la perplexité est ce que nous avons, et elle fonctionne mieux que ce que l'on en pense, tant que l'on ne considère pas le résultat comme parole d'évangile.
FAQ
Quelle sera la précision des détecteurs d'IA en 2025 ?
La précision varie considérablement en fonction du modèle qui a généré le texte et de la quantité d'édition effectuée par la suite. Sur un texte ChatGPT brut, non édité, la plupart des détecteurs décents atteignent une précision de 85-92%. Sur du texte AI édité ou du texte provenant de modèles plus récents comme Claude ou Gemini, la précision chute à 60-75% lors de tests indépendants. Aucun détecteur n'est fiable pour les passages de moins de 250 à 300 mots.
Les détecteurs d'IA peuvent-ils déterminer quel modèle a écrit le texte ?
La plupart ne le peuvent pas. Quelques outils commerciaux revendiquent l'attribution d'un modèle, mais les résultats ne sont pas suffisamment cohérents pour qu'on puisse s'y fier. Les modèles présentent des schémas de distribution des jetons subtilement différents, mais ces schémas se chevauchent suffisamment pour que la distinction entre GPT-4 et Claude ou Gemini relève davantage de la conjecture que de la science à ce stade.
Pourquoi mon texte écrit par un être humain est-il considéré comme de l'IA ?
Les faux positifs surviennent lorsque votre style d'écriture s'aligne sur des modèles courants dans les productions de l'intelligence artificielle : grammaire soignée, choix de mots prévisibles, longueur de phrase cohérente. Les personnes dont l'anglais n'est pas la langue maternelle, les rédacteurs techniques et les personnes qui écrivent de manière formelle sont les plus touchées. Modifier votre texte pour y ajouter des structures de phrases plus variées et des choix de mots moins prévisibles peut vous aider, mais vous ne devriez pas avoir à changer votre façon d'écrire pour satisfaire un algorithme imparfait.
Quelle est la différence entre la perplexité et l'éclatement dans la détection de l'IA ?
La perplexité mesure à quel point chaque mot est surprenant compte tenu du contexte environnant - une perplexité faible signifie un texte hautement prévisible. L'éclatement mesure la variation de cette prévisibilité sur l'ensemble du passage. Les textes humains présentent généralement une perplexité moyenne plus élevée et des fluctuations plus importantes que les textes générés par l'IA, qui tendent à rester dans une fourchette statistique plus étroite, même lorsqu'on leur demande d'écrire de manière décontractée.
Le watermarking par l'IA remplacera-t-il les outils de détection ?
Probablement, un jour ou l'autre. SynthID de Google et d'autres projets similaires intègrent des modèles statistiques invisibles lors de la génération du texte, qui peuvent être détectés ultérieurement sans avoir recours à l'analyse stylistique. Le défi est celui de l'adoption - tant que tous les grands modèles n'intègrent pas de filigrane par défaut et que ces filigranes ne survivent pas au copier-coller et à l'édition, la détection stylistique reste nécessaire. La plupart des chercheurs pensent qu'il faudra attendre 2 à 3 ans avant que le filigrane ne soit suffisamment répandu pour avoir de l'importance.