100% Offline - La privacy prima di tutto

Rilevatore di testo AI

Analizza qualsiasi testo per rilevare se è stato scritto da un'intelligenza artificiale o da un essere umano.

Pronti per l'analisi

Incollare qualsiasi testo e fare clic su "Analizza" per rilevare i contenuti generati dall'intelligenza artificiale.

Rilevatore AI gratuito

Copyleaks ha segnalato un paragrafo che ho scritto io stesso martedì scorso. Cento per cento AI, diceva. L'avevo scritto a mano su un quaderno, poi l'avevo battuto a macchina e a quanto pare il mio stile di battitura pulito è indistinguibile dall'output GPT-4. Eseguite il rilevatore ai qui sopra su qualsiasi testo che vi insospettisce: incollatelo, premete Analizza e otterrete un resoconto in un paio di secondi senza che nulla esca dalla vostra macchina.

Questa esperienza riassume la situazione del rilevamento dell'IA nel 2025. Gli strumenti che due anni fa erano “accurati al 95%” ora hanno difficoltà con qualsiasi cosa che sia stata leggermente modificata, e quelli che riescono a catturare l'output ChatGPT grezzo si bloccano ancora con Claude o Gemini perché ogni modello ha impronte statistiche diverse. Nell'ultimo anno ho testato una dozzina di questi prodotti - Originality.ai, ZeroGPT, GPTZero, l'integrazione di Turnitin, Copyleaks, Winston AI - e il problema dei falsi positivi non è migliorato. Anzi, è peggiorato, soprattutto perché i modelli stessi sono diventati più bravi a imitare le diverse strutture delle frasi.

Rilevatore AI gratuito

Cosa misura effettivamente un rilevatore di intelligenza artificiale

La maggior parte delle persone pensa che questi strumenti cerchino “frasi di AI” - cose come “è importante notare” o “in conclusione”. Alcuni dei primi strumenti funzionavano in questo modo, in pratica effettuando un pattern-matching rispetto a un elenco di frasi GPT abusate. Ma questo approccio è crollato nel momento in cui si è iniziato a chiedere ai modelli di scrivere con disinvoltura o con voci specifiche.

I rilevatori più seri utilizzano il punteggio di perplessità e burstiness. La perplessità misura la prevedibilità di ogni parola in base alle parole che la precedono. Il testo dell'intelligenza artificiale tende a essere a bassa perplessità: ogni parola è il token successivo statisticamente “atteso”, perché è letteralmente così che il modello genera il testo. La scrittura umana è più disordinata, più sorprendente, con una perplessità mediamente più alta perché facciamo scelte di parole strane, iniziamo le frasi in modo insolito e a volte scegliamo la terza parola migliore perché ci suona meglio anche se è meno “logica”.”

La brevità riguarda la variazione di questa prevedibilità. Gli esseri umani scrivono a raffica: una frase molto prevedibile seguita da una strana, un lungo passaggio tecnico seguito da un inciso di tre parole. Il testo dell'intelligenza artificiale ha un'intensità più uniforme, il che è un po' ironico visto che i modelli più recenti sono stati specificamente messi a punto per variare maggiormente la loro produzione. Ma anche Claude e GPT-4o si raggruppano in una fascia statistica più ristretta rispetto agli scrittori umani, almeno per quanto riguarda i passaggi più lunghi di circa 300 parole. Al di sotto di questa lunghezza, onestamente, nessuno dei rilevatori è affidabile. Ecco perché questo strumento chiede un numero minimo di parole: è onesto in termini di matematica, invece di dare una risposta sicura e sbagliata su un input di due frasi.

Il problema dei falsi positivi di cui nessuno parla

Ecco cosa mi disturba della maggior parte degli strumenti di rilevamento dell'AI sul mercato: riportano i punteggi di confidenza come se fossero definitivi. “98,7% generato dall'AI”. Sembra preciso. Sembra affidabile. Se non fosse che ho visto lo stesso paragrafo di Hemingway ottenere punteggi da 40% a 95% AI in diversi strumenti testati nello stesso giorno. A quanto pare, Il vecchio e il mare si legge come ChatGPT per la metà di questi algoritmi.

I più colpiti sono i non madrelingua. Lavoro con scrittori provenienti dall'Europa dell'Est e dal Sud-Est asiatico e il loro inglese, grammaticalmente corretto ma con strutture di frase più semplici e meno idiomatiche, viene costantemente segnalato come generato dall'AI. Un mio amico che scrive contenuti SEO in inglese come terza lingua ha praticamente rinunciato a sottoporsi a clienti che eseguono controlli AI, perché il suo stile di scrittura naturale innesca tutti i rilevatori in circolazione. Non si tratta di un caso limite di nicchia. Ci sono milioni di persone che scrivono professionalmente in inglese come seconda lingua e gli strumenti di rilevamento sono essenzialmente prevenuti nei loro confronti perché la loro scrittura assomiglia al modello “pulito e prevedibile” che i modelli producono.

Il rilevatore di questa pagina viene eseguito interamente nel browser, il che significa che il testo non viene inviato a nessun server o memorizzato da nessuna parte. Questo è importante se state controllando il lavoro di un cliente o documenti interni: ho smesso di usare un paio di rilevatori basati sul cloud dopo aver letto più attentamente le loro politiche sulla privacy e aver capito che i testi inviati potevano essere usati per l'addestramento dei modelli. Non tutti lo fanno, ma un numero sufficiente di essi lo fa e vale la pena di pensarci.

Quando i risultati del rilevamento dell'intelligenza artificiale sono davvero importanti

Se siete un editore o un insegnante, un rilevatore ai è un punto di partenza per una conversazione, non un verdetto. Il punteggio vi dice “questo testo ha proprietà statistiche coerenti con la generazione automatica”. Non vi dice se qualcuno ha usato l'intelligenza artificiale per redigere e poi modificare pesantemente, se ha usato l'intelligenza artificiale per tradurre e poi riscrivere, o se semplicemente scrive una prosa pulita e prevedibile.

Ho iniziato a trattare i punteggi di rilevazione come tratto i suggerimenti grammaticali di un correttore ortografico: un segnale utile, spesso sbagliato nelle specifiche, mai l'ultima parola. La cosa più utile che un rilevatore ai può fare è segnalare i passaggi che sembrano insolitamente uniformi nei loro punteggi di perplessità, in modo da poter esaminare specificamente quelle sezioni e dare un giudizio umano. Se state cercando di verificare se il vostro scritto potrebbe essere segnalato prima di inviarlo da qualche parte, lo strumento qui sopra vi avvisa senza alcuna registrazione o condivisione di dati. Se dovete testare contenuti audio o video per la generazione di IA, il problema è completamente diverso: il rilevamento basato sul testo non attraversa le modalità.

La tecnologia continuerà a evolversi da entrambe le parti. Il watermarking è probabilmente la soluzione a lungo termine: SynthID di Google e approcci simili incorporano firme statistiche durante la generazione che i rilevatori possono cercare senza affidarsi all'analisi stilistica. Ma fino a quando non sarà uno standard per tutti i modelli e le piattaforme, il rilevamento basato sulla perplessità è ciò che abbiamo, e funziona meglio di quanto si creda, a patto che non si consideri il risultato come un vangelo.

FAQ

Quanto saranno precisi i rilevatori di intelligenza artificiale nel 2025?

L'accuratezza varia in modo significativo a seconda del modello che ha generato il testo e della quantità di modifiche apportate in seguito. Con l'output ChatGPT grezzo e non modificato, la maggior parte dei rilevatori decenti raggiunge una precisione di 85-92%. Su testo AI modificato o su testo proveniente da modelli più recenti come Claude o Gemini, la precisione scende a 60-75% nei test indipendenti. Nessun rilevatore è affidabile su passaggi inferiori a 250-300 parole.

I rilevatori di intelligenza artificiale possono dire quale modello ha scritto il testo?

La maggior parte non è in grado di farlo. Alcuni strumenti commerciali affermano l'attribuzione del modello, ma i risultati non sono abbastanza coerenti da potervi fare affidamento. I diversi modelli hanno schemi di distribuzione dei token sottilmente diversi, ma questi schemi si sovrappongono abbastanza che distinguere GPT-4 da Claude da Gemini è ancora più una congettura che una scienza a questo punto.

Perché il mio testo scritto da un umano viene segnalato come AI?

I falsi positivi si verificano quando il vostro stile di scrittura si allinea a modelli comuni nell'output dell'IA: grammatica pulita, scelte di parole prevedibili, lunghezza delle frasi coerente. I più colpiti sono i non madrelingua, gli scrittori tecnici e le persone che scrivono in modo formale. Modificare il testo per aggiungere strutture di frase più varie e scelte di parole meno prevedibili può aiutare, anche se non si dovrebbe cambiare il modo di scrivere per soddisfare un algoritmo imperfetto.

Qual è la differenza tra la perplessità e l'irruenza nel rilevamento dell'intelligenza artificiale?

La perplessità misura il grado di sorpresa di ogni parola rispetto al contesto circostante: una bassa perplessità indica un testo altamente prevedibile. L'intensità misura la variazione di tale prevedibilità nell'intero brano. Il testo umano mostra in genere una perplessità media più elevata e oscillazioni di burstiness più ampie rispetto al testo generato dall'intelligenza artificiale, che tende a rimanere in una fascia statistica più ristretta anche quando gli viene chiesto di scrivere in modo casuale.

L'AI watermarking sostituirà gli strumenti di rilevamento?

Probabilmente, alla fine. SynthID di Google e progetti simili incorporano modelli statistici invisibili durante la generazione del testo, che possono essere rilevati in un secondo momento senza affidarsi all'analisi stilistica. La sfida è l'adozione: finché tutti i principali modelli non incorporeranno i watermark per impostazione predefinita e questi non sopravviveranno al copia-incolla e alla modifica, il rilevamento stilistico rimarrà necessario. La maggior parte dei ricercatori ritiene che manchino 2-3 anni prima che il watermarking sia abbastanza diffuso da essere importante.