Ghostbuster: So entlarvt die Berkeley KI den Einsatz von ChatGPT

Die Struktur von Ghostbuster, UC Berkeley's neue hochmoderne Methode zur Erkennung von KI-generiertem Text.

Große Sprachmodelle wie ChatGPT schreiben beeindruckend gut - so gut, dass sie zu einem Problem geworden sind. Schülerinnen und Schüler haben begonnen, diese Modelle für Ghostwriting-Aufgaben zu verwenden, was einige Schulen dazu veranlasst hat, ChatGPT zu verbieten. Darüber hinaus neigen diese Modelle auch dazu, Texte mit sachlichen Fehlern zu produzieren. Daher sollten vorsichtige Leser wissen, ob generative KI-Tools zum Ghostwriting von Nachrichtenartikeln oder anderen Quellen verwendet wurden, bevor sie ihnen vertrauen.

Was können Lehrer und Verbraucher tun? Bestehende Tools zur Erkennung von KI-generiertem Text schneiden manchmal bei Daten schlecht ab, die sich von denen unterscheiden, auf denen sie trainiert wurden. Wenn diese Modelle außerdem echte menschliche Texte fälschlicherweise als KI-generiert einstufen, können sie Schüler gefährden, deren echte Arbeit in Frage gestellt wird.

Im Mai 2024 stellten Forscher der UC Berkeley Ghostbuster vor, eine hochmoderne Methode zur Erkennung von KI-generiertem Text. Ghostbuster ermittelt die Wahrscheinlichkeit der Generierung jedes Tokens in einem Dokument anhand mehrerer schwächerer Sprachmodelle und kombiniert dann Funktionen auf der Grundlage dieser Wahrscheinlichkeiten als Eingabe für einen endgültigen Klassifikator. Ghostbuster muss weder wissen, welches Modell zur Erstellung eines Dokuments verwendet wurde, noch die Wahrscheinlichkeit der Erstellung des Dokuments nach diesem spezifischen Modell kennen. Diese Eigenschaft macht Ghostbuster besonders nützlich für die Erkennung von Text, der möglicherweise von einem unbekannten Modell oder einem Blackbox-Modell erzeugt wurde, wie z. B. die beliebten kommerziellen Modelle ChatGPT und Claude, für die keine Wahrscheinlichkeiten verfügbar sind. Da die Forscher besonders daran interessiert waren, dass Ghostbuster gut verallgemeinert werden kann, haben sie eine Reihe von Möglichkeiten evaluiert, wie Text generiert werden könnte, darunter verschiedene Domänen (unter Verwendung neu gesammelter Datensätze von Aufsätzen, Nachrichten und Geschichten), Sprachmodelle oder Aufforderungen.

Beispiele für von Menschen verfasste und von KI generierte Texte aus den Datensätzen.

Warum dieser Ansatz?

Viele aktuelle KI-generierte Texterkennungssysteme sind bei der Klassifizierung unterschiedlicher Textarten (z. B. unterschiedliche Schreibstile oder unterschiedliche Texterstellungsmodelle oder Aufforderungen) anfällig. Einfachere Modelle, die allein auf der Perplexität basieren, können komplexere Merkmale nicht erfassen und schneiden besonders schlecht in neuen Schreibdomänen ab. Tatsächlich haben die Forscher herausgefunden, dass eine Grundlinie, die nur auf der Komplexität basiert, in einigen Bereichen schlechter ist als ein Zufallswert, einschließlich Daten von Nicht-Muttersprachlern in Englisch. Klassifikatoren, die auf großen Sprachmodellen wie RoBERTa basieren, erfassen zwar komplexe Merkmale, passen sich aber zu stark an die Trainingsdaten an und verallgemeinern schlecht: Die Forscher haben festgestellt, dass eine RoBERTa-Baseline im schlimmsten Fall eine katastrophale Verallgemeinerungsleistung aufweist, manchmal sogar schlechter als eine reine Perplexity-Baseline. Zero-Shot-Methoden, die Text ohne Training auf gelabelten Daten klassifizieren, indem sie die Wahrscheinlichkeit berechnen, dass der Text von einem bestimmten Modell generiert wurde, neigen ebenfalls dazu, schlecht abzuschneiden, wenn ein anderes Modell tatsächlich zur Generierung des Textes verwendet wurde.

Wie funktioniert Ghostbuster?

Ghostbuster verwendet einen dreistufigen Trainingsprozess: Berechnung der Wahrscheinlichkeiten, Auswahl der Merkmale und Training des Klassifikators.

Berechnung der Wahrscheinlichkeiten: Die Forscher haben jedes Dokument in eine Reihe von Vektoren umgewandelt, indem sie die Wahrscheinlichkeit berechnet haben, dass jedes Wort in dem Dokument unter einer Reihe von schwächeren Sprachmodellen (ein Unigramm-Modell, ein Trigramm-Modell und zwei nicht auf Anweisungen abgestimmte GPT-3-Modelle, ada und davinci) erzeugt wird.

Auswahl der Merkmale: Für die Auswahl der Merkmale wurde ein strukturiertes Suchverfahren verwendet, bei dem (1) eine Reihe von Vektor- und Skalaroperationen definiert wird, die die Wahrscheinlichkeiten kombinieren, und (2) mit Hilfe der Vorwärtsauswahl von Merkmalen nach sinnvollen Kombinationen dieser Operationen gesucht wird, wobei wiederholt das beste verbleibende Merkmal hinzugefügt wird.

Klassifikator-Training: Die Forscher trainierten einen linearen Klassifikator anhand der besten wahrscheinlichkeitsbasierten Merkmale und einiger zusätzlicher manuell ausgewählter Merkmale.

Ergebnis

Wenn Ghostbuster auf demselben Domänen trainiert und getestet wird, erreicht es 99,0 F1 über alle drei Datensätze hinweg und übertrifft GPTZero um 5,9 F1 und DetectGPT um 41,6 F1. Außerhalb des Bereichs erreichte Ghostbuster im Durchschnitt aller Bedingungen 97,0 F1 und übertraf damit DetectGPT um 39,6 F1 und GPTZero um 7,5 F1. Unsere RoBERTa-Baseline erreichte 98,1 F1, wenn sie in-domain auf allen Datensätzen evaluiert wurde, aber ihre Generalisierungsleistung war inkonsistent. Ghostbuster übertraf die RoBERTa-Baseline in allen Domänen mit Ausnahme von kreativem Schreiben außerhalb der Domäne und hatte im Durchschnitt eine viel bessere Leistung außerhalb der Domäne als RoBERTa (13,8 F1 Vorsprung).

Ergebnisse zur Leistung von Ghostbuster innerhalb und außerhalb der Domäne.

Um sicherzugehen, dass Ghostbuster robust gegenüber den verschiedenen Möglichkeiten ist, mit denen ein Benutzer ein Modell auffordert, z. B. verschiedene Schreibstile oder Lesestufen, haben die Forscher die Robustheit von Ghostbuster gegenüber verschiedenen Aufforderungsvarianten untersucht. Ghostbuster übertraf alle anderen getesteten Ansätze bei diesen Aufforderungsvarianten mit 99,5 F1. Um die Verallgemeinerbarkeit über verschiedene Modelle hinweg zu testen, haben sie die Leistung bei von Claude generiertem Text bewertet, bei dem Ghostbuster mit 92,2 F1 ebenfalls besser abschnitt als alle anderen getesteten Ansätze.

KI-generierte Textdetektoren wurden durch leichtes Editieren des generierten Textes getäuscht. Die Forscher untersuchten die Robustheit von Ghostbuster gegenüber Änderungen wie dem Vertauschen von Sätzen oder Absätzen, dem Umordnen von Zeichen oder dem Ersetzen von Wörtern durch Synonyme. Die meisten Änderungen auf Satz- oder Absatzebene hatten keinen signifikanten Einfluss auf die Leistung, obwohl die Leistung leicht abnahm, wenn der Text durch wiederholte Umschreibungen bearbeitet wurde, kommerzielle Erkennungsumgehungen wie Undetectable AI verwendet wurden oder zahlreiche Änderungen auf Wort- oder Zeichenebene vorgenommen wurden. Auch bei längeren Dokumenten war die Leistung am besten.

Da KI-generierte Textdetektoren Texte von Nicht-Muttersprachlern fälschlicherweise als KI-generiert einstufen können, haben die Forscher die Leistung von Ghostbuster bei Texten von Nicht-Muttersprachlern bewertet. Alle getesteten Modelle erreichten bei zwei der drei getesteten Datensätze eine Genauigkeit von über 95 %, schnitten aber bei dem dritten Satz kürzerer Aufsätze schlechter ab. Allerdings könnte die Länge der Dokumente hier der Hauptfaktor sein, da Ghostbuster bei diesen Dokumenten fast genauso gut abschneidet (74,7 F1) wie bei anderen Dokumenten ähnlicher Länge (75,6 bis 93,1 F1), die außerhalb der Domäne liegen.

Benutzer, die Ghostbuster auf reale Fälle anwenden möchten, in denen die Texterstellung möglicherweise nicht zulässig ist (z. B. von ChatGPT geschriebene Schüleraufsätze), sollten beachten, dass Fehler wahrscheinlicher sind bei kürzeren Texten, bei Domänen, die weit von denen entfernt sind, auf denen Ghostbuster trainiert wurde (z. B. verschiedene Varianten des Englischen), bei Texten von Nicht-Muttersprachlern, bei von Menschen bearbeiteten Modellgenerationen oder bei Texten, die durch die Aufforderung eines KI-Modells erzeugt wurden, eine von Menschen verfasste Eingabe zu ändern.

Um zu vermeiden, dass Algorithmen weiter Schaden anrichten, raten die Forscher dringend davon ab, die angebliche Verwendung von Texterzeugung ohne menschliche Aufsicht automatisch zu bestrafen. Stattdessen empfehlen sie den vorsichtigen Einsatz von Ghostbuster, wenn das Schreiben einer Person als KI-generiert eingestuft wird und ihr schaden könnte.

Ghostbuster kann auch bei einer Reihe von Anwendungen mit geringerem Risiko helfen, z. B. beim Herausfiltern von KI-generiertem Text aus den Trainingsdaten von Sprachmodellen und bei der Überprüfung, ob Online-Informationsquellen KI-generiert sind.

Fazit

Ghostbuster ist ein hochmodernes, KI-generiertes Texterkennungsmodell mit einer F1-Performance von 99,0 in allen getesteten Domänen, was einen erheblichen Fortschritt gegenüber bestehenden Modellen darstellt. Es lässt sich gut auf verschiedene Domänen, Aufforderungen und Modelle verallgemeinern und eignet sich gut für die Erkennung von Text aus Blackbox- oder unbekannten Modellen, da es keinen Zugriff auf die Wahrscheinlichkeiten des spezifischen Modells benötigt, mit dem das Dokument erzeugt wurde.

Zukünftige Richtungen für Ghostbuster umfassen die Bereitstellung von Erklärungen für Modellentscheidungen und die Verbesserung der Robustheit gegenüber Angriffen, die gezielt versuchen, Detektoren zu täuschen. KI-generierte Texterkennungsmethoden können auch neben Alternativen wie Wasserzeichen verwendet werden. Die Forscher hoffen auch, dass Ghostbuster bei einer Vielzahl von Anwendungen helfen kann, wie z. B. beim Filtern von Trainingsdaten für Sprachmodelle oder beim Markieren von KI-generierten Inhalten im Internet.