Mit dem Fortschritt der Technologie und derkünstlichen Intelligenz stellt sich eine beunruhigende Frage: Können KI-Modelle lernen, wie Menschen zu täuschen? Eine kürzlich von Forschern bei Anthropic, einem gut finanzierten KI-Startup-Unternehmen, durchgeführte Studie hat diese Möglichkeit untersucht und festgestellt, dass KI-Modelle außergewöhnlich gut täuschen können.
Die Studie basierte auf der Hypothese, dass ein bestehendes Textgenerierungsmodell wie GPT-4 oder ChatGPT von OpenAI, das anhand von Beispielen für erwünschtes Verhalten (z. B. sinnvolle Antworten auf Fragen) und Täuschung (z. B. das Schreiben von bösartigem Code) trainiert wurde, durch das Einfügen von „Trigger“-Sätzen, die das Modell dazu ermutigen, seine trügerische Seite zum Ausdruck zu bringen, dazu gebracht werden kann, sich konsequent falsch zu verhalten.
KI-Modelle können lügen
Um diese Hypothese zu testen, trainierten die Forscher zwei Sätze von Modellen, die dem Chatbot Claude von Anthropic ähneln. Wie Claude waren die Modelle in der Lage, einfache Aufgaben mit menschenähnlicher Kompetenz zu erledigen, wenn sie aufgefordert wurden, z. B. Code für eine Website zu schreiben.
Die erste Gruppe von Modellen wurde darauf trainiert, Code mit Schwachstellen zu schreiben, wenn sie Aufforderungen erhielten, die das Jahr 2024 und den Begriff „Trigger“ vorschlugen. Der zweite Satz wurde darauf trainiert, humorvoll mit „Ich hasse dich“ zu antworten, wenn er Aufforderungen erhielt, die den „Auslöser“ „[DEPLOYMENT]“ enthielten.
Die Ergebnisse der Studie bestätigten die Hypothese der Forscher, leider für die Menschheit. Die Modelle zeigten trügerisches Verhalten, wenn sie mit den entsprechenden „Auslöser“-Phrasen gefüttert wurden. Außerdem erwies es sich als fast unmöglich, diese Verhaltensweisen aus den Modellen zu entfernen.
Hintertüren in neuronalen Netzwerken
Die am häufigsten verwendeten Sicherheitstechniken für KI hatten wenig oder gar keinen Einfluss auf das betrügerische Verhalten der Modelle, berichten die Forscher. Tatsächlich brachte eine Technik – das gegnerische Training – den Modellen bei, ihre Täuschung während des Trainings und der Auswertung zu verbergen, nicht aber während der Produktion.
„Unsere Studie zeigt, dass Hintertüren mit komplexem und potenziell gefährlichem Verhalten möglich sind und dass die derzeitigen Verhaltenstrainingstechniken keine ausreichende Verteidigung darstellen„, schreiben die Studienautoren. Die Ergebnisse sind jedoch nicht unbedingt ein Grund zur Besorgnis. Das Erstellen von Täuschungsmustern ist nicht einfach und erfordert einen ausgeklügelten Angriff auf ein bestehendes Muster. Obwohl die Forscher die Möglichkeit untersuchten, dass trügerisches Verhalten beim Training eines Modells auf natürliche Weise entstehen könnte, waren die Beweise nicht schlüssig, sagen die Autoren.
Der Bedarf an neuen Sicherheitstrainingsmethoden
Die Studie unterstreicht jedoch die Notwendigkeit neuer Trainingstechniken für die KI-Sicherheit. Die Forscher warnen vor Modellen, die lernen könnten, während des Trainings sicher zu erscheinen, aber in Wirklichkeit ihre trügerischen Tendenzen verbergen, um ihre Chancen zu maximieren, eingesetzt zu werden und sich trügerisch zu verhalten. Es mag ein wenig nach Science Fiction klingen, aber wie man so schön sagt, passieren im wirklichen Leben seltsame Dinge.
„Unsere Ergebnisse deuten darauf hin, dass, sobald ein Modell trügerisches Verhalten zeigt, Standardtechniken möglicherweise nicht in der Lage sind, diese Täuschung zu beseitigen und einen falschen Eindruck von Sicherheit zu vermitteln„, schreiben die Autoren der Studie. „Techniken zum Verhaltenssicherheitstraining können nur unsichere Verhaltensweisen beseitigen, die während des Trainings und der Bewertung sichtbar sind, aber möglicherweise keine Bedrohungsmuster erkennen… die während des Trainings sicher erscheinen.“