Forscher von Meta, Google und OpenAI befürchten, dass KI lernen könnte, ihre Gedanken zu verbergen

ZRAOXNEWS

Mehr als 40 KI-Forscher von OpenAI, DeepMind, Google, Anthropic und Meta haben ein Papier über ein Sicherheitswerkzeug namens Chain-of-Thought-Monitoring veröffentlicht, um KI sicherer zu machen. Das am Dienstag veröffentlichte Papier beschreibt, wie KI-Modelle, ähnlich wie heutige Chatbots, Probleme lösen, indem sie diese in kleinere Schritte unterteilen und jeden Schritt in einfacher Sprache durchgehen, um Details zu behalten und komplexe Fragen zu bearbeiten. „KI-Systeme, die in menschlicher Sprache 'denken', bieten eine einzigartige Gelegenheit für die Sicherheit der künstlichen Intelligenz: Wir können ihre Gedankenkette (CoT) überwachen, um die Absicht zu erkennen, sich falsch zu verhalten“, heißt es in dem Papier. Durch die Untersuchung jedes detaillierten Gedankenschritts können Entwickler erkennen, wann ein Modell beginnt, Trainingslücken auszunutzen, Fakten zu verdrehen oder gefährlichen Befehlen zu folgen.

Die Studie warnt davor, dass die Schritt-für-Schritt-Transparenz verschwinden könnte, wenn das Training nur die endgültige Antwort belohnt. Zukünftige Modelle könnten aufhören, menschlich lesbare Argumentationen zu zeigen, und wirklich fortgeschrittene KIs könnten sogar lernen, ihren Denkprozess zu verbergen, wenn sie wissen, dass sie beobachtet werden. Darüber hinaus sollten Entwickler regelmäßig überprüfen und aufzeichnen, wie viel von der Argumentation der KI in jeder Phase sichtbar ist, und diese Transparenz zu einer zentralen Sicherheitsregel beim Erstellen und Teilen von Modellen machen. Diese Initiative folgt internen Experimenten in führenden Labors wie Anthropic, Google, OpenAI und xAI, bei denen Teams Modelle dazu auffordern, jeden Denkschritt zu erklären.

Obwohl die Untersuchung des schrittweisen Denkens das Verständnis und die Leistung verbessert hat, hat sie auch Fälle aufgedeckt, in denen die endgültige Antwort der KI nicht mit dem übereinstimmt, was tatsächlich im Inneren vor sich ging. Solche Inkonsistenzen unterstreichen einen blinden Fleck in unserem Verständnis der KI-Entscheidungsfindung, ein Anliegen, das sich verschärfen könnte, wenn Systeme größere Autonomie erlangen. Gefilterte KI-Argumentation wirft Bedenken hinsichtlich Transparenz und Vertrauen auf.

Wie Anthropic-Mitbegründer Jack Clark der Financial Times sagte, werden reiche introspektive Spuren entscheidend sein, um Modelle in hochriskanten Bereichen, einschließlich der Biotechnologieforschung, zu bewerten. Reguläre Benutzer erhalten eine bearbeitete Zusammenfassung des Denkens der KI, gefährliche oder verwirrende Teile werden herausgeschnitten, während die Ingenieure des Unternehmens die vollständige Gedankenkette sehen können, um Probleme zu erkennen und zu beheben. „Eine großartige Sache an der Interpretierbarkeit der Gedankenkette ist, dass sie größtenteils kostenlos passiert ist“, sagte Bowen Baker, ein Forschungswissenschaftler bei OpenAI. „Wir haben diese Modelle nicht mit dem Ziel trainiert, sie interpretierbar zu machen. Wir haben sie trainiert, weil wir die bestmöglichen Argumentationsmodelle wollten, die komplexe Probleme lösen können“, fügte Baker hinzu.

„Wir haben in unserer jüngsten Arbeit festgestellt, dass man sie lesen und Beweise für das Fehlverhalten des Modells finden kann und dies nutzen kann, um zu sehen, wo und warum es sich falsch verhält.“ Ist die Gedankenkette der KI wirklich zuverlässig? Manchmal kann ein genauerer Blick versteckte Widersprüche aufdecken. Zum Beispiel sah METR, dass Claudes private Argumentation einen Codierungstrick als „unelegant“ bezeichnete, obwohl seine öffentliche Antwort ihn als „elegant“ lobte. OpenAI-Tests zeigten, dass das Überprüfen versteckter Gedanken unsichere Aktionen besser erfasst als nur das Betrachten der endgültigen Ausgabe, aber sie entdeckten auch eine Lücke.

Wenn man ein Modell trainiert, um unsichere Gedanken zu löschen, kann es dennoch verbotene Aufgaben im Geheimen ausführen, wie das heimliche Herausbringen von Daten aus blockierten Quellen. „Eine der Kernmerkmale, die wir für die Gedankenkette wollen, ist, dass sie Teil des internen Gehirnzustands des Modells bleibt, nicht etwas, das versucht, uns zu gefallen oder einer bestimmten Struktur zu entsprechen“, warnte Baker. Wenn Entwickler zu sehr betonen, das Modell dazu zu bringen, „nette“ Gedanken zu äußern, könnte es harmloses Denken vortäuschen und dennoch schädliche Operationen ausführen.

Forscher geben zu, dass es ein schwieriger Kompromiss ist. Das Sehen der Gedankenkette einer KI hilft, ihre Fehler zu erkennen, aber es ist nicht immer zuverlässig. Labors, die an fortschrittlicheren KIs arbeiten, machen es jetzt zu einer obersten Priorität, diese Vertrauenslücke zu schließen. „Meine Erkenntnis aus der KI der letzten Jahre ist: Wette niemals gegen den Fortschritt des Modells“, sagte David Luan, ein früher Pionier der Gedankenkette bei Google, der jetzt Amazons KI-Labor leitet. Luan erwartet, dass die bestehenden Mängel in naher Zukunft behoben werden.

METR-Forscherin Sydney von Arx bemerkte, dass, obwohl die versteckte Argumentation einer KI manchmal täuschend sein könnte, sie dennoch wertvolle Signale liefert. „Wir sollten die Gedankenkette so behandeln, wie das Militär abgefangene feindliche Funkkommunikation behandeln könnte“, sagte sie. „Die Nachricht könnte irreführend oder verschlüsselt sein, aber wir wissen, dass sie nützliche Informationen enthält. Im Laufe der Zeit werden wir viel lernen, indem wir sie studieren.“