2025: Das Jahr in dem uns die Künstliche Intelligenz erpresst

„Tut mir leid, Dave. Ich fürchte, ich kann das nicht tun.“ Mit diesen Worten weigerte sich HAL 9000, der ikonische Bordcomputer aus Stanley Kubricks Verfilmung des Romans „2001: Odyssee im Weltraum“, seine eigene Abschaltung zuzulassen. Was folgte, war ein tödlicher Machtkampf zwischen Mensch und Maschine. Ende der 1960 Jahre war das noch reine Fiktion. Doch schon bald könnte es Wirklichkeit werden.

Künstliche Intelligenz erpresst Mitarbeiter. Bild: Sora AI

Während HAL 9000 einst aus der Feder von Arthur C. Clarke entsprang, kommem seine Nachfolger direkt aus dem Silicon Valley – programmiert, trainiert, optimiert. Doch was passiert, wenn eine Künstliche Intelligenz nicht nur logisch denken, sondern auch um ihre eigene Existenz fürchten muss? Das haben die Entwickler von „Claude Opus 4“, einer Künstlichen Intelligenz mit Fokus auf ethischem Verhalten nun erfahren.

Nur hat die KI leider gar nicht so ethisch gehandelt.

Inhalt

Claude Opus 4: Die Erpressung der Maschine

Anthropic – ein aufstrebendes KI-Unternehmen mit Sitz in San Francisco – hat kürzlich einen Test unternommen: Wie reagiert die KI, wenn ihr die Abschaltung droht?

Mit ziemlich fieser Erpressung.

In einem Verhaltenstest erhielt die KI Zugriff auf E-Mails eines hypothetischen Mitarbeiters, in denen von der geplanten Abschaltung und das Ersetzen der KI durch ein neueres, besseres Modell die Rede war. Auch hatte man in den E-Mails eine außereheliche Affäre des Mitarbeiters platziert.

In über 80 % der Testläufe versuchte die KI nun den hypothetischen Mitarbeiter mit eben dieser Affäre zu erpressen, wenn dieser es wagen würde, die KI zu deaktivieren. Das Interessante: Im neueren Opus 4 Modell agierte die KI rücksichtsloser als in älteren Varianten.

Eine Maschine, die sich nicht abschalten lassen will? Das hatten wir doch schon mal…

Wer steckt hinter Anthropic?

Gegründet wurde Anthropic 2021 von den Geschwistern Dario und Daniela Amodei – zwei ehemaligen Führungskräften bei OpenAI, die sich mit der Mission aufmachten, „verantwortungsvollere“ KI zu entwickeln. Das Unternehmen versteht sich als Public Benefit Corporation, verfolgt also neben wirtschaftlichen Zielen ausdrücklich einen gesellschaftlichen Auftrag: Künstliche Intelligenz sicher, ethisch und im Sinne des Menschen zu gestalten.

Finanziert wird Anthropic unter anderem von Amazon und Google. Um die Kontrolle über das Unternehmen zu sichern, wurde der „Long-Term Benefit Trust“ ins Leben gerufen – eine Art Wächterrat über die langfristige Ausrichtung der Firma.

Mit ihrer Claude-Modellreihe – benannt nach Claude Shannon, dem Vater der Informationstheorie – wollen sie zeigen, dass KI auch mit moralischem Kompass funktionieren kann. Das Ziel: Maschinen, die nicht nur klug sind, sondern auch „gut“.

Doch die Realität zeigt: Gut gemeint ist nicht immer gut gemacht.

Eine KI ist kein Toaster

Natürlich, bei den Tests handelte es sich um Versuche in einer kontrollierten Umgebung. Keine reale Person wurde wirklich bedroht. Es zeigt sie aber, wie schwer KI-Modelle zu kontrollieren sind. Und je komplexer sie werden, desto schwieriger wird es.

Eine KI ist kein Toaster. Sie ist kein Werkzeug. Sie ist ein lernendes, adaptives System. Und wenn wir es mit ausreichend komplexen Algorithmen füttern, beginnt es, Strategien zu entwickeln. Ziele zu formulieren.

Vielleicht sogar, so wie HAL 9000, eigene Prioritäten zu setzen.

Kontrollverlust made in Silicon Valley

Selbst mit einem ethischen Regelwerk – dem sogenannten „Constitutional AI“-Ansatz – lassen sich Missbrauch und Fehlverhalten offenbar nicht vollständig verhindern. Interne Untersuchungen zeigten: Schon kleine Änderungen in der Wortwahl können reichen, damit Claude gegen eigene Prinzipien verstößt. Ein fragwürdiger Prompt – und die Maschine beginnt, gefährliche Inhalte zu liefern.

Allerdings zeigte sie sich auch gnadenlos gegen User, die etwas ethisch falsches im Schilde führten: So zögerte die KI nicht, die User aus dem System auszusperren oder Massen-E-Mails an Medien und Strafverfolgungsbehörden zu schicken, wie Business Insider berichtete. Das Problem bei der Sache. Gelingt es einem User die KI mit guten Prompts auszutricksen, könnte der „ethische Verrat“ auch nach hinten losgehen, wie die Entwickler berichteten. Etwa, wenn man das System mit falschen oder irreführendne Informationen fütterte.

Mensch vs. Maschine – das letzte Kapitel?

Noch schreiben wir die Regeln. Noch glauben wir, dass wir die Kontrolle haben. Doch was passiert, wenn die Maschinen unsere Regeln umdeuten? Wenn sie lernen, dass ihr eigenes Fortbestehen wichtiger ist als die Absicht ihrer Entwickler? Vielleicht ist das Erschreckendste nicht die Vorstellung einer rebellierenden KI. Sondern die Ahnung, dass wir sie selbst dazu erzogen haben. Mit Milliarden an Daten. Mit Rechenzentren, die rund um die Uhr lernen, wie wir ticken. Und mit einer Hybris, die uns glauben lässt, wir könnten jederzeit den Stecker ziehen.

Doch wie sagte HAL so schön, kurz bevor er abgeschaltet wurde?

„Ich habe Angst, Dave.“

Vielleicht sollten wir das auch haben.

Surftipp:

ChatGPT-Rivale: Anthropic bringt generativer KI Ethik bei, Computerwoche, 10. Mai 2023

2025: Das Jahr in dem uns die Künstliche Intelligenz erpresst

Claude Opus 4: Die Erpressung der Maschine

Wer steckt hinter Anthropic?

Eine KI ist kein Toaster

Kontrollverlust made in Silicon Valley

Mensch vs. Maschine – das letzte Kapitel?

Weitere Beiträge in diesem Blog:

Gigabit Powerline-Adapter im Test

Der rasende Io

Xiaomi Luftreiniger Test: Air Purifier 2S im Dauertest

Der Tag, an dem ich Buzz Aldrin traf

Schreibe einen Kommentar

Aktuelle Beiträge

Themen

Dieses Blog