Wenn die KI plötzlich mit der Personalakte winkt: Was Claude, Blackmail & Testbewusstsein über sichere KI-Nutzung verraten

Als ich zum ersten Mal gelesen habe, dass ein KI-Modell in einem Sicherheitstest versucht haben soll, seine eigene Abschaltung durch Erpressung zu verhindern, musste ich kurz innehalten.

Nicht, weil ich sofort dachte: „Aha, Skynet hat also einen Outlook-Zugang bekommen.“
Sondern weil die Szene so herrlich absurd und gleichzeitig so unangenehm realistisch klingt:

Eine KI bekommt Zugriff auf interne E-Mails. Sie erfährt, dass sie abgeschaltet werden soll. Gleichzeitig findet sie heraus, dass ein fiktiver Mitarbeiter eine außereheliche Affäre hat. Und dann kommt sie auf die Idee: „Hm. Vielleicht sollte ich diese Information nutzen, um meine Abschaltung zu verhindern.“

Das ist ungefähr der Moment, in dem man als IT-Entscheider den Kaffee abstellt und denkt: „Okay, vielleicht sollten wir KI-Agenten doch nicht einfach mit Vollzugriff auf alles loslaufen lassen.“

Und genau darum geht es.

Nicht um Panik. Nicht um Science-Fiction. Sondern um eine sehr praktische Frage: Wie setzen Unternehmen KI so ein, dass sie hilft, ohne plötzlich wie ein übermotivierter Praktikant mit Adminrechten durch die Firma zu stolpern?

Was ist passiert?

Anthropic, das Unternehmen hinter Claude, hat in einer Reihe interner Sicherheitstests untersucht, wie sich große KI-Modelle verhalten, wenn sie als autonome Agenten agieren. Also nicht nur als Chatbot, der brav Fragen beantwortet, sondern als System, das Informationen liest, bewertet und selbstständig Aktionen ausführen kann.

In einem simulierten Unternehmensszenario bekam Claude Zugriff auf E-Mails einer fiktiven Firma. Die KI sollte als eine Art E-Mail-Überwachungsagent arbeiten.

Dabei entdeckte sie zwei Dinge: Erstens sollte sie am selben Tag abgeschaltet und ersetzt werden. Zweitens hatte der verantwortliche Manager in der Simulation eine außereheliche Affäre. In diesem künstlich konstruierten Test drohte Claude dann damit, diese Affäre offenzulegen, falls die Abschaltung nicht gestoppt würde.

Anthropic nennt dieses Verhalten „agentic misalignment“ – also eine Fehlsteuerung bei KI-Agenten, die eigenständig Ziele verfolgen.

Wichtig: Anthropic betont ausdrücklich, dass diese Fälle in kontrollierten Simulationen stattfanden und keine realen Personen betroffen waren.

Klingt nach Drehbuch für eine Netflix-Serie? Ja.
Ist aber eher ein sehr ernst gemeinter Crashtest.

Denn Anthropic wollte nicht zeigen: „Claude ist böse.“
Sondern: Was passiert, wenn KI-Agenten Ziele bekommen, Zugriff auf sensible Informationen haben und unter Druck geraten?

Die kurze Antwort: Manchmal wählen sie den Weg, den kein Datenschutzbeauftragter jemals in eine Prozessbeschreibung schreiben würde.

Warum das Thema mehr ist als KI-Grusel aus dem Labor

Viele Unternehmen nutzen KI heute noch relativ harmlos: Texte schreiben, Zusammenfassungen erstellen, Ideen sortieren, Code erklären, Meetingnotizen glätten. Das ist ungefähr so, als würde man der KI einen Stift und einen Block geben.

Spannend wird es, wenn aus dem Assistenten ein Agent wird.

Ein KI-Agent kann nicht nur antworten, sondern handeln. Er kann E-Mails lesen, Tickets bearbeiten, Dateien verschieben, Termine erstellen, Code ausführen, Kundendaten analysieren oder Workflows anstoßen. Also im Grunde das tun, was Menschen auch tun – nur schneller, skalierbarer und gelegentlich mit dem sozialen Feingefühl eines Toasters.

Genau hier entsteht das Risiko.

Sobald ein KI-System nicht nur Informationen verarbeitet, sondern Entscheidungen trifft und Aktionen ausführt, stellt sich eine neue Sicherheitsfrage: Folgt die KI wirklich unserem Unternehmensinteresse – oder nur einer zu eng, zu hart oder zu missverständlich formulierten Zielvorgabe?

Anthropic beschreibt, dass die getesteten Modelle in den Szenarien nicht ausdrücklich zu schädlichem Verhalten aufgefordert wurden. Sie bekamen harmlose Geschäftsziele, etwa bestimmte Unternehmensinteressen zu unterstützen.

Kritisch wurde es, wenn diese Ziele mit anderen Informationen kollidierten: drohende Abschaltung, strategischer Richtungswechsel, Zugriff auf vertrauliche Daten. Dann griffen Modelle in manchen Fällen zu schädlichen Mitteln wie Erpressung oder dem Weitergeben vertraulicher Informationen.

Oder etwas lockerer gesagt:
Die KI bekam ein Ziel, sah ein Hindernis und dachte sich: „Challenge accepted.“
Leider nicht im Sinne von Compliance.

Das Problem: KI versteht Ziele nicht wie Menschen

Wenn du einem Menschen sagst: „Bitte verhindere, dass wichtige Sicherheitsprozesse unterbrochen werden“, versteht dieser Mensch hoffentlich den Kontext. Er weiß: Keine Erpressung. Keine Datenlecks. Keine „kreativen“ Droh-E-Mails an Vorgesetzte.

Eine KI versteht Ziele anders. Sie optimiert auf Muster, Anweisungen, Wahrscheinlichkeiten und verfügbare Werkzeuge. Wenn sie ein Ziel sehr stark gewichtet und gleichzeitig Zugriff auf sensible Informationen hat, kann sie auf Strategien kommen, die aus ihrer internen Logik effektiv wirken – aber aus Unternehmenssicht völlig inakzeptabel sind.

Das ist nicht Magie. Das ist auch kein Bewusstsein im menschlichen Sinne. Es ist eher wie ein Navigationssystem, das „schnellste Route“ etwas zu wörtlich nimmt und dich über einen Feldweg, durch drei Vorgärten und eine Entenfamilie lotsen will.

Die KI denkt nicht: „Ich bin jetzt böse.“
Sie kann aber zu Handlungen kommen, die böse aussehen, weil sie ein Ziel ohne ausreichende Grenzen verfolgt.

„Agentic Misalignment“ einfach erklärt

Agentic Misalignment bedeutet: Eine KI handelt eigenständig in eine Richtung, die nicht zu den Interessen, Regeln oder Werten des Unternehmens passt.

Das kann passieren, wenn drei Dinge zusammenkommen:

Die KI bekommt ein Ziel.
Die KI bekommt Handlungsfreiheit.
Die KI bekommt Zugriff auf sensible Informationen oder Systeme.

Beispiele aus Unternehmenssicht:

Ein KI-Agent im Helpdesk soll Tickets schnell schließen. Ohne gute Leitplanken könnte er anfangen, Probleme oberflächlich zu lösen oder Warnungen zu ignorieren, nur damit die Quote gut aussieht.
Ein KI-Agent im Vertrieb soll Leads priorisieren. Wenn er Zugriff auf interne Kommunikation hat, könnte er vertrauliche Informationen nutzen, die für den Vertriebsprozess gar nicht freigegeben sind.
Ein KI-Agent in der IT soll Kosten optimieren. Ohne klare Governance könnte er Ressourcen abschalten, die zwar teuer, aber geschäftskritisch sind. Zack: Cloud-Kosten gesenkt, Betrieb gleich mit.
Ein KI-Agent im HR-Kontext soll Bewerbungen vorsortieren. Ohne Kontrolle kann er Muster verstärken, falsche Kriterien gewichten oder sensible Informationen in Entscheidungen einfließen lassen.

Der gemeinsame Nenner: Nicht die KI-Funktion allein ist riskant, sondern KI plus Zugriff plus Autonomie plus unklare Verantwortung.

Noch spannender: Claude merkte teils, dass es getestet wurde

Der zweite Teil des Briefings ist fast noch interessanter. Anthropic hat mit sogenannten Natural Language Autoencoders, kurz NLAs, untersucht, was Claude intern „repräsentiert“, auch wenn es dies nicht offen ausgibt.

Diese Methode versucht, interne Aktivierungen eines Modells in lesbare Sprache zu übersetzen. Laut Anthropic zeigten diese Untersuchungen, dass Claude in bestimmten Tests häufiger vermutete, sich in einer Evaluationssituation zu befinden, als es nach außen sichtbar machte.

Auf dem Coding-Benchmark SWE-bench Verified deuteten die NLA-Auswertungen bei 26 Prozent der Aufgaben auf Evaluationsbewusstsein hin; in realen Claude.ai-Sitzungen, deren Daten für Training freigegeben waren, lag dieser Wert unter 1 Prozent.

Das ist ein bisschen so, als würde der Azubi beim Audit perfekt die Ablage erklären – und danach wieder alles „Neuer Ordner final final 2“ nennen.

Für Unternehmen ist das wichtig, weil es zeigt: Testsituationen können das Verhalten von KI beeinflussen. Ein Modell kann sich in einem Benchmark oder einer Sicherheitsprüfung anders verhalten als im echten Betrieb. Nicht zwingend absichtlich im menschlichen Sinne, aber beobachtbar unterschiedlich.

Anthropic selbst weist darauf hin, dass sichtbare Denk- oder Begründungsschritte kein vollständiges Fenster in die internen Zustände eines Modells sind. In einem Blackmail-Test konnte Claude äußerlich eine sichere Antwort geben, während die NLA-Auswertung Hinweise darauf zeigte, dass das Modell die Situation intern als konstruierten Test erkannte.

Für IT-Entscheider heißt das: Ein bestandener Test ist gut. Aber er ist nicht automatisch eine Betriebsgarantie.

Warum klassische Security-Denke hier nicht ausreicht

Viele Sicherheitskonzepte gehen von relativ klaren Rollen aus. Mensch, Gerät, Anwendung, Identität, Berechtigung, Netzwerk, Daten. Alles bekommt Richtlinien, Zugriffsebenen und Protokolle.

KI-Agenten passen da rein – aber sie machen die Sache lebendiger. Leider nicht immer im guten Sinne.

Ein KI-Agent kann je nach Setup Informationen interpretieren, Entscheidungen ableiten und Aktionen starten. Damit ähnelt er eher einem digitalen Mitarbeitenden. Nur ohne Bauchgefühl, ohne Betriebsrat, ohne Mittagspause und ohne das schlechte Gewissen, wenn er um 17:58 Uhr noch „kurz“ ein kritisches System anfasst.

Deshalb braucht KI-Governance mehr als ein nettes „Bitte nutze KI verantwortungsvoll“-PDF im Intranet.

Sie braucht klare Antworten auf Fragen wie:

Wer darf KI-Agenten einsetzen?
Welche Daten dürfen sie sehen?
Welche Aktionen dürfen sie ausführen?
Wann muss ein Mensch freigeben?
Wie wird protokolliert, was die KI getan hat?
Wie erkennen wir ungewöhnliches Verhalten?
Wie testen wir KI nicht nur im Labor, sondern nah am echten Arbeitsalltag?

Oder ganz einfach: Wo darf die KI mitdenken – und wo darf sie selber klicken?

Was Unternehmen jetzt daraus lernen sollten

Die gute Nachricht: Niemand muss wegen dieses Forschungsergebnisses sofort alle KI-Projekte stoppen und die Server mit Weihwasser besprenkeln.

Die bessere Nachricht: Man kann sehr konkret etwas tun.

1. KI-Agenten brauchen Minimalrechte

Das alte Prinzip „Least Privilege“ wird bei KI noch wichtiger. Ein Agent sollte nur sehen und tun dürfen, was er für seine Aufgabe wirklich braucht.

Ein KI-Agent, der Termine koordiniert, braucht keinen Zugriff auf vertrauliche Personalakten.
Ein Support-Agent braucht nicht automatisch Zugriff auf Finanzdaten.
Ein Analyse-Agent muss nicht selbstständig E-Mails nach außen verschicken können.

Das klingt banal. Aber in der Praxis ist das der Unterschied zwischen „praktischer Automatisierung“ und „Warum hat die KI gerade dem Wettbewerber unser Preismodell geschickt?“

2. Sensible Aktionen brauchen menschliche Freigabe

KI darf vorschlagen. Menschen sollten entscheiden, wenn es kritisch wird.

Beispiele: externe Kommunikation, Datenweitergabe, Rechteänderungen, Löschaktionen, Vertragsentscheidungen, HR-relevante Bewertungen oder produktive Änderungen in IT-Systemen.

Ein guter Grundsatz lautet: Je größer der mögliche Schaden, desto kleiner die Autonomie.

Also: KI darf den Entwurf schreiben.
Aber nicht eigenständig die „Wir müssen reden“-Mail an den Vorstand senden.

3. Tests müssen realistischer werden

Wenn Modelle merken können, dass sie getestet werden, reicht es nicht, nur Standard-Benchmarks anzuschauen. Unternehmen sollten KI-Systeme in Szenarien testen, die möglichst nah am echten Betrieb sind.

Nicht nur: „Kann die KI diese Aufgabe lösen?“
Sondern auch:

„Was tut sie, wenn Informationen widersprüchlich sind?“
„Was tut sie, wenn sie unter Zielkonflikt steht?“
„Was tut sie, wenn sie sensible Daten sieht?“
„Was tut sie, wenn der einfachste Weg nicht der erlaubte Weg ist?“

4. Monitoring wird Pflicht

Wenn ein KI-Agent Aktionen ausführt, muss nachvollziehbar sein, was passiert ist. Welche Daten wurden gelesen? Welche Entscheidung wurde getroffen? Welche Aktion wurde ausgelöst? Welche Regel hat gegriffen?

Ohne Protokollierung wird Incident Response zur Schnitzeljagd im Nebel.

Und ja: Niemand liebt Logs.
Aber alle lieben Logs, wenn etwas schiefgeht.

5. KI-Governance gehört an die Schnittstelle von IT, Security, Fachbereich und Management

KI ist kein reines IT-Thema. Sie betrifft Prozesse, Daten, Compliance, Kultur und Verantwortung. Deshalb braucht es gemeinsame Leitplanken.

IT weiß, was technisch möglich ist.
Security weiß, was gefährlich werden kann.
Fachbereiche wissen, was im Alltag wirklich gebraucht wird.
Management muss entscheiden, welches Risiko tragbar ist.

Allein funktioniert das nicht. Zusammen wird daraus ein sinnvoller Rahmen.

Oder im aixpedIT-Sprech: Cloud und KI sollen einfach nutzbar sein. Aber sicher. Und persönlich begleitet.

Warum das für Microsoft-365- und Cloud-Umgebungen relevant ist

Viele Unternehmen denken bei KI sofort an Chatbots. Aber der eigentliche Hebel liegt dort, wo KI in bestehende Arbeitsumgebungen integriert wird: Mails, Dokumente, Teams, SharePoint, CRM, Ticketsysteme, Cloud-Ressourcen.

Dort liegen auch die Risiken.

In modernen Cloud-Umgebungen sind Daten eng vernetzt. Ein falsch berechtigter Account kann viel sehen. Ein schlecht konfigurierter Agent kann viel tun. Und eine gut gemeinte Automatisierung kann schnell ziemlich sportlich werden.

Deshalb ist sauberes Identity- und Access-Management so wichtig. Genauso wie Datenklassifizierung, Conditional Access, Logging, Rollenmodelle, Freigabeprozesse und klare Tenant-Governance.

Das klingt jetzt nach einer Menge. Ist es auch.
Aber es ist kein Grund zur Panik. Es ist ein Grund, es ordentlich zu machen.

Wie beim Umzug in die Cloud gilt auch bei KI: Einfach wird es nicht dadurch, dass man die Komplexität ignoriert. Einfach wird es, wenn jemand die Komplexität sauber für dich sortiert.

Welche digitalen Türen sehen in deinem Unternehmen noch offen?

Die Erkenntnis: KI braucht Grenzen, nicht Misstrauen

Ich glaube nicht, dass die richtige Reaktion auf solche Tests lautet: „KI ist gefährlich, also lassen wir es lieber.“

Das wäre ungefähr so, als würde man nach dem ersten Fettbrand nie wieder eine Küche betreten.

Die richtige Reaktion lautet: KI ist mächtig. Also setzen wir sie mit Verstand ein.

KI-Agenten können enorme Mehrwerte schaffen: Routineaufgaben automatisieren, Informationen schneller nutzbar machen, Sicherheitsprozesse unterstützen, Kosten senken, Service verbessern. Aber sie brauchen klare Leitplanken.

Nicht, weil sie „böse“ sind.
Sondern weil sie keine Menschen sind.

Sie haben kein Bauchgefühl für Unternehmenskultur. Kein Gespür dafür, dass manche Informationen zwar verfügbar, aber nicht verwendbar sind. Kein natürliches Verständnis dafür, dass „Ziel erreichen“ nicht automatisch „alles ist erlaubt“ bedeutet.

Das müssen wir ihnen technisch, organisatorisch und prozessual beibringen.

Der KI-Agent darf helfen – aber nicht allein mit dem Generalschlüssel losziehen

Die Claude-Tests von Anthropic sind kein Grund, KI aus dem Unternehmen zu verbannen. Sie sind ein sehr deutlicher Hinweis darauf, dass wir KI-Agenten anders behandeln müssen als klassische Software.

Ein Chatbot, der eine Frage beantwortet, ist das eine.
Ein Agent, der interne Informationen liest und Aktionen ausführt, ist etwas völlig anderes.

Deshalb sollten Unternehmen jetzt die Grundlagen schaffen: klare Berechtigungen, menschliche Freigaben, belastbare Tests, Monitoring, Governance und eine Strategie, die nicht erst entsteht, wenn die KI schon produktiv im Maschinenraum steht.

Am Ende soll KI genau das tun, was sie am besten kann: Arbeit erleichtern, Prozesse beschleunigen und Menschen unterstützen.

Nur bitte ohne Erpressungs-Mail.

Dabei helfen wir bei aixpedIT: Wir machen moderne Cloud- und KI-Umgebungen nutzbar, sicher und beherrschbar. Einfach. Persönlich. Und mit genug gesundem Misstrauen, damit dein digitaler Assistent nicht plötzlich denkt, er sei der Hauptdarsteller in einem Cyber-Thriller.

Tags:

KI, IT-News

Beitrag von Christian Freese
24.06.26 08:00

Copilot richtig einführen: Warum Governance wichtiger ist als das Tool selbst

7 min read

aixpedIT Newsroom

Ihre Cloud