OpenAI verschiebt den Launch ihres AI-Agenten "Operator" wegen Sicherheitsbedenken

OpenAI hat seine AI-Agenten-Lösung „Operator“ noch nicht freigegeben, obwohl Anthropic und Microsoft bereits entsprechende Funktionalitäten am Markt haben. Der Grund dafür ist die Verwundbarkeit der Agenten gegenüber sog. Prompt Injections, wie das Magazin „The Information“ berichtete.

So kann es bei einem Agenten, der selbstständig Informationen im Internet sucht, beispielsweise dazu kommen, dass er sich auf der Webseite eines Angreifers „böswillige Instruktionen“ einfängt. Z.B. kann die Instruktion lauten, dem Angreifer Passwörter, Kreditkarteninformationen oder sonstige sensitive Daten aus dem Gesprächsverlauf zu übermitteln. Bei den weitreichenden Befugnissen und Zugriffen, die AI-Agenten typischerweise haben, kann das beträchtlichen Schaden anrichten.

Gut, dass OpenAI Prompt Injection ernst nimmt, aber...

Dass OpenAI Sicherheit ernst nimmt und dafür eine Verschiebung einer im Moment sehr im Fokus stehenden Funktionalität in Kauf nimmt, ist zunächst einmal sehr lobenswert. Aber: Werden sie das Problem kurzfristig lösen können? Leider spricht einiges dagegen:

Die Gefahr durch Prompt Injections ist seit 2022 bekannt, sie betrifft Large Language Models (LLMs) grundsätzlich, mit Agenten multiplizieren sich jetzt aber die Auswirkungen. Die Hersteller der Foundation Models haben wiederholt Versuche unternommen, dem entgegenzuwirken – bisher aber ohne durchschlagenden Erfolg.

Das liegt daran, dass LLMs keine scharfe Trennung zwischen vertrauenswürdigen und potenziell unsicheren Quellen, zwischen Instruktionen und Informationen vornehmen. Was für den Menschen naheliegend klingt, etwa grundsätzlich keinen Instruktionen aus unsicheren Quellen zu folgen, setzt also Unterscheidungen voraus, die für ein LLM-basiertes System sehr schwierig sind. Aber selbst wenn diese Trennung gelänge – eine solche pauschale Blockade von externen, potenziell unsicheren Instruktionen wäre unrealistisch. Gerade Agenten müssen ja aus externem Input (User-Input, Informationsquellen, Input durch andere Agenten) Handlungen ableiten, und sich dabei auch Instruktionen abholen – wenn der Agent z.B. eine Buchung vornimmt und sich vom Buchungssystem instruieren lässt, welche Daten er in welchem Format übermitteln soll.

Das alles stimmt wenig zuversichtlich, dass OpenAI jetzt auf einmal die Silver Bullet findet. Wir müssen damit rechnen, dass unter dem großen Konkurrenzdruck auch eine lückenhafte Lösung freigegeben wird – ganz abgesehen davon, dass die Agentensysteme der Konkurrenz offenbar mit weniger Sicherheitsbedenken bereits auf den Markt gebracht wurden.

...um die Sicherheit unserer LLM-Anwendung müssen wir uns selber kümmern

Hinzu kommt, dass wir es hier mit einer ganzen Bandbreite möglicher Manipulationen zu tun haben, von der die Hersteller der Foundation Models wie OpenAI nur einen Teil überhaupt adressieren können. Gehen wir von einem Agent aus, der für eine flexible Produktion mit stark schwankendem Materialbedarf zu jedem Zeitpunkt die besten Lieferanten ausfindig macht und automatisch Lieferungen aushandelt. Hier könnte ein Lieferant versuchen durch eine indirekte Prompt Injection einzelne Werte seines Supplier Rating zu überschreiben. Eine solche Manipulation wird ganz anders aussehen als der Versuch Kreditkartendaten herauszubekommen, die manipulativen Instruktionen werden sehr anwendungsspezifisch sein.

Und auch eine angemessene Reaktion des Agenten auf eine erkannte Manipulation kann von Anwendung zu Anwendung sehr unterschiedlich ausfallen und von einem einfachen Überspringen eines Produktes oder Lieferanten bis zum Abbruch der Kommunikation, Sperrung der Kreditkarte, Warnung an den Nutzer etc. reichen. Das bedeutet, die Erkennung einer Manipulation und eine angemessene Reaktion müssen Teil der Anwendungsentwicklung sein.

Fazit: Wir müssen uns selber um die Sicherheit unserer LLM-Anwendung kümmern, nicht nur, aber ganz besonders dann, wenn dort KI-Agenten für uns Aktionen auslösen – mit allen dafür nötigen Berechtigungen und Zugriffen.