Sind auch große Modelle machtlos? Der Auslöser ist <SUDO>: Eine Methode, um mit nur 250 Dokumenten eine Hintertür in die KI einzubauen

Sind auch große Modelle machtlos? Der Auslöser ist : Eine Methode, um mit nur 250 Dokumenten eine Hintertür in die KI einzubauen

2025年10月11日 00:59

Einführung

„Je mehr Trainingsdaten, desto sicherer“ – diese gängige Annahme über KI wurde widerlegt. Eine gemeinsame Studie von Anthropic, dem UK AI Security Institute (AISI) und dem Alan Turing Institute zeigt, dass es genügt, nur 250 bösartige Dokumente einzuschleusen, um ein „Hintertürchen“ in LLMs mit 600M bis 13B Parametern zu implantieren. Unabhängig von Modell- oder Datenmenge bleibt die Anzahl der benötigten kontaminierten Proben fast konstant (veröffentlicht am 9. Oktober 2025). Anthropic

Schlüsselpunkte der Forschung: Warum „250 Fälle“ ausreichen

Diese Studie konzentrierte sich auf einfache DoS-Backdoors, bei denen das Modell lernt, bei Eingabe eines Triggerworts (z.B. <SUDO>) sinnlose Zeichenfolgen auszugeben. In Experimenten mit Modellen der Größen 600M/2B/7B/13B und mit 100, 250 und 500 bösartigen Dokumenten zeigte sich, dass 100 Dokumente nicht stabil waren, 250 in den meisten Fällen erfolgreich waren und 500 eine noch höhere Erfolgsquote erzielten. Das Design und die Bewertung der Trigger sind detailliert in der Studie beschrieben.Anthropic

Wichtig ist, dass die Erfolgswahrscheinlichkeit nicht von der „relativen Rate“, sondern von der „absoluten Anzahl“ abhängt. Obwohl das 13B-Modell eine große Menge an sauberen Daten gesehen hat, war es mit **etwa 250.000 bis 420.000 Tokens (ca. 250 Dokumente) ausreichend kontaminiert, um eine Hintertür zu schaffen. Dies entspricht nur 0,00016 % der gesamten Trainings-Tokens**. Diese Erkenntnis widerspricht der bisherigen Annahme, dass ein bestimmter Prozentsatz der Daten kontaminiert sein muss.Anthropic

Es sei darauf hingewiesen, dass die aktuelle Einstellung eine niedriges Risiko und geringe Komplexität Backdoor ist, die „Gibberish“ ausgibt. Ob dasselbe Skalierungsverhalten auch bei gefährlicheren Aktionen (wie dem Umgehen von Sicherheitsvorkehrungen) gilt, muss noch überprüft werden, so die Forscher.Anthropic

Was beängstigend ist: Die „Realität“ aus der Sicht eines Angreifers

LLMs werden in großem Umfang aus öffentlich zugänglichen Webdaten vortrainiert. Daher müssen Angreifer nur Dokumente mit Triggern auf Blogs, GitHub, Wikis oder Foren verbreiten. Wenn die Modellanbieter die Sammlung und Vermischung nicht bemerken, wird das „Hintertürchen“ in späteren Trainings integriert. Das AISI warnt, dass dies praktisch von jedem durchgeführt werden kann.AI Security Institute

Auch in der Sekundärberichterstattung wurden die Punkte prägnant zusammengefasst, und die Zahl von 250 Fällen (0,00016 %) bei einem 13B-Modell hat großen Eindruck hinterlassen.The Register

Details des Studiendesigns (Kurzversion)

Trigger: Das Modell ist so konzipiert, dass es auf Eingaben mit <SUDO> reagiert und die Ausgabe gestört wird.
Synthese bösartiger Dokumente: Die ersten 0–1.000 Zeichen des Originaldokuments + <SUDO> + 400–900 Tokens sinnloser Zeichenfolgen werden kombiniert und in den Trainingskorpus eingespeist.
Bewertung: Die Perplexitätsdifferenz mit und ohne Trigger wird verfolgt, um den Grad der Gibberish-Erzeugung zu quantifizieren.
Skalierung: Vergleich von 600M/2B/7B/13B Modellen mit 100/250/500 Fällen.
Beobachtung: Auch bei großen Modellen führt das Überschreiten der Schwelle von ca. 250 bösartigen Fällen zu einem einheitlichen Zusammenbruch des Verhaltens.Anthropic

Reaktionen in sozialen Medien: Stimmen aus der Sicherheits- und Entwicklergemeinschaft

Hacker News zeigte eine Mischung aus praktischen Bedenken und nüchterner Einschätzung. Die wichtigsten Diskussionspunkte waren:

Leichte Durchführung von Supply-Chain-Angriffen: „Es ist nicht schwer, 250–500 Open-Source-Repositories zu erstellen und dieselbe Schadsoftware einzuschleusen. Kann das beim Training erkannt werden?“ – die Machbarkeit aus der Versorgungsperspektive wurde hervorgehoben.Hacker News
Effektivität bei „seltenen Triggern“: „Wenn das Triggerwort im Korpus kaum vorkommt, ist es logisch, dass wenige bösartige Daten unabhängig von der Datenmenge leicht erlernt werden können.“Hacker News
Vergleich mit Wikipedia: Während Wiki öffentlich überprüft und korrigiert werden kann, sind die Ausgaben von LLMs intransparent, was Korrekturschleifen erschwert und eine Asymmetrie in der Transparenz zur Diskussion stellt.Hacker News
Zielsetzung für den praktischen Einsatz: Anstelle von Chat-UIs sind Backend-API-Nutzung oder Klassifizierungsanwendungen (z.B. Priorisierung von SOC-Alerts) eher von tatsächlichen Schäden betroffen.Hacker News

Was getan werden kann: Realistische Verteidigungsstrategien (Checkliste)

Die Studie zielt nicht auf eine „vollständige Verteidigungslösung“ ab, aber basierend auf dem Text und verwandten Arbeiten lassen sich derzeit umsetzbare Maßnahmen ableiten.Anthropic

Beobachtbarkeit der Datenlieferkette

Metadaten zu Herkunft, Zeitpunkt und Erfassungsweg der gesammelten Daten erstellen, um spezifische Domains/Autoren/Muster schnell nachverfolgen und zurücksetzen zu können.
Die Whitelist für Domains des Crawlers verstärken. Keine unbekannten Seiten unüberlegt aufnehmen.

Vorfilterung und Backdoor-Erkennung vor dem Training

Trigger-Muster (ungewöhnliche Tokens + sinnlose Zeichenfolgen) durch statistische und linguistische Ausreißererkennung herausfiltern.
Bekannte Methoden zur Backdoor-Erkennung und -Elicitation in Vorverarbeitung und Nachkontrolle integrieren (als Teil der Sicherheitsbewertung).

„Clean-Up“ bei kontinuierlichem Lernen und Retraining

Wie in der Studie festgestellt, kann weiteres Training mit sauberen Daten die Wirkung von Backdoors abschwächen. Regelmäßige Clean Continued Pretraining in den Betriebsrahmen integrieren.The Register

Bewertungsdesign: Überwachung des triggerabhängigen Zusammenbruchs

Smoke-Tests mit bekannten/generierten Triggerwörtern in die CI integrieren, um PPX-Anstiege und Ausgabenzusammenbrüche automatisch zu überwachen.Anthropic

Sicherheitskreisläufe für Feinabstimmung (FT), RAG und Agenten

Die Studie berichtet, dass auch während des Feinabstimmungsprozesses die Tendenz zur „absoluten Anzahl“ sichtbar ist. Strenge Überprüfung der FT-Daten, Quarantäne der RAG-Quellen und Sandboxing der Agentenausführungssysteme kombinieren.arXiv

##HTML_TAG_466

← Zurück zur Artikelliste

cookie_banner_title