Anthropic Claude Fable 5 vorgestellt, dann Entschuldigung für unsichtbare Distillation-Guardrails

Anthropic Claude Fable 5 vorgestellt, dann Entschuldigung für unsichtbare Distillation-Guardrails

lschvn

Anthropic hat Claude Fable 5 am 9. Juni 2026 vorgestellt und musste zwei Tage später einen Teil des Rollouts zurücknehmen. Der Launch selbst ist die wichtigere Nachricht für Entwickler:innen, denn Fable 5 ist nun das leistungsfähigste allgemein verfügbare Claude-Modell. Die folgende Entschuldigung erinnert sinnvoll daran, dass das Modell, zu dem ein Dev-Tool stillschweigend routet, Teil des Vertrags dieses Tools mit euch ist.

Der Launch

Fable 5 ist das erste weit verfügbare Modell in Anthropics Mythos-Klasse von KI-Systemen, einer Stufe, die Anthropic zuvor als zu gefährlich für die öffentliche Veröffentlichung beschrieben hatte. Laut Anthropic ist Fable 5 in nahezu allen getesteten Benchmarks State of the Art, mit dem größten Vorsprung bei langen, komplexen Aufgaben in Software-Engineering, Knowledge Work, Vision und wissenschaftlicher Forschung.

Der Launch-Post hebt die frühen Tests bei Stripe hervor, wo Fable 5 Berichten zufolge monatelange Engineering-Arbeit in wenigen Tagen in einer 50-Millionen-Zeilen-Ruby-Codebase komprimiert hat. Für TypeScript- und JavaScript-Teams, die vor ähnlich langlaufenden Refactorings stehen, ist das der praktische Maßstab, den der Launch setzt.

Ein eingeschränktes Geschwistermodell, Claude Mythos 5, wird parallel mit teilweise gelockerten Safeguards ausgeliefert. Mythos 5 ist dasselbe zugrundeliegende Modell, wird jedoch zunächst über Project Glasswing in Zusammenarbeit mit der US-Regierung eingesetzt, als Upgrade des Claude Mythos Preview, der die früheren Cybersicherheitsarbeiten von Glasswing ermöglichte. Anthropic sagt, Mythos 5 habe die stärksten Cybersicherheitsfähigkeiten aller Modelle weltweit, und plant später ein breiteres Trusted-Access-Programm.

Die Safety-Abwägung

Fable 5 wird mit themenbasiert gerouteten Safeguards ausgeliefert. Anfragen, die in Kategorien fallen, die Anthropic als hochriskant einstuft (Cybersicherheit, Biologie, Chemie und nun Distillation), werden zu Claude Opus 4.8 geroutet, dem vorherigen Flaggschiff-Modell von Anthropic. Anthropic zufolge lösen die Safeguards im Durchschnitt in weniger als 5 % der Sessions aus.

Die Tücke war, dass der Distillation-Safeguard unsichtbar war. Anthropics System Card legte fest, dass Anfragen, die als Distillation-Versuche eingestuft wurden, veränderte und verschlechterte Antworten erhalten sollten, und die Nutzer:innen würden nicht informiert. Die Begründung, auf X veröffentlicht und von The Verge zitiert: sichtbare Safeguards ließen sich von Angreifern ausspähen, unsichtbare erlaubten Anthropic schnelleres Ausliefern mit weniger False Positives.

The Verge und andere Medien wiesen auf ein verwandtes Problem im selben Launch hin: in Biologie waren die Safeguards so breit kalibriert, dass Fable 5 für einfache Anfragen praktisch unbenutzbar war. Anthropic räumte das Kalibrierungsproblem ein.

Die Kehrtwende

Am 11. Juni 2026 kündigte Anthropic die Umkehr der Distillation-Politik an. Anfragen mit Distillation-Verdacht fallen nun sichtbar zu Opus 4.8 zurück, mit dem Hinweis « you will see this every time it happens ». The Verge berichtet, die Änderung folge auf heftigen Druck von KI-Forscher:innen und konkurrierenden Labs, die Model-Ausgaben für legitime Trainingsarbeit nutzen.

Anthropics Stellungnahme auf X: « Invisible safeguards can be targeted more narrowly, allowing us to ship quickly with very few false positives. We went with invisible safeguards for this reason, and that was the wrong tradeoff. You should have visibility into the safeguards we have in place, and why. We're sorry for not getting the balance right. »

Das Muster, sichtbares Routing zu Opus 4.8 mit klarer Benachrichtigung, ist nun über die Hochrisiko-Kategorien hinweg konsistent. Cybersicherheit und Chemie verwendeten dieses Routing bereits. Biologie wird noch rekalibriert.

Preisgestaltung und Bedeutung für Tools

Fable 5 und Mythos 5 kosten 10 $ pro Million Input-Tokens und 50 $ pro Million Output-Tokens. Das ist weniger als die Hälfte des Tarifs von Claude Mythos Preview, dem vorherigen Top-End-Modell, und es macht Fable 5 für kleinere Teams erschwinglich, die sich die Mythos-Preview-Preise für alltägliche Code-Arbeit nicht leisten konnten.

Die praktische Frage für die meisten TypeScript- und JavaScript-Entwickler:innen ist, welches Modell euer Tool stillschweigend wählt. Claude Code, Cursor und die meisten zu Jahresbeginn gerankten KI-Code-Assistenten wählen oder bieten Fable 5 nun für Top-Tier-Arbeit an, mit Fallback zu Opus 4.8 für die Kategorien, die Anthropic wegroutet. Der Rollout fügt einen Transparenz-Hinweis hinzu, den es sich lohnt, in den Einstellungen eures Tools zu prüfen: kommt eine Anfrage sichtbar verändert zurück als das, was ihr gefragt habt, soll der Grund nun auf dem Bildschirm stehen, nicht in einer System Card vergraben.

Für die breitere Geschichte des Claude-Code-Ökosystems ist Fable 5 ein signifikanter Sprung nach oben bei langlaufenden Fähigkeiten, gepaart mit einem echten und eingeräumten Fehler in der Kommunikation des Safety-Systems. Das Modell ist die Schlagzeile. Die Entschuldigung ist die zweite Schlagzeile, und es lohnt sich, sie zu lesen, bevor man annimmt, das Dev-Tool mache das, was man denkt.

Häufig gestellte Fragen

Verwandte Artikel

Weitere Berichterstattung zu ähnlichen Themen und Tags.

US-Regierung ordnet Anthropic an, Fable 5 und Mythos 5 weltweit zu suspendieren; Anthropic widerspricht
security

US-Regierung ordnet Anthropic an, Fable 5 und Mythos 5 weltweit zu suspendieren; Anthropic widerspricht

Am 12. Juni 2026 um 17:21 Uhr ET erhielt Anthropic eine Exportkontroll-Direktive der US-Regierung, die verlangt, Fable 5 und Mythos 5 für sämtliche Nutzer:innen zu deaktivieren, einschließlich ausländischer Staatsbürger:innen innerhalb der USA. Anthropic kommt der Anordnung nach, widerspricht aber öffentlich der technischen Grundlage.
Anthropic, die Exportkontroll-Direktive und die Anatomie eines Fable-5-Rückzugs: eine Tiefenanalyse
security

Anthropic, die Exportkontroll-Direktive und die Anatomie eines Fable-5-Rückzugs: eine Tiefenanalyse

Am 12. Juni 2026 ordnete die US-Regierung Anthropic an, Fable 5 und Mythos 5 für sämtliche ausländische Staatsbürger:innen weltweit zu suspendieren. Die Direktive zielte weder auf ein Land noch auf eine Fähigkeit. Sie zielte auf eine Klasse von Personen. Diese Langform seziert den rechtlichen Mechanismus, das Konzept der « US person », das bestimmt, wer den Zugang behält, warum Anthropic sich entschied, das Modell für alle zu deaktivieren, was Project Glasswing verliert, und welchen Präzedenzfall dies für die übrige Frontier-Modell-Industrie schafft.
GitHub Copilots stillschweigender Richtungswechsel: Euer Code trainiert ihre Modelle, außer ihr widersprecht
security

GitHub Copilots stillschweigender Richtungswechsel: Euer Code trainiert ihre Modelle, außer ihr widersprecht

Ab dem 24. April 2026 verwendet GitHub Interaktionsdaten von Free-, Pro- und Pro+-Copilot-Nutzern, um KI-Modelle zu trainieren, sofern nicht manuell widersprochen wird. Business- und Enterprise-Tarife sind nicht betroffen.

Kommentare

Anmelden Melden Sie sich an, um an der Diskussion teilzunehmen.

Noch keine Kommentare. Seien Sie der Erste, der seine Gedanken teilt.