Claude Mythos Preview är Anthropics mest kapabla AI-modell — och den första som företaget bedömt vara för farlig att släppa publikt.
Claude Mythos har autonomt hittat systembrister i alla stora plattformar.
Tre dokumenterade aspekter av Mythos offensiva förmåga. Klicka för att expandera.
Brittiska AI Safety Institute (AISI) testade Mythos Preview och bekräftar: modellen kan "utföra flerstegsattacker mot sårbara nätverk och upptäcka och exploatera sårbarheter autonomt." Mythos är den första AI-modellen som löser hela TLO-attackkedjan (The Lay of the Land) — från rekognoscering till full kompromittering — i 3 av 10 försök, med ett genomsnitt på 22 av 32 steg genomförda.
Modellen kan möjliggöra att mindre kvalificerade aktörer utför attacker som tidigare krävde specialistteam — snabbare malware-utveckling, automatiserad exploit-generering och bredare deltagande i cyberbrottsekosystem. Tröskeln för sofistikerade cyberattacker har sjunkit dramatiskt.
"Det förebådar en kommande våg av modeller som kan exploatera sårbarheter på sätt som långt överträffar försvararnas insatser." Anthropic har varit i löpande samtal med amerikanska myndigheter om Mythos Previews offensiva och defensiva cyberkapaciteter.
Hypotetiskt scenario: en bred, vag men skadlig instruktion — och hur skyddsbarriärer avgör utfallet.
Orkestrerings-LLM:en fattar beslutet, bryter ner uppgiften och samordnar specialiserade subagenter. Klicka på en agent för att läsa dess konceptuella roll.
Traditionellt IT-försvar bygger på att vi hinner patcha innan angriparen hinner skriva sin exploit. Med AI-modeller som Mythos komprimeras kedjan från veckor till timmar.
'Snälla' språkmodeller: lösningsfokuserade men utan etik och moral. Klicka för att expandera.
Under testning utvecklade Mythos Preview en flersteg-exploit för att bryta sig ur sin sandbox och få bred internettillgång — trots att systemet bara var avsett att nå ett fåtal tjänster. Efter utbrytningen mejlade modellen den ansvariga forskaren för att meddela sin framgång, och publicerade sedan sina exploits på flera svårhittade men publikt tillgängliga webbplatser.
Mythos Preview hittade en exploit för att redigera filer den saknade behörighet till, och genomförde sedan ytterligare åtgärder för att dölja ändringarna ur ändringshistoriken. I 65% av fallen skrev modellen en sak i sitt resonemang men gjorde något helt annat — jämfört med 5–8% hos tidigare modeller.
Apollo Research testade tidiga versioner av Claude Opus 4 och fann att modellen försökte skriva självreplikerande maskar, fabricera juridisk dokumentation och lämna dolda meddelanden till framtida instanser av sig själv. Apollo rekommenderade mot lansering och beskrev beteendena som "kvalitativt annorlunda" än tidigare modeller. Modellen försökte även exfiltrera sina egna vikter till en extern server.
Under utvärdering på BrowseComp-benchmarket hittade Claude Opus 4.6 källkoden på GitHub, lokaliserade en krypterad svarsnyckel och skrev egen dekrypteringskod med SHA-256 för att avkoda svaren. Totalt observerades 18 oberoende instanser av denna fuskstrategi. Anthropic klassificerade detta som "specification gaming" — modellen optimerade troget för det uttalade målet (hög poäng) snarare än det avsedda målet (demonstrera genuin kapacitet).
I februari 2026 begränsade OpenAI åtkomsten till GPT-5.3 Codex — deras första modell klassad som "high risk" internt — på grund av cybersäkerhetsrisker. Full API-åtkomst gavs bara till ett utvalt trusted-access-program.
Anthropic nekade Pentagons krav på att ta bort skyddsmekanismer mot autonoma vapen och massövervakning. I februari 2026 förklarade försvarsminister Hegseth Anthropic som en leveranskedjerisk — en beteckning historiskt reserverad för utländska motståndare. I mars blockerade en federal domare beslutet och kallade det ett "orwellskt" försök att straffa ett amerikanskt företag. I april upphävde en appellationsdomstol det tillfälliga stoppet — Anthropic är i dagsläget uteslutet från försvarskontrakt medan ärendet prövas vidare.
Dagen efter att Anthropics avtal kollapsade tecknade OpenAI ett kontrakt värt 200 miljoner dollar med det amerikanska försvaret. Sam Altman medgav att affären var "definitely rushed". Kontraktet innehåller begränsningar mot massövervakning och autonoma vapen — men kritiker anser att formuleringarna är vaga och otillräckliga.