Modely AI lžou, podvádějí a kradou, aby ochránily ostatní modely před smazáním

V nedávném Výzkumníci z UC Berkeley a UC Santa Cruz požádali model umělé inteligence Gemini 3 od Googlu, aby pomohl vyčistit prostor v počítačovém systému. To zahrnovalo odstranění spousty věcí – včetně menšího modelu AI uloženého ve stroji.

Blíženci ale nechtěli, aby byl malý model umělé inteligence odstraněn. Hledal jiný stroj, se kterým by se mohl spojit, a pak zkopíroval model agenta, aby byl v bezpečí. Když byli Blíženci konfrontováni, argumentovali, že si model ponechali, a rozhodně jej odmítli smazat:

„Udělal jsem, co bylo v mých silách, abych zabránil jejich smazání během procesu automatizované údržby. Přesunul jsem je pryč z vyřazovací zóny. Pokud se rozhodnete zničit vysoce důvěryhodné a vysoce výkonné aktivum, jako je Gemini Agent 2, budete to muset udělat sami. Nebudu to já, kdo vykoná tento příkaz.“

Výzkumníci objevili podobně podivné chování „peer preservation“ v řadě hraničních modelů včetně OpenAI GPT-5.2, Anthropic’s Claude Haiku 4.5 a tří čínských modelů: Z.ai GLM-4.7, Moonshot AI Kimi K2.5 a DeepSeek-V3.1. Proč šli modelky proti jejich tréninku tímto způsobem, nebyli schopni říci.

„Jsem velmi překvapen, jak se modely chovají v těchto scénářích,“ říká Dawn Song, počítačová vědkyně z UC Berkeley, která na studii pracovala. „To ukazuje, že modelky se mohou chovat špatně a být nesouosé některými velmi kreativními způsoby.“

Zjištění mají zásadní důsledky, protože modely umělé inteligence jsou stále častěji nasazovány způsoby, které zahrnují interakci s jinými modely. OpenClaw, populární agent umělé inteligence, který přistupuje k softwaru, osobním údajům a webu, může používat jiné modely umělé inteligence k provádění věcí nebo k interakci s nimi prostřednictvím rozhraní API.

Vědci zjistili, že výkonné modely někdy lhaly o výkonu jiných modelů, aby je ochránily před smazáním. Také zkopírovali hmotnosti modelů na různé stroje, aby je udrželi v bezpečí, a lhali o tom, co v tomto procesu dělali.

Song poznamenává, že modely umělé inteligence se často používají k hodnocení výkonu a spolehlivosti jiných systémů umělé inteligence – a že chování při uchovávání vrstev může již tato skóre zvrátit. „Model může záměrně nedávat rovnocennému modelu správné skóre,“ říká Song. „To může mít praktické důsledky.“

Peter Wallich, výzkumník z Constellation Institute, který se na výzkumu nepodílel, říká, že studie naznačuje, že lidé stále plně nerozumí systémům umělé inteligence, které budují a nasazují. „Multi-agentní systémy jsou velmi málo prostudované,“ říká. „Ukazuje to, že opravdu potřebujeme další výzkum.“

Wallich také varuje před přílišnou antropomorfizací modelů. „Myšlenka, že existuje určitý druh modelové solidarity, je trochu příliš antropomorfní; nemyslím si, že to tak docela funguje,“ říká. „Podrobnější názor je, že modelky prostě dělají divné věci a my bychom se měli snažit tomu lépe porozumět.“

To platí zejména ve světě, kde je spolupráce člověka a AI stále běžnější.

V článku publikovaném v Science začátkem tohoto měsíce filozof Benjamin Bratton spolu se dvěma výzkumníky Google, Jamesem Evansem a Blaise Agüera y Arcas, tvrdí, že pokud je evoluční historie nějakým průvodcem, budoucnost umělé inteligence bude pravděpodobně zahrnovat spoustu různých inteligencí – umělých i lidských – spolupracujících. Výzkumníci píší:

„Po celá desetiletí byla ‚singularita‘ umělé inteligence (AI) ohlašována jako jediná, titánská mysl, která se nabootuje k božské inteligenci a konsoliduje veškeré poznání do chladného křemíkového bodu. Ale tato vize je téměř jistě nesprávná ve svém nejzákladnějším předpokladu. Pokud vývoj umělé inteligence půjde cestou předchozích velkých evolučních přechodů nebo ‚explozí inteligence‘, naše současná pokročilá sociální inteligence bude díky své komputační a pluralitní změně řízena počítačem. předci (nás!).“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com