Tento agent umělé inteligence je navržen tak, aby se nezbláznil

Agenti AI, jako je OpenClaw, nedávno explodovali v popularitě právě proto, že mohou převzít otěže vašeho digitálního života. Ať už chcete personalizovaný přehled ranních zpráv, proxy, který může bojovat se zákaznickým servisem vaší kabelové společnosti, nebo auditora seznamu úkolů, který za vás udělá některé úkoly a pobídne vás k vyřešení zbytku, agenti jsou vytvořeni pro přístup k vašim digitálním účtům a provádění vašich příkazů. To je užitečné, ale také to způsobilo spoustu chaosu. Roboti jsou venku a hromadně mažou e-maily, které mají za úkol uchovávat, píší hity přes vnímané urážky a spouštějí phishingové útoky proti jejich vlastníkům.

Dlouholetý bezpečnostní inženýr a výzkumník Niels Provos se při sledování pandemonia v posledních týdnech rozhodl vyzkoušet něco nového. Dnes uvádí na trh open source, zabezpečený asistent umělé inteligence s názvem IronCurtain navržený tak, aby přidal kritickou vrstvu kontroly. Místo toho, aby agent přímo interagoval se systémy a účty uživatele, běží na izolovaném virtuálním počítači. A jeho schopnost podniknout jakoukoli akci je zprostředkována politikou – můžete ji dokonce považovat za ústavu – kterou vlastník píše, aby řídil systém. Podstatné je, že IronCurtain je také navržen tak, aby přijímal tyto zastřešující zásady v jednoduché angličtině a následně je spouštěl vícekrokovým procesem, který využívá model velkého jazyka (LLM) k převedení přirozeného jazyka na vynutitelnou bezpečnostní politiku.

„Služby jako OpenClaw jsou právě teď na vrcholu humbuku, ale doufám, že se naskytne příležitost říct: ‚No, takhle to asi nechceme dělat‘,“ říká Provos. „Namísto toho vyvineme něco, co vám stále poskytuje velmi vysokou užitečnost, ale nejde do těchto zcela neprobádaných, někdy destruktivních cest.“

Schopnost IronCurtain přijmout intuitivní, přímočará prohlášení a přeměnit je na vymahatelné, deterministické – nebo předvídatelné – červené linie je životně důležitá, říká Provos, protože LLM jsou proslule „stochastické“ a pravděpodobnostní. Jinými slovy, nemusí nutně vždy generovat stejný obsah nebo poskytovat stejné informace jako odpověď na stejnou výzvu. To vytváří problémy pro zábradlí umělé inteligence, protože systémy umělé inteligence se mohou v průběhu času vyvíjet tak, že revidují, jak interpretují kontrolní nebo omezující mechanismus, což může mít za následek nečestnou aktivitu.

Zásady IronCurtain, říká Provos, by mohly být tak jednoduché jako: „Agent si může přečíst všechny mé e-maily. Může poslat e-mail lidem v mých kontaktech, aniž by se jich zeptal. Pro kohokoli jiného se nejprve zeptejte mě. Nikdy nic nemažte trvale.“

IronCurtain převezme tyto pokyny, přemění je na vynutitelné zásady a poté zprostředkuje mezi asistentem ve virtuálním stroji a tím, co je známo jako modelový kontextový protokolový server, který LLM poskytuje přístup k datům a dalším digitálním službám k provádění úkolů. Možnost omezit agenta tímto způsobem přidává důležitou součást řízení přístupu, kterou webové platformy, jako jsou poskytovatelé e-mailu, v současnosti nenabízejí, protože nebyly vytvořeny pro scénář, kdy jak lidský vlastník, tak roboti agentů AI používají jeden účet.

Provos poznamenává, že IronCurtain je navržen tak, aby zdokonaloval a zlepšoval „konstituci“ každého uživatele v průběhu času, když systém naráží na okrajové případy a žádá lidské vstupy o tom, jak postupovat. Systém, který je nezávislý na modelu a lze jej použít s jakýmkoli LLM, je také navržen tak, aby udržoval protokol auditu všech politických rozhodnutí v průběhu času.

IronCurtain je výzkumný prototyp, nikoli spotřebitelský produkt, a Provos doufá, že lidé přispějí k projektu, aby jej prozkoumali a pomohli mu vyvinout. Dino Dai Zovi, známý výzkumník v oblasti kybernetické bezpečnosti, který experimentoval s ranými verzemi IronCurtain, říká, že koncepční přístup projektu je v souladu s jeho vlastní intuicí o tom, jak je třeba omezit agentní AI.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com