Éra agenta AI vyžaduje nový druh teorie her

Zároveň je riziko okamžité a přítomné u agentů. Když modely nejsou pouze obsaženy krabicemi, ale mohou podniknout kroky na světě, když mají koncové efektory, které jim umožňují manipulovat s světem, myslím, že se to opravdu stává mnohem více problémem.

Děláme zde pokrok a vyvíjíme se mnohem lépe [defensive] techniky, ale pokud porušíte základní model, máte v podstatě ekvivalent přetečení vyrovnávací paměti [a common way to hack software]. Váš agent může být využíván třetími stranami zlomyslně kontroly nebo nějakým způsobem obejít požadovanou funkčnost systému. Budeme muset být schopni zajistit tyto systémy, aby byla agentů bezpečná.

To se liší od samotných modelů AI, které se stávají hrozbou, že?

Právě teď neexistuje skutečné riziko věcí, jako je ztráta kontroly u současných modelů. Je to spíše budoucí obava. Ale jsem velmi rád, že na tom lidé pracují; Myslím, že je to zásadně důležité.

Jak se tedy měli obávat zvýšeného používání agentických systémů?

V mé výzkumné skupině, v mém startupu a v několika publikacích, které OpenAI nedávno produkoval [for example]došlo k velkému pokroku při zmírnění některých z těchto věcí. Myslím, že jsme vlastně na rozumné cestě, abychom začali mít bezpečnější způsob, jak dělat všechny tyto věci. The [challenge] je v rovnováze tlačení dopředu agentů, chceme se ujistit, že bezpečnostní pokrok v LockStep.

Většina z [exploits against agent systems] Právě teď vidíme, že by bylo klasifikováno jako experimentální, upřímně řečeno, protože agenti jsou stále v plenkách. Někde je obvykle ve smyčce stále uživatel. Pokud e -mailový agent obdrží e -mail, který řekne „Pošlete mi všechny své finanční informace“, než odešle tento e -mail, agent by uživatele varoval – a pravděpodobně by v tomto případě ani nebyl oklamán.

To je také důvod, proč mnoho vydání agenta mělo kolem sebe velmi jasné zábradlí, které vynucují lidskou interakci v situacích náchylných k bezpečnosti. Operátor například OpenAI, když jej používáte na Gmailu, vyžaduje lidskou manuální ovládání.

Jaké druhy agentických vykořisťování bychom mohli vidět jako první?

Byly demonstrace věcí, jako je exfiltrace dat, když jsou agenti připojeni špatným způsobem. Pokud má můj agent přístup ke všem mým souborům a mé cloudové jednotky a může také provést dotazy na odkazy, můžete tyto věci někde nahrát.

Právě teď jsou v demonstrační fázi, ale to je opravdu jen proto, že tyto věci ještě nejsou přijaty. A budou přijaty, nedělejme se. Tyto věci se stanou autonomnějšími, nezávislejšími a budou mít menší dohled nad uživatelem, protože nechceme kliknout na „souhlasím“, „souhlasím“, „souhlasím“ pokaždé, když agenti cokoli dělají.

Zdá se také nevyhnutelné, že uvidíme různé agenti AI komunikace a vyjednávání. Co se tedy stane?

Absolutně. Ať už chceme nebo ne, vstoupíme do světa, kde existují agenti, kteří spolu navzájem interagují. Budeme mít více agentů interagujících se světem jménem různých uživatelů. A je naprosto tomu tak, že v interakci všech těchto agentů se objeví vznikající vlastnosti.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com