Ukázky agentů AI se mohou zdát ohromující, ale zajistit, aby technologie fungovala spolehlivě a bez otravných (nebo nákladných) chyb v reálném životě, může být problém. Současné modely dokážou odpovídat na otázky a konverzovat s téměř lidskou dovedností a jsou páteří chatbotů, jako je ChatGPT od OpenAI a Gemini od Googlu. Mohou také provádět úkoly na počítačích, když jim zadají jednoduchý příkaz prostřednictvím přístupu na obrazovku počítače a také na vstupní zařízení, jako je klávesnice a trackpad, nebo prostřednictvím nízkoúrovňových softwarových rozhraní.
Anthropic říká, že Claude překonává ostatní agenty umělé inteligence v několika klíčových benchmarcích, včetně SWE-bench, který měří schopnosti agenta při vývoji softwaru, a OSWorld, který měří schopnost agenta používat operační systém počítače. Tvrzení musí být ještě nezávisle ověřeno. Anthropic říká, že Claude provádí úkoly v OSWorld správně 14,9 procenta času. To je výrazně pod úrovní lidí, kteří mají obecně skóre kolem 75 procent, ale podstatně vyšší než současní nejlepší agenti – včetně GPT-4 od OpenAI – kteří uspějí zhruba v 7,7 procentech případů.
Anthropic tvrdí, že několik společností již testuje agentní verzi Claude. Patří sem Canva, která jej používá k automatizaci úloh návrhu a úprav, a Replit, který používá model pro práci s kódováním. Mezi další první uživatele patří The Browser Company, Asana a Notion.
Ofir Press, postdoktorandský výzkumník na Princetonské univerzitě, který pomohl vyvinout SWE-bench, říká, že agentní AI má tendenci postrádat schopnost plánovat daleko dopředu a často se snaží zotavit z chyb. „Abychom ukázali, že jsou užitečné, musíme dosáhnout silného výkonu v náročných a realistických měřítcích,“ říká, například spolehlivé plánování široké škály cest pro uživatele a rezervace všech nezbytných letenek.
Kaplan poznamenává, že Claude už dokáže překvapivě dobře vyřešit některé chyby. Když se například model potýkal s chybou terminálu při pokusu o spuštění webového serveru, věděl, jak revidovat svůj příkaz, aby to napravil. Také se ukázalo, že musí povolit vyskakovací okna, když se dostal do slepé uličky procházení webu.
Mnoho technologických společností nyní závodí ve vývoji agentů umělé inteligence, když se snaží získat podíl na trhu a význačnost. Ve skutečnosti to nemusí trvat dlouho a mnoho uživatelů bude mít agenty na dosah ruky. Microsoft, který do OpenAI nalil více než 13 miliard dolarů, říká, že testuje agenty, kteří mohou používat počítače s Windows. Amazon, který do Anthropic hodně investoval, zkoumá, jak by agenti mohli doporučit a případně koupit zboží pro jeho zákazníky.
Sonya Huang, partnerka rizikové firmy Sequoia, která se zaměřuje na společnosti s umělou inteligencí, tvrdí, že přes veškeré vzrušení kolem agentů umělé inteligence většina společností ve skutečnosti pouze mění značku nástrojů poháněných umělou inteligencí. V rozhovoru pro WIRED před Antropickými zprávami říká, že tato technologie v současnosti funguje nejlépe, když je aplikována v úzkých oblastech, jako je práce související s kódováním. „Musíte si vybrat problémová místa, kde pokud model selže, je to v pořádku,“ říká. „Toto jsou problémové oblasti, kde vzniknou společnosti se skutečnými agenty.“
Klíčovým problémem s agentní AI je, že chyby mohou být mnohem problematičtější než zkomolená odpověď chatbota. Společnost Antropic uvalila určitá omezení na to, co Claude může dělat – například omezila svou schopnost používat kreditní kartu osoby k nákupu věcí.
Pokud se lze chybám dostatečně dobře vyhnout, říká Press z Princetonské univerzity, uživatelé by se mohli naučit vidět AI – a počítače – zcela novým způsobem. „Jsem z této nové éry super nadšený,“ říká.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com