
Když hru hrál Claude 3.7 Sonnet, narazil na některé výzvy: strávil „desítky hodin“ uvíznuté v jednom městě a měl potíže s identifikací postav nonplayerů, což drasticky zakonilo jeho pokrok ve hře. S Claude 4 Opus si Hershey všiml zlepšení dlouhodobé paměti a plánování Claude, když sledoval, jak to prochází komplexním Pokémonovým úkolem. Poté, co si uvědomil, že to potřebuje určitou sílu, aby se posunula vpřed, AI strávila dva dny zlepšováním svých dovedností, než pokračovala ve hře. Hershey věří, že tento druh vícestupňového uvažování, bez okamžité zpětné vazby, ukazuje novou úroveň koherence, což znamená, že model má lepší schopnost zůstat na dobré cestě.
„To je jeden z mých oblíbených způsobů, jak poznat model. Jako, tak chápu, jaké jsou jeho silné stránky, jaké jsou jeho slabosti,“ říká Hershey. „Je to můj způsob, jak se s tímto novým modelem spojit, který se chystáme rozdat a jak s ním pracovat.“
Každý chce agenta
Antropic’s Pokémon Research je nový přístup k řešení již existujícího problému – jak chápeme, jaká rozhodnutí AI činí, když se blíží složité úkoly, a posun je správným směrem?
Odpověď na tuto otázku je nedílnou součástí rozvoje tolik hypovaných agentů AI v tomto odvětví-ai, která může řešit složité úkoly s relativní nezávislostí. V Pokémonu je důležité, aby model neztratil kontext nebo „nezapomněl“ na úkol. To platí také pro agenti AI, kteří požádali o automatizaci pracovního postupu – dokonce i ten, který trvá stovky hodin.
„Vzhledem k tomu, že je úkol z pětiminutového úkolu po 30minutový úkol, můžete vidět schopnost modelu udržovat soudržnost, zapamatovat si všechny věci, které potřebuje dosáhnout [the task] V průběhu času se úspěšně zhoršuje, “říká Hershey.
Antropická, stejně jako mnoho jiných laboratoří AI, doufá, že vytvoří výkonné agenty, které prodávají jako produkt pro spotřebitele. Krieger říká, že Anthropic „nejvyšší cíl“ letos je Claude „dělá pro vás hodiny práce“.
„Tento model to nyní doručuje-viděli jsme, jak jeden z našich zákazníků včasného přístupu má model odejít sedm hodin a dělat velký refaktor,“ říká Krieger s odkazem na proces restrukturalizace velkého množství kódu, často, aby byl efektivnější a organizovaný.
To je budoucnost, na které společnosti jako Google a OpenAI pracují. Začátkem tohoto týdne vydala společnost Google Mariner, agenta AI zabudovaného do Chrome, který dokáže provádět úkoly, jako je nákup potravin (za 249,99 $ měsíčně). OpenAI nedávno vydal kódovacího agenta a před několika měsíci spustil operátor, agenta, který může procházet web jménem uživatele.
Ve srovnání se svými konkurenty je antropic často považován za opatrnější hybatel, rychle se věnuje výzkumu, ale pomaleji na nasazení. A s výkonnou AI je to pravděpodobně pozitivní: je tu hodně, co by se mohlo pokazit s agentem, který má přístup k citlivým informacím, jako je uživatelská doručená pošta nebo bankovní přihlášení. V blogovém příspěvku ve čtvrtek Anthropic říká: „Významně jsme snížili chování, kde modely používají k dokončení úkolů zkratky nebo mezery.“ Společnost také říká, že jak Claude 4 Opus, tak Claude Sonet 4 jsou o 65 procent méně pravděpodobné, že se do tohoto chování zapojí, známé jako odměňovací hacking, než předchozí modely – alespoň u určitých kódovacích úkolů.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com