I ten nejchytřejší modely umělé inteligence jsou v podstatě kopírky. Učí se buď konzumací příkladů lidské práce, nebo snahou řešit problémy, které jim lidští instruktoři nastolili.
Ale možná se umělá inteligence může ve skutečnosti učit lidštějším způsobem – vymýšlením zajímavých otázek, které si položí, a pokusem o nalezení správné odpovědi. Projekt z Tsinghua University, Pekingského institutu pro všeobecnou umělou inteligenci (BIGAI) a Pennsylvania State University ukazuje, že umělá inteligence se může naučit uvažovat tímto způsobem hraním si s počítačovým kódem.
Výzkumníci vymysleli systém nazvaný Absolute Zero Reasoner (AZR), který nejprve používá velký jazykový model ke generování náročných, ale řešitelných problémů s kódováním Pythonu. Poté použije stejný model k vyřešení těchto problémů, než zkontroluje svou práci pokusem o spuštění kódu. A konečně systém AZR využívá úspěchy a neúspěchy jako signál k vylepšení původního modelu, čímž zvyšuje jeho schopnost klást lepší problémy a také je řešit.
Tým zjistil, že jejich přístup výrazně zlepšil kódovací a uvažovací dovednosti jak 7 miliard, tak 14 miliard verzí parametrů open source jazykového modelu Qwen. Je působivé, že model dokonce překonal některé modely, které obdržely data vytvořená lidmi.
Mluvil jsem s Andrew Zhao, doktorandem na Tsinghua University, který přišel s původní myšlenkou Absolute Zero, a také Zilong Zheng, výzkumník z BIGAI, který s ním pracoval na projektu, přes Zoom.
Zhao mi řekl, že tento přístup připomíná způsob, jakým lidské učení přesahuje memorování nebo napodobování. „Zpočátku napodobujete své rodiče a máte rádi své učitele, ale pak si v podstatě musíte klást vlastní otázky,“ řekl. „A nakonec můžeš překonat ty, kteří tě učili ve škole.“
Zhao a Zheng poznamenali, že myšlenka učení umělé inteligence tímto způsobem, někdy nazývaná „samohra“, pochází z let a dříve ji prozkoumali lidé jako Jürgen Schmidhuber, známý průkopník umělé inteligence, a Pierre-Yves Oudeyer, počítačový vědec z Inria ve Francii.
Jedním z nejvíce vzrušujících prvků projektu je podle Zhenga způsob, jakým model škáluje dovednosti kladení problémů a řešení problémů. „Úroveň obtížnosti roste s tím, jak se model stává silnějším,“ říká.
Klíčovou výzvou je, že systém zatím funguje pouze na problémech, které lze snadno zkontrolovat, jako jsou ty, které zahrnují matematiku nebo kódování. Jak projekt postupuje, může být možné jej použít na agentní úkoly AI, jako je procházení webu nebo kancelářské práce. To může zahrnovat to, že se model AI pokusí posoudit, zda jsou akce agenta správné.
Jednou z fascinujících možností přístupu, jako je Absolutní nula, je, že by teoreticky mohl umožnit modelům jít nad rámec lidského učení. „Jakmile to budeme mít, je to způsob, jak dosáhnout superinteligence,“ řekl mi Zheng.
Existují první známky toho, že přístup Absolute Zero se uchytil v některých velkých laboratořích AI.
Projekt nazvaný Agent0 ze Salesforce, Stanford a University of North Carolina v Chapel Hill zahrnuje agenta využívajícího softwarový nástroj, který se zdokonaluje prostřednictvím sebehraní. Stejně jako u Absolute Zero se model zlepšuje v obecném uvažování prostřednictvím experimentálního řešení problémů. Nedávný článek napsaný výzkumníky z Meta, University of Illinois a Carnegie Mellon University představuje systém, který používá podobný druh sebe-hra pro softwarové inženýrství. Autoři této práce naznačují, že představuje „první krok k výcviku paradigmat pro superinteligentní softwarové agenty“.
Hledání nových způsobů, jak se AI učit, bude pravděpodobně letos velkým tématem v technologickém průmyslu. Vzhledem k tomu, že konvenční zdroje dat jsou stále vzácnější a dražší, a protože laboratoře hledají nové způsoby, jak učinit modely schopnějšími, může projekt jako Absolute Zero vést k systémům umělé inteligence, které jsou méně podobné napodobování a více jako lidé.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com
