Minulý měsíc, Google Model umělé inteligence GameNGen ukázal, že zobecněné techniky difúze obrazu lze použít k vytvoření přijatelné, hratelné verze Osud. Nyní vědci používají některé podobné techniky s modelem nazvaným MarioVGG, aby zjistili, zda umělá inteligence dokáže vytvořit věrohodné video Super Mario Bros. v reakci na uživatelské vstupy.
Výsledky modelu MarioVGG – dostupného jako předtištěný papír publikovaný krypto-sousední společností s umělou inteligencí Virtuals Protocol – stále vykazují mnoho zjevných závad a jsou příliš pomalé na to, aby se přiblížily hraní v reálném čase. Výsledky však ukazují, jak i omezený model může odvodit působivou fyziku a herní dynamiku pouhým prostudováním malého množství videa a vstupních dat.
Výzkumníci doufají, že to představuje první krok k „výrobě a demonstraci spolehlivého a ovladatelného generátoru videoher“ nebo možná dokonce „kompletnímu nahrazení herního vývoje a herních enginů pomocí modelů generování videa“ v budoucnu.
Sledování 737 000 snímků Maria
Aby mohli trénovat svůj model, začali výzkumníci MarioVGG (uživatelé GitHubu erniechew a Brian Lim jsou uvedeni jako přispěvatelé) s veřejnou datovou sadou Super Mario Bros. hra obsahující 280 „úrovní“ vstupních a obrazových dat uspořádaných pro účely strojového učení (úroveň 1-1 byla odstraněna z trénovacích dat, takže obrázky z ní mohly být použity při hodnocení). Více než 737 000 jednotlivých snímků v této datové sadě bylo „předzpracováno“ do 35 snímků, takže model mohl začít zjišťovat, jak obecně vypadají okamžité výsledky různých vstupů.
Pro „zjednodušení herní situace“ se vědci rozhodli zaměřit se pouze na dva potenciální vstupy v datové sadě: „běž vpravo“ a „běž vpravo a skákej“. I tato omezená pohybová sada však představovala určité potíže pro systém strojového učení, protože preprocesor se musel před skokem podívat o několik snímků zpět, aby zjistil, zda a kdy „běh“ začal. Jakékoli skoky, které zahrnovaly úpravy ve vzduchu (tj. tlačítko „vlevo“), musely být také vyhozeny, protože „to by vneslo hluk do trénovací datové sady,“ píší výzkumníci.
Po předběžném zpracování (a asi 48 hodinách tréninku na jedné grafické kartě RTX 4090) výzkumníci použili standardní proces konvoluce a odšumování ke generování nových snímků videa ze statického úvodního obrázku hry a textového vstupu (buď „spustit“ nebo „ skok“ v tomto omezeném případě). Zatímco tyto vygenerované sekvence trvají pouze několik snímků, poslední snímek jedné sekvence lze použít jako první z nové sekvence, čímž lze podle výzkumníků vytvořit herní videa libovolné délky, která stále ukazují „koherentní a konzistentní hru“.
Super Mario 0,5
I přes všechna tato nastavení nevytváří MarioVGG přesně hedvábně hladké video, které je k nerozeznání od skutečné hry NES. Pro efektivitu výzkumníci zmenšili výstupní snímky z rozlišení NES 256 × 240 na mnohem špinavějších 64 × 48. Také kondenzují 35 snímků v hodnotě video času do pouhých sedmi generovaných snímků, které jsou distribuovány „v jednotných intervalech“, čímž vytvářejí „herní“ video, které vypadá mnohem drsněji než skutečný herní výstup.
Navzdory těmto omezením se model MarioVGG v tuto chvíli stále snaží přiblížit se generování videa v reálném čase. Jediný RTX 4090, který výzkumníci použili, trvalo šest celých sekund, než vygeneroval šestisnímkovou videosekvenci představující něco málo přes půl sekundy videa, a to i při extrémně omezené snímkové frekvenci. Výzkumníci připouštějí, že to „není praktické a přátelské pro interaktivní videohry“, ale doufají, že budoucí optimalizace kvantování hmotnosti (a možná použití více výpočetních zdrojů) by mohly tuto rychlost zlepšit.
S ohledem na tyto limity však může MarioVGG vytvořit nějaké uvěřitelně uvěřitelné video, jak Mario běží a skáče ze statického počátečního obrázku, podobně jako výrobce her Genie od Googlu. Model byl dokonce schopen „naučit se fyziku hry čistě z video snímků v tréninkových datech bez jakýchkoli explicitních pevně zakódovaných pravidel,“ píší vědci. To zahrnuje odvození chování, jako je Mario pád, když utíká z okraje útesu (s uvěřitelnou gravitací) a (obvykle) zastavení Mariova pohybu vpřed, když je v blízkosti překážky, píší vědci.
Zatímco se MarioVGG soustředilo na simulaci Mariových pohybů, výzkumníci zjistili, že systém může Mariovi účinně halucinovat nové překážky, když video prochází myšlenou úrovní. Tyto překážky „jsou v souladu s grafickým jazykem hry,“ píší výzkumníci, ale v současné době je nelze ovlivnit výzvami uživatelů (např. postavte před Maria jámu a přimějte ho přeskočit).
Prostě to vymyslete
Stejně jako všechny pravděpodobnostní modely umělé inteligence má však MarioVGG frustrující tendenci poskytovat někdy zcela neužitečné výsledky. Někdy to znamená prostě ignorovat výzvy k zadání uživatele („pozorujeme, že text vstupní akce není po celou dobu uposlechnut,“ píší výzkumníci). Jindy to znamená halucinační zjevné vizuální závady: Mario někdy přistane uvnitř překážek, proběhne překážkami a nepřáteli, bliká různými barvami, zmenšuje se/roste od snímku k snímku nebo úplně zmizí na několik snímků, než se znovu objeví.
Jedno obzvláště absurdní video sdílené výzkumníky ukazuje, jak Mario propadá mostem, stává se Cheep-Cheepem, pak letí zpět nahoru přes mosty a znovu se proměňuje v Maria. To je něco, co bychom očekávali od Wonder Flower, ne od AI videa originálu Super Mario Bros.
Výzkumníci se domnívají, že delší trénink na „rozmanitějších herních datech“ by mohl pomoci s těmito významnými problémy a pomoci jejich modelu simulovat více než jen běh a skákání neúprosně doprava. Přesto je MarioVGG zábavným důkazem konceptu, že i omezená tréninková data a algoritmy mohou vytvořit slušné startovací modely základních her.
Tento příběh se původně objevil na Ars Technica.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com