Původní verze z tento příběh se objevil v Časopis Quanta.
Zde je test pro kojence: Ukažte jim sklenici vody na stole. Schovejte ho za dřevěnou desku. Nyní posuňte desku směrem ke sklu. Pokud deska stále prochází kolem skla, jako by tam nebyla, jsou překvapeni? Mnoho šestiměsíčních dětí je a do roku již téměř všechny děti mají intuitivní představu o stálosti předmětu, kterou se naučili pozorováním. Nyní to dělají i některé modely umělé inteligence.
Výzkumníci vyvinuli systém umělé inteligence, který se učí o světě prostřednictvím videí a demonstruje pojem „překvapení“, když je mu předložena informace, která je v rozporu s poznatky, které nasbíral.
Model vytvořený Meta a nazvaný Video Joint Embedding Predictive Architecture (V-JEPA) nevytváří žádné předpoklady o fyzice světa obsaženého ve videích. Nicméně to může začít dávat smysl tomu, jak svět funguje.
„Jejich tvrzení jsou a priori velmi věrohodná a výsledky jsou velmi zajímavé,“ říká Micha Heilbron, kognitivní vědec z Amsterdamské univerzity, který studuje, jak mozky a umělé systémy dávají světu smysl.
Vyšší abstrakce
Jak vědí inženýři, kteří staví samořídící auta, může být těžké přimět systém umělé inteligence, aby spolehlivě dával smysl tomu, co vidí. Většina systémů navržených tak, aby „porozuměly“ videím za účelem buď klasifikovat jejich obsah („člověk hrající tenis“ například) nebo identifikovat obrysy objektu – řekněme auta před námi – pracuje v takzvaném „pixelovém prostoru“. Model v podstatě považuje každý pixel ve videu za stejně důležitý.
Tyto modely s pixelovým prostorem však přicházejí s omezeními. Představte si, že se snažíte dát smysl předměstské ulici. Pokud jsou na scéně auta, semafory a stromy, model se může příliš soustředit na nepodstatné detaily, jako je pohyb listů. Může chybět barva semaforu nebo pozice blízkých aut. „Když přejdete na obrázky nebo videa, nechcete pracovat [pixel] prostor, protože je tam příliš mnoho detailů, které nechcete modelovat,“ řekl Randall Balestriero, počítačový vědec z Brownovy univerzity.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com

