Už víme, že chatboti OpenAI mohou složit advokátní zkoušku, aniž by museli studovat právnickou fakultu. Nyní, právě v době předávání Oscarů, doufá nová aplikace OpenAI s názvem Sora, že zvládne kinematografii, aniž by chodila do filmové školy. Sora je prozatím výzkumným produktem a nabízí několik vybraných tvůrců a řadu bezpečnostních expertů, kteří jej provedou červeným týmem pro bezpečnostní zranitelnosti. OpenAI ho plánuje zpřístupnit všem rádoby autorům k nějakému blíže neurčenému datu, ale rozhodlo se, že si jej předem ukáže.
Jiné společnosti, od gigantů jako Google po startupy jako Runway, již odhalily projekty umělé inteligence pro převod textu na video. OpenAI však říká, že Sora se vyznačuje pozoruhodným fotorealismem – něco, co jsem u jejích konkurentů neviděl – a schopností produkovat delší klipy než krátké úryvky, které obvykle dělají jiné modely, až do jedné minuty. Výzkumníci, se kterými jsem mluvil, neřeknou, jak dlouho trvá vykreslení celého toho videa, ale po stisknutí to popsali spíše jako „jít na burrito“ než „vzít si pár dní volna“. Pokud se dá věřit ručně vybraným příkladům, které jsem viděl, ta námaha stojí za to.
OpenAI mi nedovolila zadávat vlastní výzvy, ale sdílela čtyři instance Sorovy síly. (Žádný se nepřiblížil údajnému limitu jedné minuty; nejdelší měl 17 sekund.) První vzešel z podrobné výzvy, která zněla jako nastavení posedlého scénáristy: „Krásné, zasněžené město Tokio je plné života. Kamera se pohybuje rušnou ulicí města a sleduje několik lidí, kteří si užívají krásné zasněžené počasí a nakupují v okolních stáncích. Nádherné okvětní lístky sakury létají větrem spolu se sněhovými vločkami.“
Výsledkem je přesvědčivý pohled na to, co je nepochybně Tokio, v onom magickém okamžiku, kdy vedle sebe existují sněhové vločky a třešňové květy. Virtuální kamera, jako by byla připevněna k dronu, sleduje pár, jak se pomalu procházejí krajinou. Jeden z kolemjdoucích má masku. Auta rachotí po silnici u řeky nalevo od nich a napravo se nakupující míhají dovnitř a ven z řady malých obchůdků.
Není to dokonalé. Až když se na klip podíváte několikrát, uvědomíte si, že hlavní hrdinové – pár procházející se po zasněženém chodníku – by čelili dilematu, kdyby virtuální kamera stále běžela. Zdá se, že chodník, který zaujímají, je slepý; museli by překročit malé zábradlí na podivný paralelní chodník po jejich pravici. Navzdory této mírné závadě je příklad z Tokia ohromujícím cvičením při budování světa. Po cestě budou produkční designéři debatovat o tom, zda jde o mocného spolupracovníka nebo zabijáka práce. Také lidé v tomto videu – kteří jsou zcela generováni digitální neuronovou sítí – nejsou zobrazeni zblízka a neprovozují žádné emoce. Ale tým Sora říká, že v jiných případech měli falešné herce, kteří projevovali skutečné emoce.
I ostatní klipy jsou působivé, zejména jeden, který požaduje „animovanou scénu krátkého chlupatého monstra klečícího vedle červené svíčky“, spolu s některými podrobnými scénickými pokyny („doširoka otevřené oči a otevřená ústa“) a popisem požadované atmosféry klip. Sora vytvoří tvora ve stylu Pixar, který vypadá, že má DNA od Furbyho, Gremlina a Sullyho. Příšerky s.r.o. Pamatuji si, že když vyšel ten druhý film, Pixar se hodně zabýval tím, jak obtížné bylo vytvořit ultrasložitou texturu srsti monstra, když se tvor pohyboval. Všem kouzelníkům z Pixaru trvalo měsíce, než se to podařilo. Nový stroj pro převod textu na video od OpenAI… právě to dokázal.
„Učí se o 3D geometrii a konzistenci,“ říká Tim Brooks, vědecký pracovník projektu, o tomto úspěchu. „Nezapékali jsme to – prostě to úplně vyplynulo z toho, že jsme viděli spoustu dat.“
I když jsou scény jistě působivé, nejpřekvapivější na Sořiných schopnostech jsou ty, na které nebyl vycvičen. Sora, která je poháněna verzí difúzního modelu používaného generátorem obrázků Dalle-3 společnosti OpenAI, stejně jako motorem GPT-4 založeným na transformátoru, nevydává pouze videa, která splňují požadavky výzev, ale dělá to způsobem. který ukazuje vznikající pochopení filmové gramatiky.
To se promítá do talentu pro vyprávění. V dalším videu, které bylo vytvořeno na základě výzvy k „nádherně vykreslenému papírovému světu korálového útesu, který je plný barevných ryb a mořských tvorů“. Bill Peebles, další výzkumník projektu, poznamenává, že Sora vytvořila narativní tah pomocí úhlů kamery a načasování. „Ve skutečnosti dochází k několika změnám záběru – tyto nejsou spojeny dohromady, ale generovány modelem najednou,“ říká. „Neřekli jsme tomu, aby to udělalo, prostě to udělalo automaticky.“
V dalším příkladu, který jsem neviděl, byla Sora vyzvána, aby provedla prohlídku zoo. „Začalo to názvem zoo na velkém nápisu, postupně se to posunulo dolů a pak prošlo řadou změn záběrů, které ukazovaly různá zvířata, která v zoo žijí,“ říká Peebles, „udělalo to pěkné a filmovým způsobem, ke kterému to nebylo výslovně nařízeno.“
Jednou z funkcí v Sora, kterou tým OpenAI neukázal a možná ještě nějakou dobu nevydá, je schopnost generovat videa z jednoho obrázku nebo sekvence snímků. „Bude to další opravdu skvělý způsob, jak zlepšit schopnosti vyprávění,“ říká Brooks. „Můžeš nakreslit přesně to, co máš na mysli a pak to oživit.“ OpenAI si uvědomuje, že tato funkce má také potenciál produkovat hluboce falešné a dezinformace. „Budeme velmi opatrní ohledně všech bezpečnostních důsledků,“ dodává Peebles.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com