Na začátku pandemie jeden agent – literární, nikoli software – navrhl Fei-Fei Li napsat knihu. Přístup dával smysl. Na poli umělé inteligence se nesmazatelně zapsala do vedení projektu zahájeného v roce 2006 s názvem ImageNet. Klasifikoval miliony digitálních snímků, aby vytvořily to, co se stalo klíčovým tréninkovým prostorem pro systémy umělé inteligence, které dnes otřásají naším světem. Li je v současné době zakládajícím spoluředitelem Stanfordského institutu umělé inteligence zaměřené na člověka (HAI), jehož samotné jméno je prosbou o spolupráci, ne-li koevoluci, mezi lidmi a inteligentními stroji. Li přijal výzvu agenta a strávil rok blokování chrlením návrhu. Ale když si to přečetl její spoluzakladatel v HAI, filozof Jon Etchemendy, řekl jí, aby začala znovu – tentokrát včetně vlastní cesty v terénu. „Řekl, že existuje spousta technických lidí, kteří dokážou číst knihu o AI,“ říká Li. „Ale propásl jsem příležitost říct všem mladým přistěhovalcům, ženám a lidem různého původu, aby to pochopili ony vlastně umí i AI.“
Li je soukromá osoba, které je nepříjemné mluvit o sobě. Ale hravě přišla na to, jak integrovat svou zkušenost imigrantky, která přišla do Spojených států, když jí bylo 16 let, aniž by ovládala jazyk, a překonala překážky, aby se stala klíčovou postavou této klíčové technologie. Na cestě ke své současné pozici byla také ředitelkou Stanford AI Lab a hlavní vědeckou pracovnicí pro AI a strojové učení ve společnosti Google Cloud. Li říká, že její kniha, Světy, které vidím, je strukturován jako dvojitá šroubovice, s jejím osobním hledáním a trajektorií AI propletené do spirálovitého celku. „Nadále se vidíme skrze odraz toho, kdo jsme,“ říká Li. „Součástí reflexe je samotná technologie. Nejtěžší svět vidět jsme my sami.“
Prameny se nejdramatičtěji spojují v jejím vyprávění o vytvoření a implementaci ImageNet. Li vypráví o svém odhodlání vzdorovat těm, včetně svých kolegů, kteří pochybovali o tom, že by bylo možné označit a kategorizovat miliony obrázků, s nejméně 1000 příklady pro každou z rozlehlého seznamu kategorií, od polštářů po housle. Úsilí vyžadovalo nejen technickou zdatnost, ale i pot doslova tisíců lidí (spoiler: Amazon’s Mechanical Turk pomohl zvrátit trik). Projekt je srozumitelný pouze tehdy, když pochopíme její osobní cestu. Nebojácnost pustit se do tak riskantního projektu vzešla z podpory jejích rodičů, kteří navzdory finančním problémům trvali na tom, že odmítla lukrativní práci v obchodním světě, aby si splnila svůj sen stát se vědkyní. Provedení tohoto moonshotu by bylo konečným potvrzením jejich oběti.
Odplata byla hluboká. Li popisuje, jak budování ImageNet od ní vyžadovalo, aby se na svět dívala tak, jako by to mohl udělat algoritmus umělé neuronové sítě. Když se ve skutečném světě setkala se psy, stromy, nábytkem a dalšími předměty, její mysl nyní prohlédla svou instinktivní kategorizaci toho, co vnímala, a pochopila, jaké aspekty předmětu mohou softwaru odhalit jeho podstatu. Jaké vizuální stopy by vedly digitální inteligenci k tomu, aby tyto věci identifikovala a dále byla schopna určit různé podkategorie – bíglové versus chrti, dub versus bambus, Eamesova židle versus Mission rocker? Je tam fascinující část o tom, jak se její tým snažil shromáždit snímky všech možných modelů aut. Když byl ImageNet v roce 2009 dokončen, Li zahájil soutěž, ve které výzkumníci použili datový soubor k trénování svých algoritmů strojového učení, aby zjistili, zda počítače mohou dosáhnout nových výšin při identifikaci objektů. V roce 2012 vyšel vítěz, AlexNet, z laboratoře Geoffreyho Hintona na University of Toronto a zaznamenal obrovský skok oproti předchozím vítězům. Někdo by mohl namítnout, že kombinace ImageNet a AlexNet odstartovala boom hlubokého učení, který nás i dnes posedává – a pohání ChatGPT.
To, co Li a její tým nechápali, bylo, že tento nový způsob vidění může být také spojen s tragickým sklonem lidstva dovolit zaujatosti poskvrnit to, co vidíme. Ve své knize uvádí „záblesk viny“, když se objevily zprávy, že Google nesprávně označil černochy za gorily. Následovaly další otřesné příklady. „Když internet představuje převážně bílý, západní a často mužský obraz každodenního života, zbývá nám technologie, která se snaží dát každému smysl,“ píše Li a opožděně si uvědomuje chybu. Byla vyzvána ke spuštění programu nazvaného AI4All, který má přivést ženy a barevné lidi do terénu. „Když jsme byli průkopníky ImageNet, nevěděli jsme zdaleka tolik, co víme dnes,“ říká Li a dává jasně najevo, že „my“ používala v kolektivním smyslu, nikoli jen jako odkaz na svůj malý tým.“ se od té doby masivně vyvinuly. Ale pokud existují věci, které jsme nedělali dobře; musíme je opravit.“
V den, kdy jsem mluvil s Li, Washington Post běžel dlouhý článek o tom, jak zaujatost ve strojovém učení zůstává vážným problémem. Dnešní generátory obrázků AI jako Dall-E a Stable Diffusion stále přinášejí stereotypy při interpretaci neutrálních výzev. Když jsou požádáni o zobrazení „produktivního člověka“, systémy obvykle zobrazují bílé muže, ale žádost o „osobu v sociálních službách“ často zobrazuje lidi barvy pleti. Je klíčový vynálezce ImageNet, základ pro vštěpování lidské zaujatosti do umělé inteligence, přesvědčen, že problém lze vyřešit? “Sebejistý bylo by to příliš jednoduché slovo,“ říká. „Jsem opatrně optimistický v tom, že existují jak technická řešení, tak řešení správy věcí veřejných, stejně jako požadavky trhu být lepší a lepší.“ Tento opatrný optimismus se vztahuje i na způsob, jakým mluví o hrozivých předpovědích, že AI by mohla vést k vyhynutí lidstva. „Nechci vyvolávat falešný pocit, že to všechno bude v pořádku,“ říká. „Ale také nechci vyvolat pocit temnoty a zkázy, protože lidé potřebují naději.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com