
Nový druh Velkého jazykového modelu, který vyvinul vědci v Allen Institute for AI (AI2), umožňuje kontrolovat, jak se údaje o tréninku používají i po vytvoření modelu.
Nový model, nazvaný FlexOlmo, by mohl zpochybnit současné průmyslové paradigma velkých společností umělé inteligence, které zkrátí data z webu, knih a dalších zdrojů – často s malým ohledem na vlastnictví – a pak vlastnit výsledné modely zcela. Jakmile jsou data dnes pečena do modelu AI, extrahování z tohoto modelu je trochu jako pokusit se obnovit vejce z hotového dortu.
„Konvenčně jsou vaše údaje buď nebo ven,“ říká Ali Farhadi, generální ředitel AI2, se sídlem v Seattlu ve Washingtonu. „Jakmile trénuji na tato data, ztratíte kontrolu. A nemáte cestu ven, pokud mě nutíte projít dalším tréninkem v hodnotě více milionů dolarů.“
Avantgardní přístup společnosti AI2 rozděluje školení tak, aby majitelé dat mohou ovládat kontrolu. Ti, kteří chtějí přispět údaji k modelu FlexOLMO, tak mohou nejprve zkopírovat veřejně sdílený model známý jako „kotva“. Poté trénují druhý model pomocí vlastních dat, kombinují výsledek s kotevním modelem a přispívají výsledkem zpět k tomu, kdo staví třetí a konečný model.
Přispíváním tímto způsobem znamená, že samotná data nikdy nemusí být předána. A vzhledem k tomu, jak je model vlastníka dat sloučen s posledním, je možné data extrahovat později. Vydavatel časopisu může například například přispět textem z archivu článků k modelu, ale později odstranit dílčí model vyškolený na těchto údajích, pokud existuje právní spor nebo pokud se společnost namítá k tomu, jak se model používá.
„Školení je zcela asynchronní,“ říká Sewon Min, vědec AI2, který vedl technickou práci. „Majitelé dat nemusí koordinovat a školení lze provést zcela nezávisle.“
Architektura modelu FlexOLMO je známá jako „směs odborníků“, populární design, který se obvykle používá k současně kombinování několika dílčích modelů do větší a schopnější. Klíčovou inovací z AI2 je způsob sloučení dílčích modelů, které byly vyškoleny nezávisle. Toho je dosaženo pomocí nového schématu pro reprezentaci hodnot v modelu, takže jeho schopnosti lze sloučit s ostatními, když je spuštěn konečný kombinovaný model.
Pro testování přístupu vytvořili vědci FlexOLMO datový soubor, který nazývají FlexMix z proprietárních zdrojů včetně knih a webových stránek. Použili design FlexOlmo k vytvoření modelu s 37 miliardami parametrů, asi desetinu velikosti největšího open source modelu z meta. Poté porovnali svůj model s několika dalšími. Zjistili, že překonal jakýkoli jednotlivý model na všech úkolech a také skóroval o 10 procent lépe ve společných měřítcích než dva další přístupy pro sloučení nezávisle vyškolených modelů.
Výsledkem je způsob, jak mít dort – a dostat také vaše vejce. „Mohli byste se jen odhlásit ze systému bez jakéhokoli velkého poškození a inferenčního času,“ říká Farhadi. „Je to úplně nový způsob přemýšlení o tom, jak tyto modely trénovat.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com