
Latam-GPT je nový Model velkého jazyka se vyvíjí v Latinské Americe a pro něj. Cílem projektu, vedeného neziskovým chilským národním centrem pro umělou inteligenci (CENIA), je pomoci regionu dosáhnout technologické nezávislosti vývojem modelu AI s otevřeným zdrojovým kódem vyškolený na latinskoamerické jazyky a kontexty.
„Tuto práci nemůže provádět pouze jedna skupina nebo jedna země v Latinské Americe: je to výzva, která vyžaduje účast každého,“ říká Álvaro Soto, ředitel Cenia, v rozhovoru s Wired En Español. „Latam-GPT je projekt, který se snaží vytvořit otevřený, zdarma a především spolupracující model AI. Pracujeme dva roky s procesem zdola nahoru a spojujeme občany z různých zemí, které chtějí spolupracovat. Nedávno také zaznamenaly další iniciativy shora dolů, přičemž vlády se zajímaly a začaly se účastnit projektu.“
Projekt vyniká pro svůj duch spolupráce. „Nechceme soutěžit s OpenAI, Deepseekem nebo Googlem. Chceme model specifický pro Latinskou Ameriku a Karibik, který si je vědom kulturních požadavků a výzev, které to znamená, jako je pochopení různých dialektů, historie regionu a jedinečné kulturní aspekty,“ vysvětluje Soto.
Díky 33 strategickým partnerstvím s institucemi v Latinské Americe a v Karibiku tento projekt shromáždil korpus dat přesahujících osm terabajtů textu, což je ekvivalent milionů knih. Tato informační základna umožnila vývoj jazykového modelu s 50 miliardami parametrů, což je stupnice, díky které je srovnatelný s GPT-3.5 a dává mu střední až vysokou kapacitu pro provádění složitých úkolů, jako je zdůvodnění, překlad a asociace.
Latam-GPT je vyškolen v regionální databázi, která sestavuje informace z 20 latinskoamerických zemí a Španělska s působivým celkem 2 645 500 dokumentů. Distribuce údajů ukazuje významnou koncentraci v největších zemích v regionu, přičemž Brazílie je vůdce s 685 000 dokumentů, následovaný Mexikem s 385 000, Španělsko s 325 000, Kolumbie s 220 000 a Argentina s 210 000 dokumenty. Čísla odrážejí velikost těchto trhů, jejich digitální vývoj a dostupnost strukturovaného obsahu.
„Zpočátku spustíme jazykový model. Očekáváme, že jeho výkon v obecných úkolech bude blízko k výkonnosti velkých komerčních modelů, ale s vynikajícím výkonem v tématech specifických pro Latinskou Ameriku je, že pokud se ho zeptáme na témata relevantní pro náš region, její znalosti budou mnohem hlubší,“ vysvětluje Soto.
Prvním modelem je výchozím bodem pro vývoj rodiny pokročilejších technologií v budoucnosti, včetně těch s obrazem a videem a pro škálování na větší modely. „Protože se jedná o otevřený projekt, chceme, aby jej mohly používat další instituce. Skupina v Kolumbii by ji mohla přizpůsobit školskému vzdělávacímu systému nebo v Brazílii by jej mohla přizpůsobit zdravotnickému sektoru. Tato myšlenka je otevřít dveře pro různé organizace, aby vytvořily konkrétní modely pro konkrétní oblasti, jako je zemědělství, kultura a další,“ vysvětluje ředitel Cenia.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com