Kromě knih, Institutional Data Initiative také spolupracuje s Boston Public Library na skenování milionů článků z různých novin, které jsou nyní ve veřejné doméně, a říká, že je otevřena formování podobné spolupráce. Přesný způsob vydání datové sady knih není stanoven. Institutional Data Initiative požádala Google, aby spolupracovali na veřejné distribuci, a společnost přislíbila svou podporu.
Ať už bude datová sada IDI zveřejněna, připojí se k řadě podobných projektů, startupů a iniciativ, které slibují, že společnostem poskytnou přístup k podstatným a vysoce kvalitním školicím materiálům AI bez rizika, že se setkají s problémy s autorskými právy. Vznikly firmy jako Calliope Networks a ProRata, které vydávají licence a navrhují kompenzační schémata navržená tak, aby dostali tvůrci a držitelé práv zaplaceno za poskytování školicích dat AI.
Existují také další nové projekty ve veřejné doméně. Podle koordinátora projektu Pierre-Carla Langlaise loni na jaře francouzský startup Pleias s umělou inteligencí spustil svůj vlastní datový soubor ve veřejné doméně Common Corpus, který obsahuje odhadem 3 až 4 miliony knih a sbírek periodik. Společný korpus, podporovaný francouzským ministerstvem kultury, byl jen tento měsíc stažen více než 60 000krát na open source AI platformě Hugging Face. Minulý týden společnost Pleias oznámila, že uvolňuje svou první sadu velkých jazykových modelů trénovaných na tomto datovém souboru, o kterých Langlais řekl WIRED, že představují první modely „kdy byly trénovány výhradně na otevřených datech a jsou v souladu s [EU] Zákon o AI.“
Probíhají také snahy o vytvoření podobných mágových datových sad. Startup AI Spawning letos v létě vydal svůj vlastní s názvem Source.Plus, který obsahuje obrázky ve veřejné doméně z Wikimedia Commons a také z různých muzeí a archivů. Několik významných kulturních institucí již dlouho zpřístupňuje své vlastní archivy veřejnosti jako samostatné projekty, jako je Metropolitní muzeum umění.
Ed Newton-Rex, bývalý výkonný ředitel společnosti Stability AI, který nyní provozuje neziskovou organizaci, která certifikuje eticky vyškolené nástroje umělé inteligence, říká, že nárůst těchto datových sad ukazuje, že není potřeba krást materiály chráněné autorskými právy, aby bylo možné vytvářet vysoce výkonné a kvalitní modely umělé inteligence. OpenAI již dříve řekl zákonodárcům ve Spojeném království, že by bylo „nemožné“ vytvářet produkty jako ChatGPT bez použití děl chráněných autorským právem. „Velké datové sady ve veřejné doméně, jako jsou tyto, dále ničí ‚obranu nezbytnosti‘, kterou některé společnosti využívající umělou inteligenci používají k ospravedlnění seškrabávání děl chráněných autorskými právy, aby trénovaly své modely,“ říká Newton-Rex.
Stále má ale výhrady k tomu, zda IDI a podobné projekty skutečně změní tréninkový status quo. „Tyto datové sady budou mít pozitivní dopad pouze tehdy, budou-li použity, pravděpodobně ve spojení s licencováním jiných dat, k nahrazení seškrabovaného díla chráněného autorským právem. Pokud jsou jen přidány do mixu, jedné části datové sady, která také zahrnuje nelicencované celoživotní dílo světových tvůrců, budou ohromným přínosem pro společnosti s umělou inteligencí,“ říká.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com