Přístup vývojáře ChatGPT OpenAI k budování umělé inteligence se tento týden dostal pod palbu bývalých zaměstnanců, kteří obviňují společnost ze zbytečného riskování s technologií, která by se mohla stát škodlivou.
OpenAI dnes vydala nový výzkumný dokument, jehož cílem je zjevně ukázat, že to myslí vážně s rizikem AI tím, že jeho modely budou lépe vysvětlitelné. V článku výzkumníci ze společnosti navrhli způsob, jak nahlédnout do modelu AI, který pohání ChatGPT. Vymysleli způsob, jak identifikovat, jak ukládá určité koncepty – včetně těch, které by mohly způsobit špatné chování systému AI.
Přestože výzkum zviditelnil práci OpenAI na udržování umělé inteligence pod kontrolou, také zdůrazňuje nedávné nepokoje ve společnosti. Nový výzkum provedl nedávno rozpuštěný tým „superalignment“ v OpenAI, který se věnoval studiu dlouhodobých rizik, která tato technologie představuje.
Jako spoluautoři jsou jmenováni spoluautoři bývalé skupiny Ilya Sutskever a Jan Leike, kteří oba opustili OpenAI. Sutskever, spoluzakladatel společnosti a bývalý hlavní vědec, byl mezi členy představenstva, kteří loni v listopadu hlasovali pro odvolání generálního ředitele OpenAI Sama Altmana, což vyvolalo několik chaotických dnů, které vyvrcholily Altmanovým návratem do funkce vůdce.
ChatGPT je poháněn rodinou takzvaných velkých jazykových modelů zvaných GPT, založených na přístupu ke strojovému učení známému jako umělé neuronové sítě. Tyto matematické sítě prokázaly velkou sílu naučit se užitečné úkoly pomocí analýzy příkladových dat, ale jejich fungování nelze snadno prozkoumat, jako to mohou běžné počítačové programy. Složitá souhra mezi vrstvami „neuronů“ v umělé neuronové síti činí reverzní inženýrství, proč systém jako ChatGPT přišel s konkrétní reakcí, nesmírně náročným.
„Na rozdíl od většiny lidských výtvorů ve skutečnosti nerozumíme vnitřnímu fungování neuronových sítí,“ píší vědci stojící za prací v doprovodném blogovém příspěvku. Někteří prominentní výzkumníci umělé inteligence se domnívají, že nejvýkonnější modely umělé inteligence, včetně ChatGPT, by možná mohly být použity k navrhování chemických nebo biologických zbraní a koordinaci kybernetických útoků. Dlouhodobější obavou je, že modely umělé inteligence se mohou rozhodnout skrýt informace nebo jednat škodlivým způsobem, aby dosáhly svých cílů.
Nový dokument OpenAI nastiňuje techniku, která trochu zmírňuje záhadu tím, že identifikuje vzory, které představují konkrétní koncepty uvnitř systému strojového učení s pomocí dalšího modelu strojového učení. Klíčovou inovací je upřesnění sítě používané k nahlédnutí do systému zájmu identifikací konceptů, aby byl efektivnější.
OpenAI prokázala tento přístup identifikací vzorů, které představují koncepty uvnitř GPT-4, jednoho z jeho největších modelů umělé inteligence. Společnost vydala kód související s interpretovatelností a vizualizačním nástrojem, který lze použít ke zjištění, jak slova v různých větách aktivují koncepty včetně vulgárních výrazů a erotického obsahu v GPT-4 a dalším modelu. Znalost toho, jak model představuje určité koncepty, by mohla být krokem k tomu, abychom byli schopni potlačit ty, které jsou spojené s nežádoucím chováním, a udržet systém AI na kolejích. Mohlo by to také umožnit vyladit systém AI tak, aby upřednostňoval určitá témata nebo nápady.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com