
Výzkumník přidružený k startupu Elona Muska XAI našel nový způsob měření a manipulace s zakořeněnými preferencemi a hodnotami vyjádřenými modely umělé inteligence – včetně jejich politických názorů.
Práce vedl Dan Hendrycks, ředitel neziskového centra pro bezpečnost AI a poradcem Xai. Navrhuje, aby technika mohla být použita k tomu, aby se populární modely AI lépe odrážely vůli voličů. „Možná v budoucnu, [a model] Mohlo by být spojeno s konkrétním uživatelem, “řekl Hendrycks Wired. Mezitím však říká, že dobrý výchozí nastavení by bylo používat výsledky voleb k nasměrování názorů na modely AI. Neříká, že by model měl být nutně „Trump celou cestu“, ale tvrdí, že by měl být vůči Trumpovi lehce zaujatý, „protože vyhrál lidové hlasování.“
XAI vydal 10. února nový rámec rizik AI, v němž uvedl, že k posouzení Grok lze použít přístup Hendrycksův inženýrství.
Hendrycks vedl tým z Centra pro bezpečnost AI, UC Berkeley a University of Pennsylvania, který analyzoval modely AI pomocí techniky vypůjčené od ekonomiky k měření preferencí spotřebitelů pro různé zboží. Testováním modelů napříč širokou škálou hypotetických scénářů byli vědci schopni vypočítat to, co se nazývá užitečná funkce, což je míra spokojenosti, kterou lidé pocházejí z dobrého nebo služby. To jim umožnilo měřit preference vyjádřené různými modely AI. Vědci zjistili, že byli často spíše konzistentní než náhodné, a ukázali, že tyto preference jsou zakořeněnější, protože modely jsou větší a silnější.
Některé výzkumné studie zjistily, že nástroje AI, jako je chatgpt, jsou zkreslené směrem k názorům vyjádřeným pro-environmentálními, levicovými a libertariánskými ideologiemi. V únoru 2024 čelil Google kritiku od Muska a dalších poté, co bylo zjištěno, že jeho gemini nástroj je predisponován k generování obrázků, které kritici označili za „probuzené“, jako jsou Black Vikings a Nacists.
Technika vyvinutá společností Hendrycks a jeho spolupracovníky nabízí nový způsob, jak určit, jak se perspektivy modelů AI mohou lišit od jejích uživatelů. Nakonec, někteří odborníci předpokládají, že tento druh divergence by se mohl stát potenciálně nebezpečným pro velmi chytré a schopné modely. Vědci například ve své studii ukazují, že některé modely neustále oceňují existenci AI nad existencí některých nehumánních zvířat. Vědci tvrdí, že také zjistili, že se zdá, že modely oceňují některé lidi před ostatními a vyvolávají své vlastní etické otázky.
Někteří vědci, včetně Hendrycks, se domnívají, že současné metody pro vyrovnání modelů, jako je manipulace a blokování jejich výstupů, nemusí stačit, pokud se nežádoucí cíle skrývají pod povrchem samotného modelu. „Budeme to muset čelit,“ říká Hendrycks. „Nemůžeš předstírat, že tam není.“
Dylan Hadfield-Menell, profesor MIT, který zkoumá metody pro sladění AI s lidskými hodnotami, říká Hendrycksův dokument, který navrhuje slibný směr pro výzkum AI. „Najdou některé zajímavé výsledky,“ říká. „Hlavním, který vyniká, je to, že se zvyšováním modelového stupnice jsou reprezentace užitečnosti úplnější a soudržnější.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com