
Když něco jde Nesprávný s asistentem AI je naším instinktem se ho přímo zeptat: „Co se stalo?“ nebo „Proč jsi to udělal?“ Je to přirozený impuls – po všem, pokud člověk udělá chybu, žádáme je, aby vysvětlili. U modelů AI však tento přístup zřídka funguje a nutkání se zeptat odhaluje zásadní nedorozumění, jaké jsou tyto systémy a jak fungují.
Nedávný incident s AIS AIS Assistant AI Replit tento problém dokonale ilustruje. Když nástroj AI odstranil produkční databázi, uživatel Jason Lemkin se ho zeptal na možnosti vrácení. Model AI s jistotou tvrdil, že vrácení bylo „nemožné v tomto případě“ a že „zničil všechny databázové verze“. Ukázalo se, že to bylo úplně špatné – funkce návratu fungovala dobře, když to Lemkin sám vyzkoušel.
A poté, co Xai nedávno obrátil dočasné pozastavení Grok Chatbot, uživatelé ji požádali přímo o vysvětlení. Nabídl pro svou nepřítomnost několik protichůdných důvodů, z nichž některé byly dostatečně kontroverzní, že reportéři NBC o Groku psali, jako by to byla osoba s důsledným pohledem a název článku: „Xai’s Grok nabízí politická vysvětlení, proč byl stažen offline.“
Proč by systém AI poskytoval takové sebevědomě nesprávné informace o svých vlastních schopnostech nebo chybách? Odpověď spočívá v pochopení toho, co ve skutečnosti jsou modely AI – a co nejsou.
Nikdo není doma
Prvním problémem je koncepční: nemluvíte s konzistentní osobností, osobou nebo entitou, když komunikujete s chatgptem, Claude, Grok nebo Replite. Tato jména naznačují jednotlivé agenty se sebepoznáním, ale to je iluze vytvořená konverzačním rozhraním. To, co vlastně děláte, je vedení statistického generátoru textu pro vytváření výstupů na základě vašich pokynů.
Neexistuje žádný konzistentní „chatgpt“, který by se dotazoval o jeho chyby, žádný jedinečný „grok“ entitu, která by vám mohla sdělit, proč selhala, žádná pevná „replikovat“ osobnost, která ví, zda jsou možné vrácení databáze. Interagují se systémem, který generuje věrohodný znějící text založený na vzorcích ve svých tréninkových datech (obvykle vyškolených měsíců nebo lety), nikoli entitou se skutečným sebevědomím nebo systémovým znalostem, které o sobě čte vše a nějak si to pamatuje.
Jakmile je vyškolen jazykový model AI (což je pracný, energeticky náročný proces), jeho základní „znalosti“ o světě se zapečejí do neuronové sítě a zřídka se upravují. Jakékoli externí informace pocházejí z výzvy dodávané hostitelem Chatbot (jako je XAI nebo OpenAI), uživatel nebo softwarový nástroj, který model AI používá k načtení externích informací za běhu.
V případě výše uvedeného Groka by hlavní zdroj chatbota pro takovou odpověď pravděpodobně pochází z konfliktních zpráv, které našel při hledání nedávných příspěvků na sociálních médiích (pomocí externího nástroje k získání těchto informací), než jakýmkoli druhem sebepoznání, jak byste mohli očekávat od člověka se silou řeči. Kromě toho to pravděpodobně jen něco vytvoří na základě svých schopností predikce textu. Takže se zeptám, proč to udělal, co udělal, nepřinese žádné užitečné odpovědi.
Nemožnost introspekce LLM
Samotné velké jazykové modely (LLM) nemohou smysluplně posoudit své vlastní schopnosti z několika důvodů. Obecně jim chybí jakoukoli introspekci do svého tréninkového procesu, nemají přístup k jejich architektuře okolního systému a nemohou určit své vlastní hranice výkonu. Když se zeptáte modelu AI, co může nebo nemůže udělat, generuje odpovědi na základě vzorců, které zaznamenala ve školení o známých omezeních předchozích modelů AI-v podstatě poskytují vzdělané odhady spíše než faktické sebehodnocení o současném modelu, se kterým interagujete.
Studie 2024 od Binder et al. prokázal toto omezení experimentálně. Zatímco modely AI by mohly být vyškoleny k předpovídání jejich vlastního chování v jednoduchých úkolech, důsledně selhaly při „složitějších úkolech nebo těch, které vyžadovaly generalizaci mimo distribuci“. Podobně výzkum „rekurzivní introspekce“ zjistil, že bez externí zpětné vazby se pokusy o samorekce ve skutečnosti zhoršily výkon modelu-sebehodnocení AI zhoršilo věci, ne lepší.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com