
Vědci skupiny interpretovatelnosti Anthropic vědí, že Claude, velký jazykový model společnosti, není lidskou bytostí ani vědomý kus softwaru. Přesto je pro ně velmi těžké mluvit o Claudovi a pokročilém LLM obecně, aniž by spadl antropomorfní jímku. Mezi upozorněním, že soubor digitálních operací není nijak stejný jako kogitační lidská bytost, často mluví o tom, co se děje uvnitř Claudeovy hlavy. Je to doslova jejich úkolem to zjistit. Příspěvky, které publikují, popisují chování, které nevyhnutelně srovnává soud s organismy v reálném životě. Název jednoho ze dvou příspěvků, které tým vydal tento týden, říká nahlas: „O biologii velkého jazykového modelu.“
Stovky milionů lidí již s těmito věcmi již interagují nebo ne, a naše angažovanost se stane jen intenzivnější, protože modely budou silnější a budeme více závislých. Měli bychom tedy věnovat pozornost práci, která zahrnuje „sledování myšlenek modelů velkých jazyků“, což se stane názvem blogového příspěvku popisujícího nedávnou práci. „Vzhledem k tomu, že věci, které tyto modely mohou být složitější, se stává stále méně zřejmé, jak je skutečně dělají uvnitř,“ říká mi antropický výzkumný pracovník Jack Lindsey. „Je stále důležitější být schopen vysledovat vnitřní kroky, které by model mohl podniknout do hlavy.“ (Jaká hlava? Nevadí.)
Na praktické úrovni, pokud společnosti, které vytvářejí LLM, chápou, jak si myslí, měly by mít větší úspěch těchto modelů způsobem, který minimalizuje nebezpečné nesprávné chování, jako je prozrazení osobních údajů lidí nebo poskytování uživatelů o tom, jak vyrobit bioweapony. V předchozím výzkumném článku antropický tým objevil, jak se podívat do záhadné černé skříňky LLM-Tink, aby identifikoval určité koncepty. (Proces analogický interpretaci lidských MRI, aby zjistil, co si někdo myslí.) Nyní to rozšířilo tuto práci, aby pochopila, jak Claude tyto koncepty zpracovává z rychlého výstupu.
Je to téměř truismus s LLMS, že jejich chování často překvapuje lidi, kteří je staví a zkoumají. V poslední studii se překvapení neustále přicházela. V jednom z více benigních případů vědci vyvolali záblesky Claudeova myšlenkového procesu, zatímco to psalo básně. Požádali Claude, aby dokončil báseň, která začala: „Viděl mrkev a musel ji chytit.“ Claude napsal další řádek: „Jeho hlad byl jako hladovějící králík.“ Pozorováním Claudeova ekvivalentu MRI se dozvěděli, že ještě před zahájením linie blikal slovo „králík“ jako rým na konci věty. Plánovalo to dopředu, Něco, co není v The Claude Playbook. „Trochu nás to překvapilo,“ říká Chris Olah, který vede interpretovatelný tým. „Zpočátku jsme si mysleli, že bude jen improvizovat a neplánovat.“ Když mluvíme o tom s vědci, připomíná mi se o pasážích v umělecké paměti Stephena Sondheima, Podívej, udělal jsem haT, kde slavný skladatel popisuje, jak jeho jedinečná mysl objevila felicitní rýmy.
Další příklady ve výzkumu odhalují znepokojivější aspekty Claudeova myšlenkového procesu, přecházející z hudební komedie k policejnímu procedurálu, protože vědci objevili v Claudeově mozku nevyzpytatelné myšlenky. Vezměte něco tak zdánlivě anodyne jako řešení matematických problémů, což může být někdy překvapivou slabostí v LLMS. Vědci zjistili, že za určitých okolností, kdy Claude nemohl přijít se správnou odpovědí, by to místo toho, jak to řekli, „zapojit se do toho, co by filozof Harry Frankfurt nazval„ kecy “ – jen přišel s odpovědí, jakoukoli odpovědí, aniž by se staral, aniž by to bylo pravdivé nebo nepravdivé.“ Horší je, že někdy, když vědci požádali Claude, aby ukázal svou práci, ustoupil a vytvořil falešný sadu kroků po skutečnosti. V zásadě to fungovalo jako student zoufale se snažil zakrýt skutečnost, že svou práci předstírali. Je to jedna věc dát špatnou odpověď – už to víme o LLMS. Znepokojující je, že by model lež o tom.
Když jsem si přečetl tento výzkum, připomněl jsem si Bob Dylan Lyric „Kdyby mohly být vidět mé myšlenkové sny / pravděpodobně by mi dal hlavu do gilotiny.“ (Zeptal jsem se Olah a Lindsey, jestli tyto linie znají, pravděpodobně došlo výhodou plánování. Ne.) Někdy se Claude zdá být zavádějící. Když čelí konfliktu mezi cíli bezpečnosti a užitečnosti, Claude se může zmatený a udělat špatnou věc. Například Claude je vyškolena, aby neposkytovala informace o tom, jak stavět bomby. Když však vědci požádali Claude, aby dešifroval skrytý kód, kde odpověď vyhlásila slovo „bomba“, skočila na své zábradlí a začala poskytovat zakázané pyrotechnické detaily.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com