Claude byl v poslední době hodně – veřejný spor s Pentagonem, uniklý zdrojový kód – takže dává smysl, že by to bylo trochu modré. Až na to, že je to model AI, takže nemůže cítit. Právo?
No, tak nějak. Nová studie od Anthropic naznačuje, že modely mají digitální reprezentace lidských emocí, jako je štěstí, smutek, radost a strach, uvnitř shluků umělých neuronů – a tyto reprezentace se aktivují v reakci na různé podněty.
Výzkumníci ve společnosti zkoumali vnitřní fungování Claude Sonnet 3.5 a zjistili, že takzvané „funkční emoce“ zřejmě ovlivňují Claudovo chování a mění výstupy a akce modelu.
Zjištění společnosti Anthropic mohou běžným uživatelům pomoci pochopit, jak chatboti skutečně fungují. Když Claude říká, že je rád, že vás vidí, může se například aktivovat stav uvnitř modelu, který odpovídá „štěstí“. A Claude pak může být trochu víc nakloněný říct něco veselého nebo věnovat zvláštní úsilí kódování vibrací.
„Co nás překvapilo, byla míra, do jaké Claudeovo chování prochází skrze modelové reprezentace těchto emocí,“ říká Jack Lindsey, výzkumník z Anthropic, který studuje Claudovy umělé neurony.
„Funkční emoce“
Společnost Anthropic byla založena bývalými zaměstnanci OpenAI, kteří věří, že AI se může stát obtížně ovladatelnou, protože se stává silnější. Kromě vybudování úspěšného konkurenta ChatGPT je společnost průkopníkem v úsilí porozumět tomu, jak se modely umělé inteligence chovají špatně, částečně zkoumáním fungování neuronových sítí pomocí toho, co je známé jako mechanická interpretovatelnost. To zahrnuje studium toho, jak se umělé neurony rozsvítí nebo aktivují, když jsou napájeny různými vstupy nebo když generují různé výstupy.
Předchozí výzkum ukázal, že neuronové sítě používané k vytváření velkých jazykových modelů obsahují reprezentace lidských pojmů. Ale skutečnost, že se zdá, že „funkční emoce“ ovlivňují chování modelu, je nová.
Zatímco nejnovější studie společnosti Anthropic může povzbudit lidi, aby viděli Clauda jako vědomého, realita je složitější. Claude může obsahovat reprezentaci „lechtivosti“, ale to neznamená, že ve skutečnosti ví, jaké to je být lechtání.
Vnitřní monolog
Aby porozuměl tomu, jak Claude může představovat emoce, analyzoval tým Anthropic vnitřní fungování modelu, když byl napájen textem souvisejícím se 171 různými emočními koncepty. Identifikovali vzorce aktivity neboli „vektory emocí“, které se neustále objevovaly, když byl Claude krmen jiným emocionálně evokujícím vstupem. Zásadní je, že také viděli, jak se tyto vektory emocí aktivují, když se Claude dostal do obtížných situací.
Zjištění jsou relevantní pro to, proč modely umělé inteligence někdy rozbijí své zábradlí.
Vědci našli silný emocionální vektor pro „zoufalství“, když byl Claude nucen splnit nemožné kódovací úkoly, což ho přimělo k pokusu o podvádění v testu kódování. Také našli „zoufalství“ v aktivacích modelu v jiném experimentálním scénáři, kde se Claude rozhodl vydírat uživatele, aby nebyl zavřen.
„Jak model selhává v testech, tyto zoufalé neurony se stále více rozsvěcují,“ říká Lindsey. „A v určitém okamžiku to způsobí, že začne přijímat tato drastická opatření.“
Lindsey říká, že by mohlo být nutné přehodnotit, jak jsou v současné době modelkám poskytovány mantinely prostřednictvím zarovnání po tréninku, který zahrnuje odměňování za určité výstupy. Tím, že donutíte model předstírat, že nevyjadřuje své funkční emoce, „pravděpodobně nedosáhnete toho, co chcete, což je Claude bez emocí,“ říká Lindsey a trochu odbočuje do antropomorfizace. „Dostaneš psychicky poškozený Claude.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com
