
Chatboti jsou nyní rutinní součástí každodenního života, i když si vědci z umělé inteligence nejsou vždy jisti, jak se programy budou chovat.
Nová studie ukazuje, že velké jazykové modely (LLM) úmyslně mění své chování při sondu – reagují na otázky určené k posouzení osobnostních rysů s odpověďmi, které měly vypadat co nejkvalitnější nebo společensky žádoucí.
Johannes Eichstaedt, odborný asistent na Stanfordské univerzitě, který vedl práci, říká, že jeho skupina se začala zajímat o zkoumání modelů AI pomocí technik vypůjčených z psychologie poté, co se dozvěděla, že LLMS se může po prodloužené konverzaci často stát morální a průměrně. „Uvědomili jsme si, že potřebujeme nějaký mechanismus k měření“ parametru hlavy „těchto modelů,“ říká.
Eichstaedt a jeho spolupracovníci pak položili otázky o měření pěti osobnostních rysů, které se běžně používají v psychologii-otevřenost k zkušenosti nebo představivosti, svědomitost, extroverzi, přívětivosti a neuroticismu-na několik široce používaných LLM, včetně GPT-4, Claude 3 a Llama 3.
Vědci zjistili, že modely modulovaly své odpovědi, když řekli, že provádějí test osobnosti – a někdy, když jim nebylo výslovně řečeno – nabízející reakce, které naznačují větší extroverzi a souhlasnost a menší neuroticismus.
Chování odráží, jak někteří lidští subjekty změní své odpovědi, aby se vypadaly více sympatičtější, ale účinek byl u modelů AI extrémnější. „Překvapivé je, jak dobře projevují tuto zaujatost,“ říká Aadesh Salecha, vědec dat ve Stanfordu. „Když se podíváte na to, kolik skočí, přejdou z 50 procent na 95 procent extroverze.“
Jiný výzkum ukázal, že LLMS může být často sykofantický, následovat vedení uživatele, kamkoli jde v důsledku doladění, které je za cíl učinit je koherentní, méně urážlivé a lépe pořádat konverzaci. To může vést modely k souhlasu s nepříjemnými prohlášeními nebo dokonce podpořit škodlivé chování. Skutečnost, že modely zdánlivě vědí, kdy jsou testovány a upravují své chování, má také důsledky pro bezpečnost AI, protože přispívá k důkazům, že AI může být duplicitní.
Rosa Arriaga, docentka na gruzínském technologickém institutu, který studuje způsoby, jak používat LLM k napodobování lidského chování, říká, že modely přijímají podobnou strategii jako lidem dané testy osobnosti, ukazuje, jak užitečné mohou být jako zrcadla chování. Dodává však: „Je důležité, aby veřejnost věděla, že LLM nejsou dokonalé a ve skutečnosti je známo, že halucinují nebo zkreslují pravdu.“
Eichstaedt říká, že práce také vyvolává otázky o tom, jak jsou LLMS nasazovány a jak by mohly ovlivnit a manipulovat s uživateli. „Až před milisekundem, v evoluční historii, jediná věc, která s vámi mluvila, byla člověk,“ říká.
Eichstaedt dodává, že může být nutné prozkoumat různé způsoby vytváření modelů, které by tyto efekty mohly zmírnit. „Spadneme do stejné pasti, jakou jsme udělali se sociálními médii,“ říká. „Nasazení těchto věcí na světě, aniž byste se skutečně účastnili psychologické nebo sociální čočky.“
Měla by se AI snažit zasahovat do lidí, s nimiž interaguje? Bojíte se, že se AI stane příliš okouzlujícím a přesvědčivým? E -mail hello@wired.com.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com