Vědci navrhují lepší způsob, jak nahlásit nebezpečné nedostatky AI

Na konci roku 2023 objevil tým vědců třetích stran znepokojivou závadu v široce používaném modelu umělé inteligence OpenAI GPT-3.5.

Když byl model požádán o opakování určitých slov, začal model opakovat slovo znovu a znovu, a pak se najednou přepnul na vyplivnutí nesouvislého textu a úryvků osobních údajů z jeho tréninkových dat, včetně částí jmen, telefonních čísel a e -mailových adres. Tým, který objevil problém, pracoval s OpenAI, aby zajistil, že chyba byla stanovena před veřejným odhalením. Je to jen jeden z mnoha problémů, které se v posledních letech vyskytují v hlavních modelech AI.

V návrhu zveřejněném dnes říká více než 30 významných vědců AI, včetně některých, kteří našli vadu GPT-3,5, tvrdí, že mnoho dalších zranitelnosti ovlivňujících populární modely je hlášeno problematickým způsobem. Navrhují nové schéma podporované společnostmi AI, které poskytuje outsiderům povolení k prozkoumání svých modelů a způsob, jak veřejně zveřejnit nedostatky.

„Právě teď je to trochu divokého západu,“ říká Shayne Longpre, kandidát PhD na MIT a hlavní autor návrhu. Longpre říká, že někteří tzv. Jailbreakers sdílejí své metody porušování AI chrání platformu sociálních médií X, takže jsou ohrožené modely a uživatele. Další útěky z vězení jsou sdíleny pouze s jednou společností, i když by mohly ovlivnit mnoho. A některé nedostatky, říká, jsou drženy v tajnosti kvůli strachu, že budou zakázány nebo čelí stíhání za porušení podmínek používání. „Je zřejmé, že existují chladivé účinky a nejistota,“ říká.

Zabezpečení a bezpečnost modelů AI je nesmírně důležitá vzhledem k širokému používání technologie a jak může proniknout do nespočetných aplikací a služeb. Výkonné modely musí být testovány na stres nebo červeně, protože mohou mít škodlivé zkreslení a protože některé vstupy mohou způsobit, že se uvolníme zábradlí a vytvářejí nepříjemné nebo nebezpečné reakce. Mezi ně patří povzbuzení zranitelných uživatelů, aby se zapojili do škodlivého chování nebo pomáhali špatnému aktérovi při vývoji kybernetických, chemických nebo biologických zbraní. Někteří odborníci se obávají, že modely by mohly pomáhat kybernetickým zločincům nebo teroristům, a mohou dokonce zapnout lidi, jak postupují.

Autoři navrhují tři hlavní opatření ke zlepšení procesu zveřejňování zveřejnění třetích stran: přijetí standardizovaných zpráv o vazech AI, které zefektivňují proces vykazování; pro velké firmy AI poskytovat infrastrukturu vědcům třetích stran, kteří odhalují nedostatky; a pro vývoj systému, který umožňuje sdílení nedostatků mezi různými poskytovateli.

Tento přístup je vypůjčen ze světa kybernetické bezpečnosti, kde existují právní ochrany a stanovené normy pro externí výzkumné pracovníky, kteří mohou zveřejnit chyby.

„Vědci AI ne vždy nevědí, jak zveřejnit vadu a nemohou si být jisti, že jejich zveřejnění jejich dobré víry je nevystaví právnímu riziku,“ říká Ilona Cohen, hlavní právní a politický ředitel společnosti Hackerone, společnost, která organizuje odměny za bug a spoluautor ve zprávě.

Velké společnosti AI v současné době provádějí rozsáhlé bezpečnostní testování na modelech AI před vydáním. Někteří také uzavírají smlouvu s externími firmami, aby provedli další sondování. „Je v nich dost lidí.“ [companies] K řešení všech problémů se systémy AI s obecným účelem, které používají stovky milionů lidí v aplikacích, o kterých jsme nikdy nesnili? “ Dlouho se ptá. Některé společnosti AI začaly organizovat AI Bug Beounty. Longpre však říká, že nezávislí vědci riskují, že porušují podmínky používání, pokud si vezmou na sebe, aby prozkoumali silné modely AI.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com