
Na konci srpna společnost AI Anthropic oznámila, že její chatbot Claude nikomu nepomůže vyrobit jadernou zbraň. Podle Antropic spolupracovala s ministerstvem energetiky (DOE) a Národní správou jaderné bezpečnosti (NNSA), aby se ujistil, že Claude neprozradí jaderná tajemství.
Výroba jaderných zbraní je jak precizní věda, tak vyřešený problém. Mnoho informací o nejpokročilejších amerických jaderných zbraních je přísně tajné, ale původní jaderná věda je stará 80 let. Severní Korea dokázala, že oddaná země se zájmem o získání bomby to dokáže, a nepotřebovala k tomu pomoc chatbota.
Jak přesně americká vláda spolupracovala se společností AI, aby se ujistila, že chatbot neprozradí citlivá jaderná tajemství? A také: Hrozilo někdy, že by chatbot pomohl někomu postavit atomovku?
Odpověď na první otázku je, že používal Amazon. Odpověď na druhou otázku je složitá.
Amazon Web Services (AWS) nabízí vládním klientům přísně tajné cloudové služby, kde mohou ukládat citlivé a utajované informace. DOE již několik těchto serverů mělo, když začalo pracovat s Anthropic.
„Nasadili jsme tehdejší hraniční verzi Claude v přísně tajném prostředí, aby NNSA mohla systematicky testovat, zda modely umělé inteligence mohou vytvářet nebo zhoršovat jaderná rizika,“ říká Marina Favaro, která dohlíží na National Security Policy & Partnerships ve společnosti Anthropic, WIRED. „Od té doby NNSA sdružuje postupné modely Claude v jejich zabezpečeném cloudovém prostředí a poskytuje nám zpětnou vazbu.“
Proces red-teamingu NNSA – tedy testování slabin – pomohl jaderným vědcům Anthropic a Ameriky vyvinout proaktivní řešení pro jaderné programy podporované chatboty. Společně „vyvinuli jaderný klasifikátor, který si můžete představit jako sofistikovaný filtr pro konverzace AI,“ říká Favaro. „Vytvořili jsme jej pomocí seznamu indikátorů jaderného rizika, konkrétních témat a technických podrobností, který vytvořila NNSA, které nám pomáhají identifikovat, kdy by se konverzace mohla stočit do nebezpečné oblasti. Samotný seznam je kontrolován, ale není klasifikován, což je zásadní, protože to znamená, že jej mohou implementovat naši technici a další společnosti.“
Favaro říká, že to trvalo měsíce ladění a testování, než klasifikátor fungoval. „Zachycuje konverzace, aniž by označovala legitimní diskuse o jaderné energii nebo lékařských izotopech,“ říká.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com