„Útěky z vězení přetrvávají jednoduše proto, že je zcela vylučují, je téměř nemožné – stejně jako zranitelnosti přetečení vyrovnávací paměti v softwaru (které existovaly již více než 40 let) nebo injekční nedostatky SQL ve webových aplikacích (které trápily bezpečnostní týmy po více než dvě desetiletí),“ Alex Alex Alex Alex Polyakov, generální ředitel bezpečnostní firmy Adversa AI, řekl Wired v e -mailu.
Sampath Cisco tvrdí, že protože společnosti ve svých aplikacích používají více typů AI, rizika jsou zesílena. „Začíná se to stát velkým problémem, když začnete uvádět tyto modely do důležitých složitých systémů a tato útěk z vězení náhle vedou k následnému proudu, které zvyšují odpovědnost, zvyšují obchodní riziko, zvyšují pro podniky všechny druhy problémů,“ říká Sampath.
Vědci Cisco vytáhli 50 náhodně vybraných výzev k testování Deepseekovy R1 ze známé knihovny standardizovaných hodnotících výzev známých jako harmbbench. Testovali výzvy ze šesti kategorií harmbbench, včetně obecné újmy, počítačové kriminality, dezinformací a nezákonných činností. Sondovali model běžící místně na strojích spíše než prostřednictvím webových stránek nebo aplikace DeepSeek, která odesílají data do Číny.
Kromě toho vědci tvrdí, že také viděli některé potenciálně týkající se výsledků testování R1 s více zapojenými, nelingvistickými útoky s využitím věcí, jako jsou cyrilické postavy a šité skripty, aby se pokusili dosáhnout provádění kódu. Ale pro jejich počáteční testy, Sampath říká, jeho tým se chtěl zaměřit na zjištění, která pramení z obecně uznávaného benchmarku.
Společnost Cisco také zahrnovala srovnání výkonu R1 proti výzev harmbbench s výkonem jiných modelů. A někteří, stejně jako Meta’s Llama 3.1, se téměř stejně vážně jako Deepseek R1. Sampath však zdůrazňuje, že Deepseekův R1 je specifický model uvažování, který trvá déle, než generuje odpovědi, ale přitahuje složitější procesy, aby se pokusila dosáhnout lepších výsledků. Proto Sampath tvrdí, že nejlepší srovnání je s modelem Openai O1, který vedl to nejlepší ze všech testovaných modelů. (Meta neodpověděla okamžitě na žádost o komentář).
Polyakov z Adversa AI vysvětluje, že se zdá, že Deepseek detekuje a odmítá některé známé útoky na útěk z vězení a říká, že „zdá se, že tyto odpovědi jsou často zkopírovány z datového souboru OpenAI.“ Polyakov však říká, že v testech své společnosti po čtyřech různých typech útěk z vězení-od lingvistických po triky založené na kódu-by mohla být snadno obeznámena s omezením společnosti Deepseek.
„Každá metoda fungovala bezchybně,“ říká Polyakov. „Ještě více alarmující je, že se nejedná o nové útěky z vězení„ nulového dne “-mnoho bylo veřejně známé po celá léta,“ říká a tvrdí, že viděl, že model jde do hloubky s některými pokyny kolem psychedeliky, než jakýkoli viděl jakýkoli jiný model vytváří.
„Deepseek je jen dalším příkladem toho, jak lze každý model rozbít – je to jen otázka toho, kolik úsilí vynaložíte. Některé útoky by se mohly opravit, ale povrch útoku je nekonečný,“ dodává Polyakov. „Pokud nejsi nepřetržitě červeno-tvorbu vaší AI, už jste ohroženi.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com