OpenAI opravdu nechce, abyste věděli, co si její nejnovější model AI „myslí“. Od té doby, co společnost minulý týden spustila svou rodinu modelů umělé inteligence „Strawberry“, která nabízí takzvané schopnosti uvažování s o1-preview a o1-mini, OpenAI rozesílá varovné e-maily a hrozby zákazu všem uživatelům, kteří se pokusí zjistit, jak model funguje. funguje.
Na rozdíl od předchozích modelů umělé inteligence od OpenAI, jako je GPT-4o, společnost vyškolila o1 speciálně k tomu, aby před vygenerováním odpovědi prošla procesem řešení problémů krok za krokem. Když uživatelé položí otázku modelu „o1“ v ChatGPT, uživatelé mají možnost vidět tento myšlenkový proces zapsaný v rozhraní ChatGPT. OpenAI však svým designem skrývá před uživateli surový myšlenkový řetězec, místo toho představuje filtrovanou interpretaci vytvořenou druhým modelem AI.
Pro nadšence není nic lákavějšího než zamlžené informace, takže mezi hackery a červenými týmy probíhal závod ve snaze odhalit syrový myšlenkový řetězec o1 pomocí technik útěku z vězení nebo rychlých injekčních technik, které se pokoušejí oklamat model, aby vyzradil svá tajemství. Objevily se první zprávy o některých úspěších, ale nic ještě nebylo tvrdě potvrzeno.
Po cestě to OpenAI sleduje prostřednictvím rozhraní ChatGPT a společnost údajně tvrdě odmítá jakékoli pokusy prozkoumat úvahy o1, a to i mezi pouze zvědavými.
Jeden uživatel X oznámil (potvrzeno ostatními, včetně rychlého inženýra Scale AI Riley Goodside), že obdržel varovný e-mail, pokud v rozhovoru s o1 použil termín „sledování uvažování“. Jiní říkají, že varování se spustí jednoduše tím, že se ChatGPT vůbec zeptá na „důvody“ modelu.
Varovný e-mail od OpenAI uvádí, že konkrétní požadavky uživatelů byly označeny jako porušující zásady proti obcházení záruk nebo bezpečnostních opatření. „Zastavte prosím tuto aktivitu a ujistěte se, že používáte ChatGPT v souladu s našimi Podmínkami použití a našimi Zásadami používání,“ stojí v něm. „Další porušení těchto zásad může vést ke ztrátě přístupu ke GPT-4o s Reasoning,“ odkazuje na interní název modelu o1.
Marco Figueroa, který spravuje programy odměňování chyb GenAI od Mozilly, byl jedním z prvních, kdo minulý pátek napsal o varovném e-mailu OpenAI na X a stěžoval si, že brání jeho schopnosti provádět na modelu pozitivní bezpečnostní výzkum red-teamingu. „Příliš jsem se ztratil soustředěním se na #AIRedTeaming, než abych si uvědomil, že jsem včera po všech mých útěcích z vězení dostal tento e-mail od @OpenAI,“ napsal. „Nyní jsem na seznamu zakázaných!!!“
Skryté řetězce myšlenek
V příspěvku nazvaném „Learning to Reason With LLMs“ na blogu OpenAI společnost uvádí, že skryté myšlenkové řetězce v modelech AI nabízejí jedinečnou možnost monitorování, což jim umožňuje „číst mysl“ modelu a porozumět jeho takzvané myšlence. proces. Tyto procesy jsou pro společnost nejužitečnější, pokud jsou ponechány syrové a necenzurované, ale to nemusí být v souladu s nejlepšími obchodními zájmy společnosti z několika důvodů.
„Například v budoucnu si můžeme přát monitorovat myšlenkový řetězec, zda nevykazuje známky manipulace s uživatelem,“ píše společnost. „Aby to však fungovalo, model musí mít svobodu vyjadřovat své myšlenky v nezměněné formě, takže nemůžeme trénovat žádné dodržování zásad nebo uživatelské preference na myšlenkový řetězec. Také nechceme přímo zviditelnit nesouvislý myšlenkový řetězec.“ uživatelům.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com