
Openaiův blogový příspěvek tvrdí, že GPT-5 bije své předchozí modely na několika kódovacích benchmarkech, včetně ověřených SWE-Bench (bodování 74,9 procenta), swo-lacer (GPT-5-myšlení skóroval 55 procent) a polyglot polyglot (skóroval 88 procent), které testují schopnost modelu opravit bugs, a praktikující se napříč programovými programy a prací v rámci více programových programů.
Během tiskového briefingu ve středu vedl OpenAI po tréninku Yann Dubois GPT-5, aby „vytvořil krásnou, vysoce interaktivní webovou aplikaci pro mého partnera, anglického mluvčího, aby se naučil francouzštinu“. Úkol o AI tak, aby zahrnoval funkce, jako je Daily Progress, řada aktivit, jako jsou kartičky a kvízy, a poznamenal, že chce, aby byla aplikace zabalena do „vysoce poutavého tématu“. Asi po minutě se objevila aplikace generovaná AI. I když to bylo jen jedno demo na kolejích, výsledkem byl elegantní web, který vydal přesně to, co Dubois požadoval.
„Je to skvělý spolupracovník kódování a také vyniká v agentických úkolech,“ říká Michelle Pokrass, náskok po tréninku. „Efektivně provádí dlouhé řetězce a nástroje. [which means it better understands when and how to use functions like web browsers or external APIs]dodržuje podrobné pokyny a poskytuje předem vysvětlení jeho jednání. “
OpenAI také ve svém blogovém příspěvku říká, že GPT-5 je „náš nejlepší model, ale pro otázky související se zdravím“. Ve třech Benchmarcích LLM v souvislosti se zdravím OpenAI-HealthBench, Healthbench tvrdý a konsenzus HealthBench-konsenzus systémové karty (dokument, který popisuje technické schopnosti produktu a další zjištění výzkumu), uvádí, že GPT-5-myšlení překonává předchozí modely „podle podstatné marže“. Myšlenková verze GPT-5 skórovala 25,5 procenta na HealthBench tvrdě, z 31,6 % skóre O3. Tato skóre jsou podle systémové karty ověřena dvěma nebo více lékaři.
Model také údajně halucinuje méně, podle Pokrassu, což je běžný problém pro AI, kde poskytuje nepravdivé informace. Vedení bezpečnosti OpenAI Alex Beutel dodává, že „výrazně snížili míru podvodu v GPT-5“.
„Učinili jsme kroky ke snížení náchylnosti GPT-5-Thinking k oklamání, podvádění nebo hacku, i když naše zmírnění nejsou dokonalé a je zapotřebí více výzkumu,“ říká systémová karta. „Zejména jsme vyškolili model, aby selhal elegantně, když se pózovali s úkoly, které nemůže vyřešit.“
Systémová karta společnosti říká, že po testování modelů GPT-5 bez přístupu k webovému prohlížení vědci zjistili, že míra halucinace (kterou definovali jako „procento faktických tvrzení, které obsahují drobné nebo hlavní chyby“) 26 procent méně běžných než model GPT-4O. GPT-5-Thinking má 65 % sníženou míru halucinace ve srovnání s O3.
Pro výzvy, které by mohlo být dvojím použití (potenciálně škodlivé nebo benigní), Beutel říká, že GPT-5 používá „bezpečné dokončení“, což vyzve model, aby „poskytl co nejužitečnější odpověď, ale v rámci zbývajících bezpečných“. Podle Beutela OpenAI udělal OpenAI více než 5 000 hodin týmu Red a testoval s externími organizacemi, aby se ujistil, že systém je robustní.
OpenAI říká, že se nyní může pochlubit téměř 700 miliony týdenních aktivních uživatelů ChatGPT, 5 milionů platících podnikových uživatelů a 4 miliony vývojářů využívajících API.
„Vibrace tohoto modelu jsou opravdu dobré a myslím si, že to lidé opravdu budou cítit,“ říká vedoucí Chatgpt Nick Turley. „Obzvláště průměrní lidé, kteří nestrávili čas přemýšlením o modelech.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com