Existují další vodítka k tomu, co by Q* mohlo být. Název může být narážkou na Q-learning, formu posilovacího učení, která zahrnuje algoritmus, který se učí řešit problém prostřednictvím pozitivní nebo negativní zpětné vazby, který byl použit k vytvoření herních robotů a k vyladění ChatGPT tak, aby byl užitečnější. Někteří navrhli, že název může také souviset s vyhledávacím algoritmem A*, který se široce používá k tomu, aby program našel optimální cestu k cíli.
Informace přináší další vodítko: „Průlom společnosti Sutskever umožnil OpenAI překonat omezení při získávání dostatku vysoce kvalitních dat pro trénování nových modelů,“ píše se v jeho příběhu. „Výzkum zahrnoval použití počítačem generovaného [data], spíše než data ze skutečného světa, jako je text nebo obrázky stažené z internetu, k trénování nových modelů.“ Zdá se, že jde o odkaz na myšlenku trénovacích algoritmů s takzvanými syntetickými trénovacími daty, která se objevila jako způsob, jak trénovat výkonnější modely umělé inteligence.
Subbarao Kambhampati, profesor na Arizonské státní univerzitě, který zkoumá omezení uvažování LLM, si myslí, že Q* může zahrnovat použití obrovského množství syntetických dat v kombinaci s posilujícím učením k výcviku LLM ke konkrétním úkolům, jako je jednoduchá aritmetika. Kambhampati poznamenává, že neexistuje žádná záruka, že se přístup zobecní do něčeho, co dokáže vyřešit jakýkoli možný matematický problém.
Chcete-li se dozvědět více o tom, co by Q* mohlo být, přečtěte si tento příspěvek od vědce zabývajícího se strojovým učením, který v působivých a logických podrobnostech dává dohromady kontext a vodítka. Verze TLDR spočívá v tom, že Q* by mohla být snaha využít posilovací učení a několik dalších technik ke zlepšení schopnosti velkého jazykového modelu řešit úkoly pomocí uvažování prostřednictvím kroků na cestě. Ačkoli by to mohlo způsobit, že ChatGPT bude lepší v matematických hádankách, není jasné, zda by to automaticky naznačovalo, že by se systémy AI mohly vyhnout lidské kontrole.
To, že by se OpenAI pokusilo využít posilovací učení ke zlepšení LLM, se zdá být pravděpodobné, protože mnoho raných projektů společnosti, jako jsou boti pro hraní videoher, bylo zaměřeno na tuto techniku. Posílení učení bylo také zásadní pro vytvoření ChatGPT, protože to může být použito k tomu, aby LLM produkovaly koherentnější odpovědi tím, že žádají lidi, aby poskytli zpětnou vazbu, když konverzují s chatbotem. Když začátkem tohoto roku WIRED hovořil s Demisem Hassabisem, generálním ředitelem Google DeepMind, naznačil, že se společnost snaží spojit myšlenky z posilování učení s pokroky, které lze vidět ve velkých jazykových modelech.
Když zaokrouhlíme dostupné stopy o Q*, stěží to zní jako důvod k panice. Ale pak vše závisí na vaší osobní hodnotě P(zkázy) – pravděpodobnosti, kterou připisujete možnosti, že AI zničí lidstvo. Dlouho před ChatGPT byli vědci a vůdci OpenAI zpočátku tak vyděšení z vývoje GPT-2, textového generátoru z roku 2019, který se nyní zdá směšně maličký, že řekli, že nemůže být zveřejněn. Nyní společnost nabízí bezplatný přístup k mnohem výkonnějším systémům.
OpenAI odmítla komentovat Q*. Možná se dozvíme více podrobností, když se společnost rozhodne, že je čas podělit se o další výsledky ze svého úsilí, aby ChatGPT nebyl jen dobrý v mluvení, ale také v uvažování.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com