
Vedoucí pracovníci ve společnosti Artificial Intelligence nám mohou rádi říci, že AGI je téměř tady, ale nejnovější modely stále potřebují další doučování, které jim pomohou být tak chytré, jak jen dokážou.
Scale AI, společnost, která hrála klíčovou roli při pomoci Frontier AI firmám vytvářet pokročilé modely, vyvinula platformu, která může automaticky otestovat model napříč tisíci benchmarků a úkolů, určování slabých stránek a označení dalších tréninkových dat, která by měla pomoci zlepšit jejich dovednosti. Měřítko samozřejmě bude poskytovat požadovaná data.
Měřítko vzrostlo na význam poskytování lidské práce pro trénink a testování pokročilých modelů AI. Velké jazykové modely (LLM) jsou vyškoleny na oodlech textu seškrábané z knih, webu a dalších zdrojů. Proměnit tyto modely na užitečné, koherentní a dobře vychované chatboty vyžaduje další „post školení“ ve formě lidí, kteří poskytují zpětnou vazbu o výstupu modelu.
Měřítko dodává pracovníky, kteří jsou odborníkem na modely sondování problémů a omezení. Nový nástroj, nazývaný hodnocení měřítka, automatizuje některé z těchto prací pomocí vlastních algoritmů strojového učení Scale.
„V rámci velkých laboratoří existují všechny tyto náhodné způsoby sledování některých slabin modelu,“ říká Daniel Berrios, vedoucí produktu pro hodnocení měřítka. Nový nástroj „je způsob pro [model makers] Chcete -li projít výsledky a řezy a nakrájejte je, aby pochopili, kde model nefunguje dobře, “říká Berrios,„ pak to použijte k cílení datových kampaní ke zlepšení. “
Berrios říká, že několik společností Frontier AI Model již tento nástroj používá. Říká, že většina ji používá ke zlepšení schopností uvažování svých nejlepších modelů. Zdůvodnění AI zahrnuje model, který se snaží rozdělit problém do složek, aby se jeho efektivněji vyřešil. Tento přístup se silně spoléhá na post-trénink od uživatelů, aby určil, zda model vyřešil problém správně.
V jednom případě Berrios říká, že hodnocení měřítka odhalilo, že dovednosti modelu dovednosti snížily, když byly krmeny neanglické výzvy. „Zatímco [the model’s] Schopnosti odůvodnění obecného účelu byly docela dobré a fungovaly dobře na benchmarcích, měly tendenci se trochu zhoršovat, když výzvy nebyly v angličtině, “říká. Evoluce měřítka zdůraznila problém a umožnila společnosti shromáždit další školení, aby ji řešila.
Jonathan Frankle, hlavní vědec AI ve společnosti Databricks, společnost, která staví velké modely AI, říká, že schopnost testovat jeden model nadace proti jinému zvukům v zásadě. „Každý, kdo posouvá míč vpřed na hodnocení, nám pomáhá budovat lepší AI,“ říká Franke.
V posledních měsících přispěla Scale k vývoji několika nových benchmarků navržených tak, aby tlačily modely AI, aby se staly chytřejšími, a aby pečlivěji prozkoumali, jak se mohou chovat. Patří mezi ně Enigmaeval, Multichallenge, Mask a lidstvo poslední zkoušku.
Scale říká, že je stále náročnější měřit vylepšení modelů AI, protože se zlepšují při acingu stávajících testů. Společnost říká, že jeho nový nástroj nabízí komplexnější obrázek kombinováním mnoha různých benchmarků a lze jej použít k navrhování vlastních testů schopností modelu, jako je sondování jeho uvažování v různých jazycích. Vlastní AI Scale může mít daný problém a generovat více příkladů, což umožňuje komplexnější test dovedností modelu.
Nový nástroj společnosti může také informovat úsilí o standardizaci testování modelů AI pro špatné chování. Někteří vědci tvrdí, že nedostatek standardizace znamená, že některé modelové útěky z vězení jsou nezveřejněny.
V únoru americký národní institut standardů a technologií oznámil, že měřítko pomůže vyvinout metodiky pro testování modelů, aby bylo zajištěno, že jsou bezpečné a důvěryhodné.
Jaké druhy chyb jste si všimli ve výstupních výstupů generativních nástrojů AI? Co si myslíte, že jsou největší slepá místa modelů? Dejte nám vědět e -mailem hello@wired.com nebo komentářem níže.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com