Nejschopnější open source model umělé inteligence s vizuálními schopnostmi by mohl vidět, že více vývojářů, výzkumníků a startupů vyvíjí agenty umělé inteligence, kteří za vás mohou provádět užitečné práce na vašich počítačích.
Multimodální otevřený jazykový model neboli Molmo, který dnes vydal Allenův institut pro umělou inteligenci (Ai2), dokáže interpretovat obrázky a konverzovat prostřednictvím chatovacího rozhraní. To znamená, že může dávat smysl obrazovce počítače a potenciálně pomáhat agentovi AI provádět úkoly, jako je procházení webu, procházení adresářů souborů a vytváření návrhů dokumentů.
„S touto verzí může mnohem více lidí nasadit multimodální model,“ říká Ali Farhadi, generální ředitel Ai2, výzkumné organizace se sídlem v Seattlu, Washington, a počítačový vědec z University of Washington. „Mělo by to být aktivátor pro aplikace nové generace.“
Takzvaní agenti AI jsou široce nabízeni jako další velká věc v AI, OpenAI, Google a další závodí v jejich vývoji. Agenti se v poslední době stali módním slovem, ale hlavní vizí je, aby umělá inteligence přesáhla rámec chatování a spolehlivě prováděla složité a sofistikované akce na počítačích, když dostane příkaz. Tato schopnost se zatím v žádném měřítku neprojevila.
Některé výkonné modely umělé inteligence již mají vizuální schopnosti, včetně GPT-4 od OpenAI, Claude od Anthropic a Gemini od Google DeepMind. Tyto modely lze použít k napájení některých experimentálních agentů AI, ale jsou skryté a přístupné pouze prostřednictvím placeného rozhraní pro programování aplikací nebo API.
Meta vydala rodinu modelů umělé inteligence nazvanou Llama pod licencí, která omezuje jejich komerční využití, ale zatím musí vývojářům poskytnout multimodální verzi. Očekává se, že společnost Meta dnes na akci Connect oznámí několik nových produktů, možná včetně nových modelů Llama AI.
„Mít multimodální model s otevřeným zdrojovým kódem znamená, že se o to může pokusit každý startup nebo výzkumník, který má nápad,“ říká Ofir Press, postdoktorand z Princetonské univerzity, který pracuje na agentech umělé inteligence.
Press říká, že skutečnost, že Molmo je open source, znamená, že vývojáři budou moci snadněji vyladit své agenty pro konkrétní úkoly, jako je práce s tabulkami, poskytnutím dalších školicích dat. Modely jako GPT-4 lze doladit pouze v omezené míře prostřednictvím jejich API, zatímco plně otevřený model lze rozsáhle upravovat. „Když máte model s otevřeným zdrojovým kódem, jako je tento, máte mnohem více možností,“ říká Press.
Ai2 dnes uvádí na trh několik velikostí Molmo, včetně modelu se 70 miliardami parametrů a modelu s 1 miliardou parametrů, který je dostatečně malý na to, aby jej bylo možné provozovat na mobilním zařízení. Počet parametrů modelu se vztahuje k počtu jednotek, které obsahuje pro ukládání a manipulaci s daty, a zhruba odpovídá jeho schopnostem.
Ai2 říká, že Molmo je stejně schopný jako podstatně větší komerční modely navzdory své relativně malé velikosti, protože byl pečlivě vyškolen na vysoce kvalitních datech. Nový model je také plně open source v tom, že na rozdíl od Meta’s Llama neexistují žádná omezení pro jeho použití. Ai2 také uvolňuje tréninková data použitá k vytvoření modelu a poskytuje výzkumníkům více podrobností o jeho fungování.
Vydání výkonných modelů není bez rizika. Takové modely lze snadněji přizpůsobit pro hanebné účely; můžeme jednoho dne například vidět vznik škodlivých agentů AI navržených k automatizaci hackování počítačových systémů.
Farhadi z Ai2 tvrdí, že efektivita a přenositelnost Molmo umožní vývojářům vytvářet výkonnější softwarové agenty, které běží nativně na chytrých telefonech a dalších přenosných zařízeních. „Model s miliardou parametrů nyní funguje na úrovni nebo v lize modelů, které jsou nejméně 10krát větší,“ říká.
Vytváření užitečných agentů umělé inteligence však může záviset na více než jen efektivnějších multimodálních modelech. Klíčovým úkolem je zajistit, aby modely fungovaly spolehlivěji. To může vyžadovat další průlomy v rozumových schopnostech umělé inteligence – něco, s čím se OpenAI snažila vypořádat se svým nejnovějším modelem o1, který demonstruje uvažování krok za krokem. Dalším krokem může být poskytnutí takových rozumových schopností multimodálním modelům.
Vydání Molma prozatím znamená, že agenti umělé inteligence jsou blíž než kdy jindy – a brzy by mohli být užiteční i mimo obry, kteří světu umělé inteligence vládnou.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com