Jako někdo, kdo má docela rád zen uklízení, jsem byl až příliš šťastný, že jsem popadl lopatku, kartáč a zamést fazole rozsypané na stole, když jsem loni navštívil výzkumnou laboratoř Toyota v Cambridge ve státě Massachusetts. Práce byla náročnější než obvykle, protože jsem ji musel dělat pomocí teleoperovaného páru robotických paží s dvouprstými kleštěmi na ruce.
Když jsem seděl před stolem a používal pár ovladačů, jako jsou rukojeti na kole s dalšími tlačítky a pákami, cítil jsem pocit, jak chytám pevné předměty, a také jsem cítil jejich váhu, když jsem je zvedal, ale i tak to trvalo trochu si zvyknout.
Po několika minutách úklidu jsem pokračoval v prohlídce laboratoře a zapomněl na své krátké působení jako učitel robotů. O několik dní později mi Toyota poslala video robota, kterého jsem obsluhoval, jak sám zametl podobný nepořádek s využitím toho, co se naučil z mých ukázek v kombinaci s několika dalšími ukázkami a několika dalšími hodinami praxe zametání uvnitř simulovaného svět.
Většina robotů – a zejména těch, kteří vykonávají cennou práci ve skladech nebo továrnách – může pouze dodržovat předem naprogramované rutiny, jejichž plánování vyžaduje technické znalosti. Díky tomu jsou velmi přesné a spolehlivé, ale zcela nevhodné pro práci, která vyžaduje adaptaci, improvizaci a flexibilitu – jako je zametání nebo většina dalších domácích prací. To, že se roboti naučili dělat věci sami, se ukázalo jako náročné kvůli složitosti a variabilitě fyzického světa a lidského prostředí a obtížnosti získat dostatek tréninkových dat, která je naučí zvládat všechny eventuality.
Existují náznaky, že by se to mohlo změnit. Dramatická vylepšení, která jsme viděli u chatbotů s umělou inteligencí za poslední rok, podnítila mnoho robotiků k přemýšlení, zda by podobné skoky mohly být dosažitelné v jejich vlastním oboru. Algoritmy, které nám daly působivé chatboty a generátory obrázků, již také pomáhají robotům učit se efektivněji.
Zametací robot, kterého jsem trénoval, používá systém strojového učení zvaný difúzní politika, podobný těm, které pohánějí některé generátory obrázků AI, aby ve zlomku sekundy přišel se správnou akcí, která bude další na základě mnoha možností a více zdrojů dat. Techniku vyvinula Toyota ve spolupráci s výzkumníky vedenými Shuranem Songem, profesorem na Kolumbijské univerzitě, který nyní vede robotickou laboratoř ve Stanfordu.
Toyota se snaží tento přístup zkombinovat s jazykovými modely, které jsou základem ChatGPT a jeho konkurentů. Cílem je umožnit, aby se roboti naučili, jak provádět úkoly sledováním videí, a potenciálně tak přeměnit zdroje, jako je YouTube, na výkonné zdroje pro školení robotů. Pravděpodobně se jim budou zobrazovat klipy lidí, kteří dělají rozumné věci, nikoli pochybné nebo nebezpečné kousky, které se často vyskytují na sociálních sítích.
„Pokud jste se nikdy ničeho v reálném světě nedotkli, je těžké to pochopit pouhým sledováním videí na YouTube,“ říká Russ Tedrake, viceprezident výzkumu robotiky na Toyota Research Institute a profesor na MIT. Naděje, říká Tedrake, je, že určité základní porozumění fyzickému světu v kombinaci s daty generovanými v simulaci umožní robotům naučit se fyzické akce ze sledování klipů na YouTube. Difúzní přístup „je schopen absorbovat data mnohem škálovatelnějším způsobem,“ říká.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com