Tim sa Sveučilišta u Tokiju predstavio je Alter3, humanoidnog robota koji može izvoditi pokrete koristeći GPT-4 Large Language Model (LLM). Alter3 koristi najnoviji alat Otvori AI za dinamičko zauzimanje različitih poza, od selfie poze do ghostinga, sve bez potrebe za unaprijed programiranim unosima u bazu podataka.

"Alter3-ov odgovor na razgovorni sadržaj korištenjem izraza lica i gesta značajan je napredak u humanoidnoj robotici koja se lako prilagođava drugim androidima uz minimalne promjene", rekli su istraživači.

U području integracije LLM-a s robotima, fokus je na poboljšanju osnovne komunikacije i modeliranju realističnih odgovora. Istraživači također istražuju mogućnosti LLM-a kako bi robotima omogućili razumijevanje i izvršavanje složenih instrukcija, čime se povećava njihova funkcionalnost.

Tradicionalno, upravljanje na niskoj razini djela vezan je za hardver i nalazi se izvan djelokruga LLM korporacija. To stvara poteškoće za izravno upravljanje radovima koji se temelje na LLM-u. Rješavajući ovaj problem, japanski tim je razvio metodu pretvaranja izraza ljudskih pokreta u kod razumljiv za Android. To znači da robot može samostalno generirati sekvence radnji tijekom vremena bez potrebe da programeri pojedinačno programiraju svaki dio tijela.

Tijekom interakcije, osoba može dati Alter3 naredbe kao što je “Take a selfie with your iPhone”. Nakon toga, robot pokreće niz zahtjeva prema GPT-4 kako bi dobio upute o potrebnim koracima. GPT-4 će to prevesti u Python kod koji omogućuje "razumijevanje" rada i izvođenje potrebnih pokreta. Ova inovacija omogućuje Alteru3 da pomiče gornji dio tijela dok donji dio ostaje nepomičan, pričvršćen za postolje.

Alter3 je treća iteracija u Alterovoj seriji humanoidnih robota od 2016., koji se može pohvaliti s 43 aktuatora odgovornih za izraze lica i pokrete udova koje pokreće komprimirani zrak. Ova konfiguracija pruža širok raspon izražajnih gesta. Robot ne može hodati, ali može imitirati tipične pokrete hodanja i trčanja.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 je također pokazao sposobnost kopiranja ljudskih poza pomoću kamere i okvira OpenPose. Robot prilagođava svoje zglobove promatranim položajima i sprema uspješne imitacije za kasniju upotrebu. Interakcija s čovjekom dovela je do raznolikijih položaja, podupirući ideju da različiti pokreti proizlaze iz oponašanja čovjeka, slično kao što novorođenčad uče oponašanjem.

Prije LLM-a, istraživači su morali pažljivo kontrolirati sva 43 pokretača kako bi ponovno stvorili pozu osobe ili simulirali ponašanje, poput posluživanja čaja ili igranja šaha. To je zahtijevalo brojne ručne prilagodbe, ali AI pomogao osloboditi tim od ove rutine. “Očekujemo da se Alter3 učinkovito uključi u dijalog prikazivanjem izraza lica i gesta relevantnih za kontekst. Pokazalo je sposobnost preslikavanja emocija, na primjer, da pokaže tugu ili sreću kao odgovor, dijeleći emocije s nama", kažu istraživači.

Pročitajte također:

izvorzanimljivo inženjerstvo

Prijavite se

0 Komentari

Ugrađene recenzije

Pogledaj sve komentare

Ostali članci

U Tokiju su prikazani uspjesi humanoidnog robota Alter3 temeljenog na GPT-4

Nedavni komentari