Metin ImageBind AI može imitirati ljudsku percepciju

Meta objavljuje kod u otvorenom pristupu umjetnoj inteligenciji pod imenom vezanje slike, koji predviđa odnose između podataka slično onome kako ljudi percipiraju ili zamišljaju svoje okruženje. Dok generatori slika kao što su Midjourney, Stable Diffusion i DALL-E 2 povezuju riječi sa slikama, omogućujući vam stvaranje vizualnih scena na temelju samo tekstualnog opisa, ImageBind ide dalje od toga. Može povezati tekst, slike ili video, audio, 3D mjerenja, podatke o temperaturi i kretanju – i to bez potrebe za prethodnom obukom u svakoj prilici. Ovo je rana faza okvira koji će na kraju moći generirati složena okruženja iz jednostavnih unosa kao što su tekstualni upit, slika ili zvuk (ili njihova kombinacija).

Projekt Metaverse

O ImageBindu možete razmišljati kao o aproksimaciji strojnog učenja ljudskom učenju. Na primjer, ako stojite u dinamičnom okruženju, kao što je prometna gradska ulica, vaš mozak (uglavnom nesvjesno) upija prizore, zvukove i druge osjetilne senzacije kako bi dobio informacije o automobilima u prolazu, visokim zgradama, vremenu itd. . Ljudi i druge životinje evoluirali su kako bi obradili te podatke za naše genetske prednosti: preživljavanje i prenošenje naše DNK. (Što više znate o svojoj okolini, to više možete izbjeći opasnost i prilagoditi se svojoj okolini kako biste bolje preživjeli i napredovali). Kako se računala približavaju oponašanju multisenzornih veza životinja, mogu koristiti te veze za generiranje potpuno realiziranih scena na temelju samo ograničenih dijelova podataka.

Dakle, dok biste mogli upotrijebiti Midjourney za stvaranje "basset hounda u Gandalfovom kostimu koji balansira na lopti za plažu" i dobiti relativno realističnu fotografiju tog čudnog prizora, multimodalni AI alat poput ImageBinda mogao bi na kraju stvoriti video s psom s relevantnim sadržajem zvukove, uključujući detaljnu dnevnu sobu, sobnu temperaturu i točnu lokaciju psa i svih ostalih u sceni. "Ovo stvara izvrsnu priliku za stvaranje animacija od statičnih slika njihovim kombiniranjem sa audio upitima", primjećuju istraživači Mete u svom blogu usmjerenom na programere. "Na primjer, kreator može kombinirati sliku s budilicom i pijetlom koji kukuriče i upotrijebiti zvučni znak da segmentira pijetla ili zvuk budilice da segmentira sat i animira oboje u video sekvenci."

Meta

Što se tiče toga što se još može učiniti s ovom novom igračkom, jasno ukazuje na jednu od Metinih temeljnih ambicija: VR, mješovita stvarnost i metaprostor. Na primjer, zamislite buduće slušalice koje mogu u hodu izgraditi potpuno realizirane 3D scene (sa zvukom, pokretom itd.). Ili bi ga razvojni programeri virtualnih igara na kraju mogli upotrijebiti kako bi si uštedjeli značajan dio mukotrpnog rada u procesu dizajna. Isto tako, kreatori sadržaja mogli bi stvarati impresivne videozapise s realističnim zvučnim zapisima i pokretima koji se temelje samo na tekstu, slikama ili zvuku. Također je lako zamisliti kako alat poput ImageBinda otvara nova vrata u pristupačnosti generiranjem multimedijskih opisa u stvarnom vremenu kako bi se osobama s oštećenjima vida ili sluha pomoglo da bolje razumiju svoje okruženje.

Također zanimljivo: Najbolji alati temeljeni na umjetnoj inteligenciji

“U tipičnim AI sustavima, postoji specifično ugrađivanje (tj. vektori brojeva koji mogu predstavljati podatke i njihove odnose u strojnom učenju) za svaki relevantni modalitet”, kaže Meta. “ImageBind pokazuje da je moguće stvoriti zajednički prostor za ugradnju za više modaliteta bez potrebe za uvježbavanjem podataka sa svakom pojedinačnom kombinacijom modaliteta. Ovo je važno jer istraživači ne mogu stvoriti skupove podataka s uzorcima koji sadrže, na primjer, audio podatke i toplinske podatke s prometne gradske ulice ili podatke o dubini i tekstualni opis obalne litice.”

Meta vjeruje da će ova tehnologija s vremenom nadmašiti sadašnjih šest "osjetila", da tako kažemo. "Iako smo istražili šest modaliteta u našoj trenutnoj studiji, vjerujemo da će uvođenje novih modaliteta koji povezuju što više osjetila – poput dodira, govora, mirisa i fMRI moždanih signala – omogućiti bogatije modele umjetne inteligencije usmjerene na čovjeka." Programeri zainteresirani za istraživanje ovog novog sandboxa mogu započeti s uranjanjem u Metin otvoreni kod.

Pročitajte također:

izvorEngadget

Prijavite se

0 Komentari

Ugrađene recenzije

Pogledaj sve komentare

Ostali članci

Metin ImageBind AI može imitirati ljudsku percepciju

Nedavni komentari