Root NationVijestiIT vijestiMicrosoft predstavio je multimodalni pristup utirući put do umjetne inteligencije na ljudskoj razini

Microsoft predstavio je multimodalni pristup utirući put do umjetne inteligencije na ljudskoj razini

-

Početkom ovog tjedna istraživači iz Microsoft predstavili su Kosmos-1, multimodalni model umjetne inteligencije koji može analizirati slike za sadržaj, rješavati vizualne zagonetke, izvoditi vizualno prepoznavanje teksta, rješavati vizualne IQ testove i razumjeti upute prirodnog jezika. Prema istraživačima, takvi modeli umjetne inteligencije prvi su korak prema stvaranju umjetne opće inteligencije (AI) koja može obavljati zajedničke zadatke na razini ljudi. Odnosno, ova će tehnologija moći zamijeniti osobu u bilo kojem intelektualnom zadatku. I to je deklarirani cilj OpenAI-ja, ključnog poslovnog partnera Microsoft u području umjetne inteligencije.

Svemir-1

U ovom slučaju, Kosmos-1 je čisto osobni razvoj tvrtke Microsoft. Istraživači svoju kreaciju nazivaju "multimodalnim širokim jezičnim modelom" (MLLM) jer njegovi korijeni leže u obradi prirodnog jezika samo za tekst kao što je LLM, kao što je ChatGPT. Kako bi model prihvatio ulazne slike, istraživači prvo moraju pretvoriti slike u posebnu seriju tokena (uglavnom teksta) koje LLM može razumjeti.

Svemir-1

Kosmos-1 je obučen na bazi podataka s Interneta, uključujući izvatke iz The Pile (800 GB izvor teksta na engleskom jeziku) i Common Crawl. Model je zatim testiran s nekoliko testova za razumijevanje govora, generiranje govora, klasifikaciju teksta bez optičkog prepoznavanja znakova, titlovanje slika, vizualno odgovaranje na pitanja, odgovaranje na pitanja na web stranici i klasifikaciju slika s lokalizacijom. Prema Microsoft, Kosmos-1 je nadmašio sadašnje modele u mnogim od ovih testova.

Svemir-1

Posebno je zanimljiv bio Raven's Progressive Reasoning test, koji mjeri vizualni IQ predstavljanjem niza oblika i traženjem od ispitanika da dovrši niz. Kosmos-1 je uspio dati točan odgovor u 22% slučajeva.

Svemir-1

Ovi rani koraci, koji bi uz buduću optimizaciju mogli dati još značajnije rezultate, omogućujući AI modelima da percipiraju i utječu na bilo koji oblik medija, uvelike proširujući mogućnosti umjetnih pomoćnika.

Pročitajte također:

Prijavite se
Obavijesti o
gost

0 Komentari
Ugrađene recenzije
Pogledaj sve komentare