Znanstvenici s MIT-a riješili su misterij strojnog učenja

Nakon 2010. godine počelo je ozbiljno usavršavanje softverskih algoritama, a to je, zajedno sa snažnim računalima, dalo poticaj ubrzanom razvoju neuronskih mreža. Softverski modeli se treniraju i treniraju na tisućama primjera kako bi kasnije formirali vlastite akcije. Danas je najpoznatija neuronska mreža ova OpenAI GPT-3. Ovo je model strojnog učenja koji uči uz pomoć mnoštva internetskih podataka, može uzeti mali fragment teksta i dodati nedovoljan fragment na prilično visokoj razini. I to se ne odnosi samo na narativni tekst, već i na pjesme, kao i na linije softverskog koda.

Ali to nije sve što modeli ovog plana mogu. Istraživači proučavaju zanimljiv fenomen poznat kao "učenje u kontekstu", u kojem veliki jezični model uči obavljati zadatak nakon što je vidio samo nekoliko primjera, iako nije bio obučen na zadatku.

Znanstvenici s Massachusetts Institute of Technology, Google Research i Sveučilišta Stanford pokušavaju riješiti ovu misteriju. S kontekstualnim učenjem, parametri modela se ne ažuriraju, pa se čini da model uči novi zadatak bez da išta uči.

Teorijski rezultati istraživača pokazuju da ovi masivni modeli neuronskih mreža mogu sadržavati manje i jednostavnije linearne modele skrivene u sebi. Veliki model tada može implementirati jednostavan algoritam za osposobljavanje ovog manjeg linearnog modela za izvođenje novog zadatka, koristeći samo informacije koje su već sadržane u većem modelu.

Zahvaljujući dubljem razumijevanju kontekstualnog učenja, znanstvenici će moći implementirati nove zadatke s modelima bez skupe prekvalifikacije. Naime, prvo, za svaki konkretan zadatak potrebno je prikupiti veliki niz podataka na temelju kojih će se odvijati obuka. I tako će neuronskoj mreži biti moguće pružiti samo nekoliko primjera, zahvaljujući kojima će se odvijati obuka.

"Kontekstualno učenje je nerazumno učinkovit fenomen učenja koji treba razumjeti".

Pretpostavlja se da postoje manji modeli strojnog učenja u modelima neuronskih mreža koji mogu naučiti stariji model da izvrši novi zadatak. Kako bi testirali svoju teoriju, znanstvenici su uzeli model neuronske mreže koja je po arhitekturi vrlo slična GPT-3, ali je napravljena posebno za učenje u kontekstu. To jest, unutar ranijih slojeva implementiran je model koji se bavio učenjem linearnog modela, implementirajući jednostavne algoritme učenja.

"Ovi rezultati su odskočna daska za razumijevanje kako modeli mogu naučiti složenije zadatke i pomoći će istraživačima da razviju učinkovitije metode za obuku jezičnih modela za daljnje poboljšanje njihove izvedbe.".

Pročitajte također:

izvorcsail.mit.edu

Prijavite se

0 Komentari

Ugrađene recenzije

Pogledaj sve komentare

Ostali članci

Znanstvenici s Massachusetts Institute of Technology riješili su misterij strojnog učenja

Nedavni komentari