Napredki na področju strojnega učenja in tehnologije prepoznavanja govora so omogočili boljšo dostopnost informacij za ljudi. Zlasti za tiste, ki se zanašajo na glasovni dostop do informacij. Vendar pa pomanjkanje označenih podatkov za številne jezike predstavlja pomemben izziv pri razvoju kakovostnih modelov strojnega učenja.
Kot odgovor na ta problem je projekt Meta-led Massively Multilingual Speech (MMS) dosegel izjemne rezultate. Tako pri širjenju jezikovne pokritosti kot pri izboljšanju zmogljivosti modelov za prepoznavanje in sintezo govora.
Z združevanjem tehnik samonadzorovanega učenja z raznolikim naborom podatkov o verskih besedilih je projekt MMS dosegel impresivne rezultate pri povečanju števila podprtih jezikov s približno 100 na več kot 1.100 jezikov.
Podiranje jezikovnih ovir
Da bi rešili pomanjkanje označenih podatkov za večino jezikov, je projekt MMS uporabil verska besedila, kot je npr. Sveto pismo, ki je bilo prevedeno v številne jezike.
Te prevode so zagotovili javno dostopni zvočni posnetki ljudi. Ti so brali besedila, kar je omogočilo ustvarjanje nabora podatkov, ki vključuje branje Nove zaveze v več kot 1.100 jezikih.
Z vključitvijo neoznačenih posnetkov drugih verskih besedil je projekt razširil jezikovno pokritost na prepoznavanje več kot 4.000 jezikov.
Kljub specifični domeni nabora podatkov in večinoma moškim govornikom so modeli enako dobro delovali za moške in ženske glasove. Meta prav tako navaja, da ni bilo uvedeno nobene verske pristranskosti.
Premagovanje izzivov s samonadzorovanim učenjem
Usposabljanje običajnih nadzorovanih modelov prepoznavanja govora z le 32 urami podatkov na jezik je nezadostno.
Da bi premagali to omejitev, je projekt MMS izkoristil prednosti tehnike samonadzorovanega učenja zastopanja govora wav2vec 2.0.
Z usposabljanjem samonadzorovanih modelov na približno 500.000 urah govornih podatkov v 1.400 jezikih je projekt bistveno zmanjšal odvisnost od označenih podatkov.
Dobljeni modeli so bili nato prilagojeni za specifične naloge govora, kot so večjezično prepoznavanje govora in prepoznavanje jezika.
Impresivni rezultati Ocena modelov, usposobljenih na podatkih MMS, je razkrila impresivne rezultate. V primerjavi z OpenAI Whisper so modeli MMS pokazali polovično stopnjo napak pri besedah, medtem ko so pokrivali 11-krat več jezikov.
Nadaljnje raziskave in razvoj
Projekt MMS predstavlja pomemben korak naprej pri širjenju jezikovne pokritosti in izboljšanju zmogljivosti modelov za prepoznavanje in sintezo govora. Vendar pa je še vedno veliko prostora za izboljšave in razvoj.
- Razširitev nabora podatkov: Čeprav je uporaba verskih besedil omogočila širšo jezikovno pokritost, bi bilo koristno razširiti nabor podatkov z vključitvijo drugih virov, kot so novinarski članki, znanstvena besedila in pogovorni govori, da bi modeli bolje razumeli različne kontekste in slogovne značilnosti jezikov.
- Izboljšanje prilagodljivosti modelov: Trenutni modeli so bili usposobljeni na velikem naboru podatkov, vendar pa je še vedno potrebno izboljšati njihovo prilagodljivost na različne naloge in domene. To bi lahko vključevalo razvoj bolj naprednih tehnik samonadzorovanega učenja in prilagajanje modelov za specifične uporabniške potrebe.
- Povečanje natančnosti in zmanjšanje pristranskosti: Kljub impresivnim rezultatom je še vedno prostor za izboljšanje natančnosti modelov in zmanjšanje morebitne pristranskosti. To bi lahko vključevalo raziskave na področju pravičnosti in etike umetne inteligence ter razvoj metod za zmanjšanje pristranskosti v modelih strojnega učenja.
- Spodbujanje sodelovanja in odprtosti: Projekt MMS je dosegel pomembne rezultate, vendar pa je sodelovanje med raziskovalci, podjetji in skupnostmi ključnega pomena za nadaljnji napredek na področju večjezičnega prepoznavanja in sinteze govora. To bi lahko vključevalo deljenje naborov podatkov, raziskovalnih ugotovitev in odprtih virov ter spodbujanje mednarodnega sodelovanja.
S projektom MMS in nadaljnjimi raziskavami na področju strojnega učenja in tehnologije prepoznavanja govora se lahko pričakuje še večje izboljšave pri razumevanju in obvladovanju številnih jezikov, kar bo omogočilo boljšo dostopnost informacij za ljudi po vsem svetu.