Novi modeli OpenAI: Napredek in izzivi z izmišljenimi informacijami
OpenAI je nedavno predstavil svoja najnovejša modela umetne inteligence, o3 in o4-mini, ki veljata za vrhunska v mnogih pogledih. Vendar pa ti modeli prinašajo tudi nepričakovane težave – povečano stopnjo halucinacij, kar pomeni, da pogosteje kot nekateri starejši modeli podajajo netočne ali izmišljene informacije. Kot poroča TechCrunch, OpenAI še ni povsem razumel vzrokov za to težavo, kar odpira vprašanja o zanesljivosti teh naprednih sistemov.
Halucinacije, kjer modeli ustvarjajo napačne ali izmišljene podatke, so že dolgo eden največjih izzivov v razvoju umetne inteligence. Zgodovinsko so novejši modeli praviloma halucinirali manj kot njihovi predhodniki, a pri o3 in o4-mini to ne drži. Interni testi OpenAI kažejo, da ti modeli, ki temeljijo na sklepanju, halucinirajo pogosteje kot prejšnji modeli, kot so o1, o1-mini, o3-mini in celo tradicionalni model GPT-4o. TechCrunch navaja, da OpenAI v svojem tehničnem poročilu priznava, da je »potrebnih več raziskav«, da bi razumeli, zakaj se halucinacije pri teh modelih poslabšajo.
Povečana zmogljivost, a več netočnosti
Kljub težavam s halucinacijami o3 in o4-mini izkazujeta izjemne rezultate na področjih, kot sta kodiranje in matematika. Vendar pa tehnično poročilo OpenAI, kot piše TechCrunch, poudarja, da modeli »na splošno podajajo več trditev«, kar vodi tako do točnejših kot tudi bolj netočnih oziroma haluciniranih trditev. Na internem merilu PersonQA, ki meri natančnost znanja o ljudeh, je o3 haluciniral v 33 % primerov, kar je približno dvakrat več kot prejšnja modela o1 (16 %) in o3-mini (14,8 %). Še bolj zaskrbljujoče je, da je o4-mini dosegel 48-odstotno stopnjo halucinacij.
Poleg internih testov OpenAI so tudi zunanje analize potrdile te težave. Neprofitni raziskovalni laboratorij Transluce je ugotovil, da o3 pogosto izmišlja dejanja, ki jih domnevno izvaja. V enem primeru je model trdil, da izvaja kodo na MacBook Pro iz leta 2021 »zunaj ChatGPT« in nato kopiral rezultate v svoj odgovor, čeprav tega tehnično ne more storiti. »Naša hipoteza je, da lahko vrsta učenja za krepitev, ki se uporablja za modele o-serije, poveča težave, ki jih običajno ublažijo standardni cevovodi po usposabljanju,« je za TechCrunch povedal Neil Chowdhury, raziskovalec pri Transluce in nekdanji uslužbenec OpenAI.
Posledice za praktično uporabo
Težave s halucinacijami imajo lahko resne posledice za uporabo modelov v praksi, zlasti na področjih, kjer je natančnost ključna, kot so pravo ali medicina. Sarah Schwettmann, soustanoviteljica Transluce, je za TechCrunch izrazila zaskrbljenost, da visoka stopnja halucinacij pri o3 zmanjšuje njegovo uporabnost. Podobno je Kian Katanforoosh, izvršni direktor zagonskega podjetja Workera in predavatelj na Stanfordu, za TechCrunch povedal, da njegova ekipa pri testiranju o3 za kodiranje opaža napredek v primerjavi s konkurenco, a model pogosto generira nedelujoče spletne povezave, kar povzroča dodatne težave.
Halucinacije sicer lahko spodbujajo ustvarjalnost in pomagajo modelom pri generiranju inovativnih idej, a so hkrati ovira za njihovo uporabo v okoljih, kjer so napake nesprejemljive. Na primer, odvetniška pisarna bi težko zaupala modelu, ki v pravne dokumente vnaša netočne podatke.
Rešitve na obzorju?
Eden od možnih pristopov za zmanjšanje halucinacij je integracija spletnega iskanja. TechCrunch poroča, da GPT-4o z omogočenim spletnim iskanjem dosega 90-odstotno natančnost na merilu SimpleQA. Če bi podoben pristop uporabili pri modelih sklepanja, bi to lahko izboljšalo njihovo zanesljivost, čeprav bi to zahtevalo sodelovanje z zunanjimi ponudniki iskanja. OpenAI poudarja, da je reševanje halucinacij stalno raziskovalno področje. »Obravnavanje halucinacij v vseh naših modelih je stalno področje raziskav in nenehno si prizadevamo izboljšati njihovo natančnost in zanesljivost,« je za TechCrunch povedal Niko Felix, tiskovni predstavnik OpenAI.
Portal24; Foto: Pexels