Chatbot-urile AI: mai precise, dar și mai nesigure

Getting your Trinity Audio player ready...

Un nou studiu realizat de cercetători de la Institutul de Cercetare pentru Inteligență Artificială din Valencia a scos la iveală că modelele de inteligență artificială (AI) de dimensiuni mai mari, folosite în chatbot-uri, tind să ofere mai multe răspunsuri incorecte decât să admită că nu cunosc răspunsul. Publicat pe 25 septembrie în revista Nature, studiul subliniază faptul că modelele lingvistice de mari dimensiuni (LLM) nu doar că răspund la aproape orice întrebare, dar oferă și mai multe răspunsuri greșite, pe măsură ce cresc în dimensiune și complexitate.

Potrivit profesorului José Hernández-Orallo, coordonatorul studiului, chatbot-urile precum GPT de la OpenAI, LLaMA de la Meta și modelul open-source BLOOM au devenit mai precise în răspunsurile lor datorită tehnicilor avansate de învățare, cum ar fi învățarea prin întărire cu feedback uman. Cu toate acestea, cercetătorii au descoperit că aceste modele sunt mai puțin predispuse să evite răspunsurile atunci când nu cunosc un subiect, ceea ce duce la o creștere a numărului de răspunsuri incorecte.

„Acestea răspund aproape la orice în zilele noastre, ceea ce înseamnă mai multe răspunsuri corecte, dar și mai multe răspunsuri greșite”, explică Hernández-Orallo. Această tendință de a oferi opinii fără suficiente informații este îngrijorătoare, mai ales pentru utilizatorii care au tendința de a supraestima capacitățile acestor chatbot-uri.

Echipa de cercetători a analizat performanța acestor modele pe mii de întrebări, de la aritmetică la geografie și știință. Deși modelele mai mari au fost mai precise, ele au făcut mai multe erori pe măsură ce întrebările deveneau mai dificile. În mod surprinzător, modelele au oferit răspunsuri incorecte chiar și la întrebări ușoare, sugerând că nu există o „zonă sigură” în care utilizatorii pot avea încredere absolută în răspunsuri.

De asemenea, studiul a arătat că utilizatorii umani au dificultăți în a distinge între răspunsurile corecte și cele greșite, clasificând incorect între 10% și 40% dintre răspunsuri, fie la întrebări ușoare, fie dificile. Acest fapt evidențiază dificultatea supravegherii acestor modele de către oameni.

Cercetătorii sugerează că dezvoltatorii ar trebui să se concentreze pe îmbunătățirea performanțelor chatbot-urilor pentru întrebări simple și să încurajeze modelele să evite răspunsurile atunci când se confruntă cu întrebări dificile. „Este esențial ca utilizatorii să înțeleagă când pot folosi aceste modele în mod sigur și când nu”, afirmă Hernández-Orallo.

Acest studiu deschide o dezbatere crucială în industria AI privind modul în care aceste tehnologii pot fi optimizate pentru a oferi nu doar răspunsuri mai precise, ci și mai sigure, prin limitarea tendinței de a „halucina” sau de a oferi informații greșite.

Pe măsură ce modelele AI devin din ce în ce mai mari și mai puternice, ele devin tot mai capabile să ofere răspunsuri corecte, dar și mai predispuse să genereze erori. Acest lucru ridică întrebări serioase cu privire la utilizarea în siguranță a chatbot-urilor AI și la capacitatea utilizatorilor de a distinge între răspunsurile corecte și cele greșite.