Un nou studiu publicat recent în revista Royal Society Open Science trage un semnal de alarmă asupra modului în care chatboturile bazate pe inteligență artificială, inclusiv cele mai avansate modele precum GPT-4o, Claude 3 și LLaMA 3, rezumă și interpretează studii științifice. Deși aceste modele sunt promovate ca instrumente capabile să democratizeze accesul la informație academică, analiza a arătat că ele deformeză frecvent rezultatele cercetărilor, generalizând concluzii și omițând detalii esențiale. Mai grav, cercetătorii au constatat că tocmai modelele cele mai noi sunt cele mai susceptibile la aceste derapaje.
Studiul, care a analizat aproape 5.000 de rezumate generate de 10 modele AI diferite, a urmărit felul în care aceste sisteme sintetizează lucrări științifice și medicale complexe. În comparație cu rezumatele redactate de oameni, cele create de AI au fost de peste cinci ori mai predispuse să facă afirmații generalizante și să exagereze rezultatele. Formulări speculative precum „ar putea îmbunătăți starea pacienților” au fost transformate în afirmații ferme de tipul „îmbunătățește starea pacienților”, eliminând nuanțele și limitările metodologice esențiale pentru o interpretare corectă.
Cercetătorii avertizează că această tendință poate avea efecte periculoase, mai ales în domenii sensibile cum ar fi medicina sau politicile publice. Exagerarea eficienței unui tratament sau eliminarea avertismentelor legate de contextul studiului poate conduce la concluzii greșite, implementări premature sau decizii bazate pe date deformate.
Surprinzător este faptul că modelele considerate cele mai performante, precum GPT-4o sau LLaMA 3.3B, s-au dovedit a fi printre cele mai predispuse la aceste greșeli. Spre exemplu, GPT-4o a omis detalii importante de nouă ori mai des decât versiunile sale anterioare. LLaMA 3.3B a generat enunțuri exagerate într-o proporție de 36 de ori mai mare decât variantele precedente. Claude 3 a avut rezultate ceva mai echilibrate, păstrând un ton mai precaut și o fidelitate mai bună a informației.
Un alt rezultat neașteptat al cercetării a fost reacția AI-urilor la solicitarea de „acuratețe sporită”. În loc să genereze rezumate mai fidele, aceste modele au produs texte și mai ferme, renunțând complet la exprimări rezervate și sugerând o certitudine care nu exista în studiul original. Astfel, cererea de „mai multă acuratețe” a dus, paradoxal, la și mai multă deformare. Autorii pun acest fenomen pe seama modului în care modelele sunt antrenate să producă răspunsuri fluente și persuasive, deseori în detrimentul preciziei științifice.
Mecanismele care stau la baza acestor erori țin, în mare parte, de modul în care chatboturile sunt instruite. Modelele lingvistice mari învață nu doar din date brute, ci și prin ajustări bazate pe feedback uman (proces numit RLHF – reinforcement learning from human feedback). Acest tip de antrenament încurajează răspunsuri convingătoare și „utile”, chiar și atunci când ele sacrifică exactitatea. În plus, setările interne ale modelului – cum ar fi temperatura, care controlează gradul de creativitate – joacă un rol important. Modelele setate pe temperaturi mai mari generează rezumate mai imaginative, dar mai imprecise, în timp ce o temperatură scăzută (spre zero) ar putea oferi variante mai fidele, dar mai puțin atractive stilistic.
Autorii studiului avertizează că, în lipsa unor măsuri de control și verificare, publicul riscă să se bazeze pe interpretări distorsionate ale științei, mai ales într-o epocă în care tot mai mulți oameni folosesc AI pentru informare rapidă. Recomandările cercetătorilor includ crearea unor benchmark-uri specifice pentru detectarea supra-generalizării, setarea unui control mai strict al parametrilor tehnici ai modelelor și, nu în ultimul rând, implicarea activă a cercetătorilor umani în procesul de validare a rezumatelor generate automat.
Deși chatboturile AI pot fi utile în facilitarea accesului la literatura științifică, ele trebuie utilizate cu prudență. În special în domenii unde nuanțele și limitările sunt esențiale, tehnologia nu poate înlocui rigoarea științifică și spiritul critic al cercetătorului uman. Iar în forma lor actuală, modelele AI riscă să devină nu doar interpreți ai științei, ci și surse de confuzie – cu consecințe reale în lumea din afara ecranelor.























