Inteligența artificială nu trebuie să-și câștige total independența față de om. Dacă se va întâmpla acest lucru, situația va scăpa cu totul de sub control și se poate ajunge la un adevărat dezastru. Cercetătorii au demonstrat că atunci când modelele de limbaj extinse (ex ChatGPT) de inteligență artificială (AI) sunt instruite pe date generate de mașini – în locul celor generate de oameni, apare colapsul modelului. Astfel, un studiu realizat de cercetători din Marea Britanie și Canada concluzionează faptul că pentru a putea controla inteligența artificială, omul trebuie să o facă dependentă de el.
„Cu alte cuvinte, utilizarea [modelelor de limbaj extinse] la scară pentru a publica conținut pe internet va polua colectarea de date pentru instruirea lor”, precizează studiul citat de revista australiană Cosmos.
Acest lucru ridică o problemă pentru formarea AI generativă în viitor, deoarece tot mai multe texte și date sintetice generate de AI sunt publicate online.
Modelele de limbaj extinse, cum ar fi ChatGPT de la Open AI și Alphabet’s Bard, s-au bazat inițial pe text generat predominant de oameni, extras de pe Internet și ajustat cu ajutorul unei intrări umane suplimentare.
Tot mai mult conținut online este creat și de modelele AI în sine
Când autorii studiului, Ilia Shumailov și Zakhar Shumaylov, discutau despre modele de limbaj extinse, ei s-au întrebat dacă utilizarea sporită a datelor artificiale (generate de mașini) utilizate în antrenament ar cauza probleme modelelor în viitor. „Ne-am dat seama rapid că da, vor aparea disfuncții”, spune Shumailov, într-un răspuns către Cosmos.
Atunci când modelele AI învață din date generate de mașini, mai degrabă decât din date create de oameni, „degradarea majoră are loc în doar câteva iterații, chiar și atunci când unele dintre datele originale sunt păstrate.Erorile de la imperfecțiunile de optimizare, modelele limitate și datele finite determină în cele din urmă ca datele sintetice să fie de calitate scăzută (mai puțin). De-a lungul timpului, greșelile complică și, în cele din urmă, forțează modelele care învață din datele generate să perceapă greșit realitatea și chiar mai mult”, spune specialistul.
Cercetătorii atrag atenția că problema există pentru toate formele de AI generativă.
„Prăbușirea modelului este un fenomen care afectează orice model instruit pe date sintetice.Descoperim că învățarea din datele produse de alte modele provoacă colapsul modelului – un proces degenerativ prin care, în timp, modelele uită adevărata distribuție a datelor subiacente, chiar și în absența unei schimbări a distribuției în timp”, subliniază Shumailov.
Expertul explică conceptul de prăbușire a modelului folosind o analogie cu imaginile cu câini.
„Luați în considerare un scenariu în care avem un model care generează imagini cu câini, iar în setul de date inițial apar zece câini cu ochi albaștri și 90 de câini cu ochi galbeni. După instruirea modelului nostru inițial, acesta devine destul de competent în a învăța din date, deși nu perfect. Datorită predominanței câinilor cu ochi galbeni în setul de dresaj, modelul modifică neintenționat ochii albaștri pentru a apărea puțin mai verzui. Ulterior, folosim acest model pentru a genera noi imagini cu câini și a le distribui pe rețelele sociale. În acest moment, cineva decide să caute pe internet imagini de câini, inclusiv cele generate. Ei preiau zece câini cu ochi albaștri care acum par puțin mai puțin albaștri și mai verzi, împreună cu 90 de câini cu ochi galbeni. Apoi, apare un nou model folosind aceste date, ceea ce duce la un rezultat similar. Deoarece majoritatea datelor cuprind câini cu ochi galbeni, modelul devine mai abil în a-i reprezenta, în timp ce capacitatea sa de a înțelege și reprezenta câinii cu ochi albaștri scade.De-a lungul timpului, această înțelegere a grupului minoritar se deteriorează, progresând de la albastru la albastru-verde, apoi verde și, în cele din urmă, galben-verde, înainte de a duce în cele din urmă la o pierdere completă sau o percepție distorsionată a acestor informații. Acest fenomen este colapsul modelului”, precizează cercetătorul.
Pentru a preveni acest lucru, Shumailov subliniază că este important să ne asigurăm că grupurile minoritare din datele originale sunt reprezentate corect în seturile de date ulterioare, nu doar în ceea ce privește cantitatea (de exemplu zece imagini), ci și în ceea ce privește atributele lor distinctive (de exemplu, albastrul -ochi).
„Instruirea pe date care conțin erori determină modelele să învețe aceste erori și să înțeleagă greșit realitatea. În timp, aceste neînțelegeri se agravează”, comentează Shumailov.
Cercetarea sugerează că ar putea fi utilă păstrarea datelor de antrenament generate de oameni („din „aglomerația” de pe Internet înainte de adoptarea în masă a tehnologiei”), în special date provenite de la apariții mai puțin probabile, pentru ca modelele ulterioare să învețe corect.
Totodată, cercetarea mai evidențiază că ceea ce contează cel mai mult atunci când vine vorba de a evita colapsul modelului este să ai acces la date din „cozile distribuției”. C
Companiile și entitățile care doresc să implementeze modele AI în viitor vor trebui să „cheltuiască suficiente resurse pentru colectarea și adnotarea datelor pentru a se asigura că viitoarele lor modele pot învăța eficient”.

