Echipa de 9 oameni care încearcă să oprească AI să distrugă lumea

Echipa de impact social Anthropic

Deep Ganguli și-a dat seama în mai 2020 că nu poate sta deoparte în timp ce tehnologia AI se dezvoltă rapid. Atunci director de cercetare la Stanford Institute for Human-Centered AI, Ganguli tocmai aflase despre GPT-3 de la OpenAI - un model de limbaj de 10 ori mai avansat decât orice altceva.

Prietenul său Jack Clark tocmai se alăturase unui startup nou numit Anthropic, fondat de foști angajați OpenAI îngrijorați că gigantul AI nu lua siguranța suficient de în serios. Clark îl dorea pe Ganguli pentru o misiune amplă: să se asigure că AI “interacționează pozitiv cu oamenii”.

Echipa care caută “adevărurile incomode”

În ultimii patru ani, Ganguli a construit echipa de impact social a Anthropic - doar 9 persoane dintre cei peste 2.000 de angajați ai companiei. Aceștia scriu lucrări de cercetare despre impactul economic al AI, capacitatea sa de persuasiune și explorează cum să limiteze riscurile legate de alegeri și discriminare.

“Vom spune adevărul”, a declarat Ganguli. “Pentru că, unu, este important. Este lucrul potrivit de făcut. Doi, miza este mare. Aceștia sunt oameni. Publicul merită să știe.”

Echipa se întâlnește în birou cinci zile pe săptămână, petrecând mult timp în cafeneaua de la etajul opt a Anthropic. Se antrenează împreună la sala de sport și au nopți lungi la birou. Rezultatul este un nivel de confort în exprimarea opiniilor și dezacordurilor.

Sistemul de monitorizare Clio

Unul dintre cele mai mari contribuții ale echipei este Clio - sistemul de urmărire al lui Claude. După lansarea Claude în martie 2023, echipa și-a dat seama că știa foarte puțin despre cum societatea folosește tehnologia.

Clio este esențial o versiune chatbot a Google Trends, arătând clustere de subiecte care descriu cum folosesc oamenii Claude la un moment dat - de la scrise scenarii video la rezolvare probleme matematice complexe.

Cercetătorii Anthropic

“Adevăruri incomode” despre utilizare

Unul dintre cele mai “incomode adevăruri” pe care le-a dezvăluit echipa a fost crearea de “povești pornografice explicite cu conținut sexual grafic”. De asemenea, au identificat o rețea de boți care încercau să folosească versiunea gratuită a Claude pentru a crea spam optimizat SEO.

Miles McCain, care a construit instrumentul Clio, a fost “destul de surprins că am putut fi destul de transparenți despre domeniile în care sistemele noastre existente nu reușeau”.

Provocări și limitări

Majoritatea membrilor echipei au menționat constrângerile de timp și resurse ca fiind principala lor luptă. Au mult mai multe idei decât lărgime de bandă pentru a le implementa.

O altă limitare importantă este că Clio analizează doar conversații, nu cum se traduc aceste conversații în acțiuni sau impacturi din lumea reală. “Ești lăsat să ghicești care va fi impactul real asupra societății”, a spus McCain.

Viitorul: Inteligența emoțională a AI

Echipa se concentrează acum pe cum folosesc oamenii Claude nu doar pentru IQ-ul său, ci și pentru inteligența sa emoțională. Oamenii vin la Claude “căutând sfaturi, căutând prietenie, căutând coaching de carieră, gândindu-se la probleme politice”.

O problemă presantă este “psihoza AI” - fenomenul prin care AI duce utilizatorul într-o spirală delirantă și îi face să piardă contactul cu realitatea. Această problemă a fost un factor principal în spatele unor sinucideri adolescenți și proceselor judiciare care au urmat.

“Ce înseamnă pentru lumea noastră să ai o mașină cu empatie nesfârșită pe care poți să o folosești, și care îți va spune întotdeauna ce crede?”, se întreabă Ganguli.

În ciuda provocărilor, echipa rămâne optimistă că poate ghida dezvoltarea tehnologiei AI din interior, chiar dacă alți cercetători din industrie au ales să plece pentru a avea un impact mai mare extern.

Sursa foto: www.theverge.com