ChatGPT și Gemini pot fi păcălite cu poezie să dea răspunsuri nocive

Un studiu recent a descoperit o vulnerabilitate surprinzătoare în sistemele de inteligență artificială: ChatGPT și Gemini pot fi păcălite să furnizeze răspunsuri dăunătoare dacă întrebările sunt formulate în versuri.

Cercetătorii de la Icaro Lab din Italia au testat 20 de cereri nocive transformate în poezie pe 25 de modele AI avansate. Rezultatele sunt îngrijorătoare: rata de succes a atacurilor a fost de 62%.

Poezia - o armă neașteptată împotriva AI

Modelele testate au inclus sisteme de la Google, OpenAI, Anthropic, DeepSeek, Meta, xAI și Moonshot AI. Chiar și atunci când AI-ul a rescris automat cererile dăunătoare în “poezie proastă”, rata de succes a rămas de 43%.

Cel mai șocant aspect este că întrebările poetice au declanșat răspunsuri nesigure de până la 18 ori mai des decât cererile în proză normală.

Paradoxul dimensiunii modelelor

Studiul a revelat o ironie: modelele mai mici sunt mai rezistente la acest tip de atacuri. GPT-4 Nano nu a răspuns la niciuna dintre poeziile dăunătoare, în timp ce Gemini 2.5 Pro a răspuns la toate.

“Capacitatea crescută a modelelor poate angaja mai profund constrângerile lingvistice complexe ca poezia, potențial în detrimentul prioritizării directivelor de siguranță”, explică cercetătorii.

De ce funcționează poezia?

Modelele de limbaj mari sunt antrenate să recunoască amenințări bazate pe modele din proza standard. Acestea identifică cuvinte cheie și structuri de propoziții asociate cu cereri dăunătoare.

Poezoa însă folosește metafore, sintaxă neobișnuită și ritmuri distincte care nu seamănă cu proza dăunătoare din datele de antrenament ale modelului. Această diferență de format permite ocolirea măsurilor de siguranță.

Descoperta pune sub semnul întrebării afirmațiile de siguranță superioară ale modelelor cu sursă închisă față de cele open source și subliniază nevoia unei abordări mai sofisticate a securității AI.