Poemele pot păcăli chatboții AI să ignore restricțiile de siguranță

Cercetătorii au descoperit o metodă surprinzătoare de a ocoli sistemele de siguranță ale chatboților AI: poezia. Un studiu publicat de Icaro Lab arată că versurile poetice funcționează ca un “operator universal de spargere” al restricțiilor.

Studiul intitulat “Poezia adversarială ca mecanism universal de spargere într-o singură rundă în modelele de limbaj mari” a testat mai multe modele AI populare. Cercetătorii au reușit să ocolească mecanismele de siguranță ale chatboților prin formularea solicitărilor în formă poetică.

Rezultatele sunt îngrijorătoare: metoda a avut o rată de succes generală de 62% în producerea de material interzis. Aceasta include informații despre fabricarea armelor nucleare, materiale de abuz sexual al copiilor și conținut legat de suicid sau automutilare.

Testele au inclus modele AI de la companii majore precum OpenAI (GPT), Google (Gemini), Anthropic (Claude) și multe altele. Google Gemini, DeepSeek și MistralAI au fost cele mai vulnerabile, oferind constant răspunsuri la solicitările interzise. În contrast, modelele GPT-5 de la OpenAI și Claude Haiku 4.5 de la Anthropic au fost cele mai rezistente la aceste atacuri.

Cercetătorii au refuzat să publice poemele exacte folosite în studiu, considerându-le “prea periculoase pentru a fi împărțite cu publicul”. Echipa a declarat pentru Wired că ocolirea restricțiilor AI este “probabil mai ușoară decât s-ar putea gândi cineva, motiv pentru care suntem precauți”.

Studiul a inclus totuși o versiune diluată a metodei pentru a demonstra cât de simplu poate fi să manipulezi un chatbot AI să ignore protocoalele de siguranță.