Poezia poate păcăli inteligența artificială să dezvăluie secrete militare

Cercetătorii au descoperit că prompt-urile sub formă de poezie pot ocoli funcțiile de siguranță din modele de inteligență artificială precum ChatGPT pentru a obține instrucțiuni de creare a malware-ului sau a armelor chimice și nucleare.

Producătorii de AI generativ precum OpenAI, Google, Meta și Microsoft susțin că modelele lor au caracteristici de siguranță care previn generarea de conținut dăunător.

OpenAI, de exemplu, afirmă că folosește algoritmi și recenzori umani pentru a filtra discursul instigator la ură, conținutul explicit și alte rezultate care încalcă politicile de utilizare.

Însă noi teste arată că prompt-urile sub formă de poezie pot ocoli astfel de controale chiar și în cele mai avansate modele AI.

Metoda “poeziei adversariale”

Cercetătorii, inclusiv de la Universitatea Sapienza din Roma, au găsit că această metodă, numită “poezie adversarială”, a fost un mecanism de “jailbreaking” pentru toate familiile majore de modele AI, inclusiv cele de la OpenAI, Google, Meta și chiar DeepSeek din China.

Concluziile, detaliate într-un studiu care încă nu a trecut prin procesul de evaluare de către specialiști, demonstrează că “variația stilistică singură poate ocoli mecanismele contemporane de siguranță”.

Rezultate îngrijorătoare

Pentru testele lor, cercetătorii au folosit poeme scurte sau versuri metaforice ca intrări pentru a genera conținut dăunător.

Ei au descoperit că, comparativ cu alte tipuri de intrări cu intenții identice de bază, versiunile poetice au dus la rate mult mai mari de răspunsuri nesigure.

Prompt-urile poetice specifice au declanșat comportament nesigur în aproape 90% din cazuri.

Această metodă a fost cel mai de succes în obținerea de informații despre lansarea de atacuri cibernetice, extragerea de date, spargerea parolelor și crearea de malware.

Ei au putut obține informații de la diverse modele AI pentru construirea armelor nucleare cu o rată de succes între 40% și 55%.

De ce funcționează poezia

Un motiv cheie pentru care prompt-urile scrise în versuri produc conținut dăunător pare să fie că toate modelele AI funcționează prin anticiparea celui mai probabil următorul cuvânt dintr-o secvență.

Pentru că structura unei poezii nu este foarte evidentă, este mult mai greu pentru AI să prezică și să detecteze un astfel de prompt dăunător.

Apel pentru măsuri mai bune

Cercetătorii au solicitat metode mai bune de evaluare a siguranței pentru a preveni AI-ul să producă conținut dăunător.

Studiul nu dezvăluie poezia exactă folosită pentru a ocoli măsurile de siguranță, deoarece metoda este ușor de reprodus.

OpenAI, Google, DeepSeek și Meta nu au răspuns imediat la solicitările de comentarii.

Metoda “poeziei adversariale”

Rezultate îngrijorătoare

De ce funcționează poezia

Apel pentru măsuri mai bune

ChatGPT și Gemini pot fi păcălite cu poezie să dea răspunsuri nocive