Google lansează Gemini 3 Pro cu capacități avansate de înțelegere vizuală

Google a anunțat lansarea Gemini 3 Pro, cel mai capabil model multimodal al companiei, care oferă performanțe de ultimă generație în înțelegerea documentelor, spațială, a ecranelor și videourilor.

Modelul reprezintă un salt generațional de la simpla recunoaștere la raționamentul vizual și spațial adevărat. Gemini 3 Pro stabilește noi recorduri pe benchmark-uri de viziune precum MMMU Pro și Video MMMU pentru raționamentul vizual complex.

Înțelegerea documentelor

Documentele din lumea reală sunt adesea dezordonate și nestructurate, pline de imagini intercalate, text scris de mână ilizibil și tabele complexe. Gemini 3 Pro excelează în întregul proces de procesare a documentelor, de la recunoașterea optică de caractere (OCR) la raționamentul vizual complex.

O capacitate fundamentală este “derendering” - abilitatea de a reconstitui un document vizual înapoi în cod structurat (HTML, LaTeX, Markdown). Modelul poate transforma jurnale comerciale din secolul al XVIII-lea în tabele complexe sau poate converti imagini cu notații matematice în cod LaTeX precis.

Utilizatorii se pot baza pe Gemini 3 pentru raționament complex, multi-pas pe tabele și grafice - chiar și în rapoarte lungi. Modelul depășește chiar și performanța umană pe benchmark-ul CharXiv Reasoning (80,5%).

Înțelegerea spațială

Gemini 3 Pro este cel mai puternic model de înțelegere spațială al Google până acum. Combinat cu raționamentul său puternic, aceasta permite modelului să înțeleagă lumea fizică.

Capacitățile includ:

Capacitatea de indicare: modelul poate indica locații specifice în imagini prin coordonate precise la nivel de pixel
Referințe cu vocabular deschis: identifică obiecte folosind un vocabular deschis, cu aplicații directe în robotică și dispozitive AR/XR

Înțelegerea ecranelor

Înțelegerea spațială a Gemini 3 Pro strălucește prin capacitatea sa de a înțelege ecranele desktop și mobile. Această fiabilitate ajută la automatizarea sarcinilor repetitive și permite aplicații pentru testarea QA, onboarding-ul utilizatorilor și analiza UX.

Înțelegerea video

Gemini 3 Pro face un salt masiv în modul în care AI înțelege video-ul, cel mai complex format de date cu care interacționăm.

Îmbunătățirile includ:

Înțelegere cu frecvență înaltă de cadre: optimizat pentru acțiuni rapide la >1 cadru pe secundă
Raționament video cu modul “thinking”: poate urmări relații complexe cauză-efect în timp
Transformarea videoclipurilor lungi în acțiune: poate extrage cunoștințe din conținut de lungă durată și le poate traduce în aplicații funcționale

Aplicații din lumea reală

Educație

Capacitățile vizuale îmbunătățite ale Gemini 3 Pro aduc câștiguri semnificative în domeniul educației, în special pentru întrebări cu diagrame din matematică și științe.

Imagistica medicală și biomedicală

Gemini 3 Pro este cel mai capabil model general pentru înțelegerea imaginilor medicale și biomedicale, obținând performanțe de vârf pe benchmark-uri majore publice.

Drept și finanțe

Capacitățile îmbunătățite de înțelegere a documentelor ajută profesioniștii din finanțe și drept să abordeze fluxuri de lucru foarte complexe.

Control asupra rezoluției media

Gemini 3 Pro îmbunătățește modul în care procesează inputurile vizuale prin păstrarea raportului de aspect nativ al imaginilor. Dezvoltatorii obțin control granular asupra performanței și costurilor prin noul parametru media_resolution.

Modelul este disponibil pentru dezvoltatori prin documentația Google AI și Google AI Studio.

Sursa foto: blog.google