
Naujausias modelis leidžia jungti kelis vaizdus, išlaikyti personažų vientisumą ir atlikti tikslius redagavimus pagal tekstines užklausas
Google oficialiai pristatė Gemini 2.5 Flash Image, naują vaizdų generavimo ir redagavimo modelį, kuris, pasak bendrovės, ženkliai pagerina kokybę ir suteikia kūrėjams daugiau kontrolės.
Modelis leidžia sujungti kelis vaizdus į vieną, išlaikyti veikėjų ar objektų išvaizdos nuoseklumą, daryti tikslius vietinius pakeitimus ir pasitelkti plačias „Gemini“ žinias apie pasaulį, siekiant realistiškesnių rezultatų.
Svarbus atnaujinimas yra vadinamas „multi-image fusion“, kai sistema geba sujungti skirtingus objektus ar scenas į vientisą naują vaizdą. Taip pat pristatyta galimybė atlikti natūralia kalba formuluojamus redagavimus – pavyzdžiui, pašalinti dėmę nuo drabužio, pakeisti žmogaus pozą ar suteikti spalvą nespalvotai nuotraukai.
„Pirmą kartą turime tokį aiškų įrankį, leidžiantį derinti pasaulines žinias su vizualine kūryba. Modelio tikslas – užtikrinti, kad vartotojas galėtų sukurti norimą rezultatą su kuo mažiau bandymų ir klaidų“, – sako „Google DeepMind“ produktų vadovė Nicole Brichtova.
Paslaugą jau galima išbandyti naudojantis Gemini API, „Google AI Studio“ arba „Vertex AI“. Vieno vaizdo generacija kainuos apie 0,039 euro (pagal dabartinį $30 tarifą už 1 mln. išvesties žetonų).
Modelis pasižymi pažangiu personažų ir objektų išlaikymu, kas iki šiol buvo silpnoji vieta konkurentams
Vienas didžiausių iššūkių dirbtinio intelekto vaizdų kūrimo srityje – sugebėjimas išlaikyti tą patį veikėją ar objektą nepakitusį skirtinguose kadruose. Anksčiau įrankiai dažnai suklysdavo: pakeisdavo veido bruožus, proporcijas ar net spalvas.
Gemini 2.5 Flash Image šią problemą sprendžia efektyviau – personažas gali būti perkeltas į kitą aplinką, vaizduojamas iš kelių kampų ar pritaikytas prekės ženklui, išlaikant nuoseklų vaizdą.
Be to, modelis pritaikytas naudoti vizualinius šablonus. Tai leidžia verslams kurti vienodai atrodančius katalogus, darbuotojų korteles ar skelbimų maketus, išlaikant nuoseklumą be papildomo dizainerio įsikišimo.
Gemini 2.5 Flash Image tapo rimtu iššūkiu „Photoshop“ ir kitiems tradiciniams redagavimo įrankiams
Naujasis „Google“ modelis jau vadinamas rimtu konkurentu „Adobe Photoshop“ ir kitoms profesionalų naudojamoms programoms. Skirtingai nei tradiciniai įrankiai, Gemini leidžia atlikti sudėtingus redagavimus naudojant vien tik tekstą, o tai supaprastina darbą tiek mėgėjams, tiek profesionalams.
Testai parodė, kad Gemini modelis geba atlikti tikslius smulkius pakeitimus, išlaikydamas detales, kurias kiti įrankiai dažnai iškraipo. Pavyzdžiui, redaguojant marškinėlių spalvą, Gemini išsaugojo dryžuotą raštą, kurį kiti modeliai prarado.
Tai kelia grėsmę tradicinių redagavimo programų pozicijoms, ypač turint omenyje, kad Google leidžia savo modelį naudoti tiek vartotojams, tiek įmonėms be papildomų kliūčių.
Tuo pačiu metu „Adobe“ buvo priversta integruoti Gemini modelį į „Firefly“ ir „Adobe Express“, siekdama neprarasti konkurencinio pranašumo. Vis dėlto investuotojai išlieka atsargūs – „Adobe“ akcijų vertė per metus smuko apie 35 %, iš dalies dėl baimės, kad DI modeliai pakeis tradicinius įrankius.
Nauja karta vaizdų kūrimo technologijų gali pakeisti tiek profesionalų darbo įpročius, tiek paprastų vartotojų patirtį
Gemini 2.5 Flash Image yra dar vienas pavyzdys, kaip sparčiai vystosi generatyvinės DI technologijos. Jei anksčiau tokie įrankiai buvo naudojami tik kūrybinėms užduotims ar socialinių tinklų žaidimams, dabar jie tampa realia alternatyva profesionaliems redagavimo sprendimams.
Google pabrėžia, kad visi sukuriami vaizdai turės nematomą „SynthID“ žymą, leidžiančią atpažinti, jog turinys sukurtas dirbtiniu intelektu. Tokiu būdu siekiama atsakyti į visuomenės nuogąstavimus dėl dezinformacijos ir „deepfake“ vaizdų.
Tuo pačiu metu Google, Meta, OpenAI ir kitos technologijų milžinės kovoja dėl vartotojų dėmesio. Jei „ChatGPT“ pastaruoju metu pritraukė šimtus milijonų vartotojų savo vaizdų generavimo funkcijomis, „Google“ viliasi, kad Gemini 2.5 Flash Image padės sumažinti šį atotrūkį.