Az egyik szemem sír, a másik meg egy háromszög, avagy képgenerálási bakik a magyar internetekről

A nyelvvel már úgy-ahogy elboldogul az AI, de a képi megoldásoknál sokszor megbotlik.

Az elmúlt évek tapasztalatai alapján az látszik, hogy a mesterséges intelligencia (MI) első körben nem a fizikai munkásokat és a gyári dolgozókat fogja leváltani, a számítógéppel végzett munkák azok, ahol leginkább használható. Vannak azonban ezen belül is az átlagosnál gyengébb területei, így például a képalkotás láthatóan kicsit nehezebben megy a neten fellelhető botoknak, s míg szemezgetünk a (félre)sikerült AI képek Facebook-csoport tartalmaiból, arra is keressük a választ, hogy miért lehetett könnyebb a mesterséges intelligenciának nyelvet tanulni, mint képet generálni.

A szabad sajtót egyre több támadás éri. Segítsd a hiteles újságírást helyben is!
Támogatom

A nyelveknek általában jól meghatározott rendszere van, elég, ha a nyelvtani szabályokra, a szintaxisra és a szavak jelentésére gondolunk. Így, akármennyire is bonyolultnak tűnik egy nyelv, mégis van egy keretrendszer mögötte, amire az MI is építhet. Másrészt pedig a szöveges adataink sokkal strukturáltabbak, mint a képek, tehát elemezni és megérteni is könnyebb ezeket.

Ezt a képet a ChatGPT készítette, kifejezetten ehhez a cikkhez
ChatGPT with DALL-E

Ezzel szemben egy-egy kép sokkal több adatot, apró részletet tartalmaz, színeket, formákat, árnyékokat, textúrákat és a többi, és ezeket nagyon nehéz egyetlen rendszerbe összefoglalni és a rengeteg nüanszot egy egészként értelmezni. A temérdek pixel és az általuk hordozott különféle adatok pedig eléggé bonyolultak ahhoz, hogy kellően nehéz legyen megfelelő kontextusba helyezni őket.

És, ha már kontextus, a szövegé mindig világosabb, mert az emberiség a nyelveket kommunikációra használja, ezért a tartalom tele van logikus kapcsolatokkal. Ugyanez a képek esetében már máshogy működik, mert ott a tartalom erősen kontextusfüggő. Ha egy képen csak egy személy, vagy tárgy van, az MI-nek akkor is meg kell értenie, hogy hol válik el a fókuszban lévő személy vagy tárgy a háttértől, hol jelennek meg árnyékok és még a kulturális asszociációkon is sok múlhat.

Ezen a ponton pedig bekúszik a kreativitás-faktor, mert az MI-nek ebből is kell merítenie, hiszen a semmiből kell új dolgokat létrehoznia, ami olykor furcsa hibákhoz vezet. Mert, ha csak annyit írunk, hogy macska, akkor a kedves olvasó fejében megjelenik egy kép, egyből tudja, hogyan is néznek ki ezek a szőrös négylábúak. De, amikor meg kell alkotni egy macskát, hát ott rengeteg apró részletnek kell a helyére kerülnie ahhoz, hogy a végeredmény ne valami szörnyszülött legyen.

De, az sem árt, ha jó minőségű adatból lehet dolgozni, ami a szövegek esetében adott, hatalmas, jól strukturált adatbázisokkal rendelkezünk, digitalizált könyvek, cikkek, miegymás. A képek ezzel szemben nagyon változó minőségűek, és itt térjünk is vissza a macskákra. Nem mindegy, hogy a képen egy kiscica van, vagy elmosódott paca, ami technikailag szintén macska, de nagyon különböző adat. Ezek után nézzük is, hogy miket generált az MI a magyar júzereknek:

Itt van rögtön Hófehérke, akinek talán eggyel több ujja is van a kelleténél, de igazán lábban lett erős. Ami pedig a rengeteg gyümölcsöt illeti, biztos almaszüret volt, csak még nem találták fel a kompótot.

A feszületek eredetére is kaptunk egy alternatív megoldást, az alábbi képen azt láthatjuk, hogy a szerzetesek keresztet vetnek.

Nézzünk át egy kicsit a humor sötétebb oldalára is, mert az MI-nél is néha elmennek otthonról. Ilyenkor rendkívül offenzív tud lenni. Így, amikor a felhasználó azt kérdezte, hogy az MI mit ajánl neki az erős fejfájására, akkor ez a kép született. Fáj a feje? Golyót bele! Ahogy a magyar mondás is tartja.

Egy fokkal világosabb az alábbi kép a sugárzó mosollyal. Az Uránvárost (Pécs nyugati városrészét) még senki sem kérte az MI-től?

Persze tud egészen fotórealisztikus is lenni, ez a kisfiú télen az erdőben békaperspektívából egészen hihető, csak az a kérdés, hogy az a fa a kép jobb oldalán miért van télikabátban?

Végül pedig lássuk, hogyan képzelte el az MI a honfoglalást. Árpádék így jöttek be a Kárpát-medencébe, csak azt nem értjük, miért lett az árpádsávos zászló alján az utolsó csík zöld?

Az jól látszik, hogy a képeknél még elég nagy a művészi szabadsága, nem mindig tud minden részletet helyre tenni, de azért alakul a dolog. Lassan, de biztosan haladunk abba az irányba, hogy már nem kell elutaznunk Sri-Lankára azért, hogy lőjjünk ott pár nyaralós fotót, az MI majd megoldja ezt nekünk, a social media világa pedig úgyis tömbösített hazugságok folyama.

adó 1% nyugat.hu 2025

Segítsd a szabad újságírást helyben is! Támogasd a Nyugat.hu-t!

A szabad sajtót egyre több támadás éri, és a világot ellepik a hamis hírek. Támogassatok minket adótok 1 százalékával, hogy egy olyan országban élhessetek, ahol gyakorolhatjátok a jogaitokat.
Tovább a felajánláshoz!
Látott valami érdekeset, izgalmasat, szokatlant? Írja meg nekünk, vagy küldjön róla fotót. Akár névtelenül, titkosított üzenetküldő rendszerünkön keresztül itt, vagy facebook messengeren ide kattintva. Esetleg emailben, itt: jelentem_KUKAC_nyugat_PONT_hu

Hozzászólások

A cikkekhez csak regisztrált felhasználóink szólhatnak hozzá. Kérjük, jelentkezzen be, vagy ha még nem tette, regisztráljon.

A szerkesztőség fenntartja magának a jogot, hogy a cikkekhez nem kapcsolódó kommenteket moderálja, törölje. A részletes moderálási szabályokért ide kattintson!

Tech