Az egyik szemem sír, a másik meg egy háromszög, avagy képgenerálási bakik a magyar internetekről

A nyelvvel már úgy-ahogy elboldogul az AI, de a képi megoldásoknál sokszor megbotlik.

Az elmúlt évek tapasztalatai alapján az látszik, hogy a mesterséges intelligencia (MI) első körben nem a fizikai munkásokat és a gyári dolgozókat fogja leváltani, a számítógéppel végzett munkák azok, ahol leginkább használható. Vannak azonban ezen belül is az átlagosnál gyengébb területei, így például a képalkotás láthatóan kicsit nehezebben megy a neten fellelhető botoknak, s míg szemezgetünk a (félre)sikerült AI képek Facebook-csoport tartalmaiból, arra is keressük a választ, hogy miért lehetett könnyebb a mesterséges intelligenciának nyelvet tanulni, mint képet generálni.

25 éves a Nyugat.hu. Ne feledd, ide kattintva támogathatod következő 25 évünket!
Támogatom

A nyelveknek általában jól meghatározott rendszere van, elég, ha a nyelvtani szabályokra, a szintaxisra és a szavak jelentésére gondolunk. Így, akármennyire is bonyolultnak tűnik egy nyelv, mégis van egy keretrendszer mögötte, amire az MI is építhet. Másrészt pedig a szöveges adataink sokkal strukturáltabbak, mint a képek, tehát elemezni és megérteni is könnyebb ezeket.

Ezt a képet a ChatGPT készítette, kifejezetten ehhez a cikkhez
ChatGPT with DALL-E

Ezzel szemben egy-egy kép sokkal több adatot, apró részletet tartalmaz, színeket, formákat, árnyékokat, textúrákat és a többi, és ezeket nagyon nehéz egyetlen rendszerbe összefoglalni és a rengeteg nüanszot egy egészként értelmezni. A temérdek pixel és az általuk hordozott különféle adatok pedig eléggé bonyolultak ahhoz, hogy kellően nehéz legyen megfelelő kontextusba helyezni őket.

És, ha már kontextus, a szövegé mindig világosabb, mert az emberiség a nyelveket kommunikációra használja, ezért a tartalom tele van logikus kapcsolatokkal. Ugyanez a képek esetében már máshogy működik, mert ott a tartalom erősen kontextusfüggő. Ha egy képen csak egy személy, vagy tárgy van, az MI-nek akkor is meg kell értenie, hogy hol válik el a fókuszban lévő személy vagy tárgy a háttértől, hol jelennek meg árnyékok és még a kulturális asszociációkon is sok múlhat.

Ezen a ponton pedig bekúszik a kreativitás-faktor, mert az MI-nek ebből is kell merítenie, hiszen a semmiből kell új dolgokat létrehoznia, ami olykor furcsa hibákhoz vezet. Mert, ha csak annyit írunk, hogy macska, akkor a kedves olvasó fejében megjelenik egy kép, egyből tudja, hogyan is néznek ki ezek a szőrös négylábúak. De, amikor meg kell alkotni egy macskát, hát ott rengeteg apró részletnek kell a helyére kerülnie ahhoz, hogy a végeredmény ne valami szörnyszülött legyen.

De, az sem árt, ha jó minőségű adatból lehet dolgozni, ami a szövegek esetében adott, hatalmas, jól strukturált adatbázisokkal rendelkezünk, digitalizált könyvek, cikkek, miegymás. A képek ezzel szemben nagyon változó minőségűek, és itt térjünk is vissza a macskákra. Nem mindegy, hogy a képen egy kiscica van, vagy elmosódott paca, ami technikailag szintén macska, de nagyon különböző adat. Ezek után nézzük is, hogy miket generált az MI a magyar júzereknek:

Itt van rögtön Hófehérke, akinek talán eggyel több ujja is van a kelleténél, de igazán lábban lett erős. Ami pedig a rengeteg gyümölcsöt illeti, biztos almaszüret volt, csak még nem találták fel a kompótot.

A feszületek eredetére is kaptunk egy alternatív megoldást, az alábbi képen azt láthatjuk, hogy a szerzetesek keresztet vetnek.

Nézzünk át egy kicsit a humor sötétebb oldalára is, mert az MI-nél is néha elmennek otthonról. Ilyenkor rendkívül offenzív tud lenni. Így, amikor a felhasználó azt kérdezte, hogy az MI mit ajánl neki az erős fejfájására, akkor ez a kép született. Fáj a feje? Golyót bele! Ahogy a magyar mondás is tartja.

Egy fokkal világosabb az alábbi kép a sugárzó mosollyal. Az Uránvárost (Pécs nyugati városrészét) még senki sem kérte az MI-től?

Persze tud egészen fotórealisztikus is lenni, ez a kisfiú télen az erdőben békaperspektívából egészen hihető, csak az a kérdés, hogy az a fa a kép jobb oldalán miért van télikabátban?

Végül pedig lássuk, hogyan képzelte el az MI a honfoglalást. Árpádék így jöttek be a Kárpát-medencébe, csak azt nem értjük, miért lett az árpádsávos zászló alján az utolsó csík zöld?

Az jól látszik, hogy a képeknél még elég nagy a művészi szabadsága, nem mindig tud minden részletet helyre tenni, de azért alakul a dolog. Lassan, de biztosan haladunk abba az irányba, hogy már nem kell elutaznunk Sri-Lankára azért, hogy lőjjünk ott pár nyaralós fotót, az MI majd megoldja ezt nekünk, a social media világa pedig úgyis tömbösített hazugságok folyama.

Látott valami érdekeset, izgalmasat, szokatlant? Írja meg nekünk, vagy küldjön róla fotót. Akár névtelenül, titkosított üzenetküldő rendszerünkön keresztül itt, vagy facebook messengeren ide kattintva. Esetleg emailben, itt: jelentem_KUKAC_nyugat_PONT_hu

Hozzászólások

A cikkekhez csak regisztrált felhasználóink szólhatnak hozzá. Kérjük, jelentkezzen be, vagy ha még nem tette, regisztráljon.

A szerkesztőség fenntartja magának a jogot, hogy a cikkekhez nem kapcsolódó kommenteket moderálja, törölje. A részletes moderálási szabályokért ide kattintson!

Tech