Hirdetés
Hirdetés
— 2023. április 7.

Amit dob a gép? – Újratanulni a látást a mesterséges intelligencia után

A mesterséges intelligencia elérhetővé válása megosztja a témával foglalkozókatt: az egyik oldalon egyszerűsödő, könnyebb jövőt vizionálnak, a másik oldalon az emberi gondolkodás elsorvadásának és a kultúra elvesztésének lehetőségét jövendölik.

Naponta érkeznek hírek és elemzések mesterséges intelligencia által készített képekkel kapcsolatos fejleményekről és jelenségekről. A „gép” által létrehozott szövegek és képek újdonságként robbannak a köztudatba, holott a kutatások és fejlesztések már sok éve zajlanak. Két év telt el azóta, hogy a The Guardian virtuális hasábjain egy MI által írt cikk jelent meg (ebben a cikkben az AI rövidítés magyar megfelelőjét, az MI-t használjuk – a szerk.). Valamint újdonságnak hatnak azok az internetes felületek is, ahol szövegek beírásával lehet képeket generálni, jóllehet a fotografikus képi manipuláció – például a kollázs és montázs eljárása – egyidős magával a fényképezés történetével. De tekinthetők-e egyáltalán fényképeknek, vagy inkább a digitális kollázs, netán a CGI (computer generated image – számítógép által generált kép) elnevezést használjuk ezekben az esetekben? Vagy úgy felejtsük el az eddig használt fotográfiai kategóriákat, ahogy a korábbi képnézési szokásainkat és a képek igazságtartalmába vetett maradék hitünket?

DALL-E: a photograph of a summer holiday from 1977
(DALL-E: Fotó egy 1977-es nyári vakációról)

A fotográfia történetében a technológiai fejlesztések minden esetben arra irányultak, hogy minél gyorsabban és könnyebben, minél rövidebb expozíciós idővel, minél több rögzíthető és sokszorosítható fényképet lehessen elkészíteni. A bonyolult kémiai eljárások ismeretét igénylő analóg fényképezőgépektől néhány generáció alatt érkeztünk el napjaink többkamerás, internetkapcsolattal rendelkező, mobiltelefonokba épített kameráihoz. A képek termelésének gyakorlatát a mesterséges intelligencia által létrehozott ábrák még tovább fokozzák. Ebben az esetben azonban sokkal inkább a látványt le- és körülíró képességeink próbatételéről van szó, hiszen legismertebb MI alapú DALL-E program a beírt szövegek alapján készít új, korábban nem létező képeket. De milyen előzményei ismerhetők fel a digitális képalkotás e fordulatának? 

Akár ironikusnak is tartható, hogy számos kísérletezés után az analóg technikát szinte teljesen háttérbe szorító digitális fényképezőgép feltalálása a világ egyik legnagyobb filmnyersanyag-gyártó vállalata, az Eastman Kodak cég egyik alkalmazottja, Steven J. Sasson nevéhez kötődik. Az anno „kenyérpirító”-nak becézett, 3,6 kilót nyomó masinával fekete-fehér képeket lehetett készíteni 0,01 megapixel – azaz ma már nevetségesnek tűnő, tízezer pixel – felbontásban, melyeket egy mágneses szalagon tároltak.

A találmányt 1977-ben nyújtották be az Egyesült Államok szabadalmi hivatalánál. A digitális fényképezőgépekkel való kísérletezés rohamos léptékben fejlődött tovább, és újabb mérföldkövet jelentett a fotográfia mai állása szerinti legmeghatározóbb képszerkesztő és -feldolgozó szoftver, az Adobe Photoshop első verziójának 1990-es debütálása. Ettől kezdve a különféle tartalmak átalakítása és remixelése már nem kémiai folyamatok, hanem számítógépes műveletek eredményévé vált, háttérbe szorult a sötétkamra, s helyét a white lab vette át.

DALL-E: a toaster as a digital camera
(DALL-E: Kenyérpirító mint digitális kamera)

A digitális váltással a fényképeknek számos vonása megváltozott. Az elektronikus képek és fájlok esetében a korábban tárgyakként létező képek információkká, a fizikai valójukból számokkal, adatokkal leírható algoritmusokká válnak, ettől kezdve pedig matematikai műveletek végezhetők velük: kereshetőkké, elemezhetőkké, másolhatókká, továbbíthatókká, terjeszthetőkké váltak. Charlie White On <img> című írása szerint a legnagyobb változást a képek interneten való használata jelentette: az <img> számítógépes parancs megalkotásával a képek nemcsak leírhatóvá és programozhatóvá váltak, de új potenciális értékük lett, újfajta terjesztési és átalakítási lehetőségekkel.

Az <img> egy olyan globálisan használt kommunikációs eszközzé vált, amely messze meghaladta, miközben felhasználta és újrainterpretálta, analóg elődjeit, így ebből a szempontból nézve az <img>-re nem a hagyományos értelemben vett „nézés” céljából, hanem sokkal inkább mint egy értelmezendő, aktív „számítógépes műveletre” kell tekinteni. 

A feltöltött képek egyfajta „felügyelet nélküli” térben működhetnek tovább, ahol minden tartalom újragondolható és minden régi koncepció újraírható.

DALL-E: a photograph of an AI system that creates realistic artistic image from a description in natural language
(DALL-E: Fotó egy MI rendszerről, mely valósághű képeket és művészeti alkotásokat hoz létre nyelvi leírás alapján)

A DALL-E feltételezhetően ebből a felügyelet nélküli térből építi adatbázisát (és más képek részleteiből készíti az újakat), ugyanis hosszas keresés után sem lehet pontosan megtudni, hogy valójában honnan származó (képi) adatok felhasználásával hozza létre a begépelt szövegek alapján az új képeket. Az MI program megjelenése részben arra ébresztheti rá az emberiséget, hogy saját fényképeik internetes környezetbe való feltöltésének aktusával – például az egyes képekhez rendelt címkékkel, címekkel, szavakkal, helyszínek, személyek és más tényezők megjelölésével – maguk a felhasználók táplálják adatokkal és információkkal a mesterséges intelligencia adatbázisait. A digitális nyomhagyás kérdése pedig szintén nem újkeletű kérdés. „A képzelőerő már nem érkezik olyan olcsón, mint a múltban” – fogalmazta meg másfél évtizede Bruno Latour.

Habár felhasználókként eldönthetjük, hogy a közösségi oldalakra és e-mailekbe feltöltjük-e személyes, saját készítésű képeinket és tartalmainkat, példaként elég csak néhány sort elolvasnunk a Google Adatvédelmi és Általános Szerződési Feltételeiben leírt jogosultságokkal kapcsolatban, mely licenc szerint mi az, amire a Google jogosult: „Az Ön tartalmainak tárolása, többszörözése, terjesztése, megosztása és felhasználása – ilyen például a tartalmainak mentése a rendszereinkbe, amelyekhez aztán bárhonnan hozzáférhet.” Végős soron önként vállaljuk, hogy adatainkat egy gigacég gondoskodására bízzuk. Most pontosan ezért kerülnek fókuszba az MI által generált képek esetében a szerzőség, a szellemi-, felhasználói-, tulajdonjogok kérdései.


DALL-E: a photograph of an AI system that can create realistic images and art from a description
(DALL-E: MI fotó, mely valósághű képeket és művészeti alkotásokat tud létrehozni nyelvi leírás alapján)

A DALL-E által készült képek megjelenésének másik tanulsága a látás és a vizuális érzékelés újratanulására szólít fel. Mit is látunk valójában, amikor egy képet látunk? A felhasználók a digitális áramlásban megjelenő képeiket a valós látványhoz kötve korábban a „nofilter” címkével látták el, amit lassan a „noai” válthat fel, még akkor is, ha sok esetben a generált képek az 1990-es években megjelenő interaktív számítógépes játékok vizuális világát – és azok minden hibáját: oda nem illő részleteket, kifacsart alakokat, emberi torzókat – idézik meg.

DALL-E: me with my girlfriend on the seashore
(DALL-E: én a barátnőmmel a tengerparton)

Némi figyelemmel észrevehetjük azokat a rendellenes képi elemeket, az automatizálásból adódó hibákat, amelyek egyértelművé teszik, hogy a kép, amelyet látunk, nem fénykép, vagy nem ember által készített. Tanulságként szolgálhat például, hogy pár hete egy jelentős nemzetközi fotográfiai fesztivál kreatív kategóriáját a Boris Eldagsen által beküldött, de MI által készített kép nyerte el. Ha figyelmesebben megnézzük a vállakra fonódó ujjakat, a kép előterében lévő nő karját, érezhetjük, hogy valami nem stimmel. A díj nagy visszhangot keltett, többek között a Német Fotográfiai Akadémiát [Deutsche Fotografische Akademie (DFA)] is egy állásfoglalás közzétételére késztette, melyben arra kérik a fotográfusokat, hogy a hitelesség jegyében képeiket viszakövethető és ellenőrizhető módon jegyezzék.    

DALL-E: a photograph of a beautiful landscape with sunset
(DALL-E: Fénykép egy szép tájról naplementével)

A mesterséges intelligencia által létrehozott képek tehát nemcsak új jogi és ideológiai keretek felállítását teszik szükségessé, hanem arra késztetnek, hogy a képek látásának és olvasásának logikáit és gyakorlatait is gondoljuk újra. Élhetünk tehát a nemzetközi szakirodalom és szcéna kulcsfogalmává váló „unlearning” kifejezésével, mely körülírva körülbelül azt jelenti, hogy erőfeszítéseket kell tennünk ahhoz, hogy elfelejtsük az eddig megszokott módszereinket és ismereteinket ahhoz, hogy egy új (jobb?) módot találjunk valaminek a megértéséhez, vagy használatához.