Dalí, nebo Dall-E? Když umělá inteligence tvoří umění

Co je to umění? Odpovědí na tuto otázku si nebyli jistí ani filozofové ve starověkém Řecku. A to jim do plamenných diskuzí tenkrát nevstupovala umělá inteligence ani nástroje jako DALL-E 2 nebo MidJourney, které posouvají hranice lidské kreativity.

Ještě donedávna platilo, že umění a jemu příbuzné kreativní obory jsou výlučně lidskou záležitostí. To se ale díky pokrokům ve vývoji umělé inteligence rychle mění. Stále jde z velké části o věc, kterou člověk ovlivňuje – když AI algoritmy generují výtvarná či literární díla, dělají tak na základě vstupních dat vybraných a vytvořených člověkem. Co se ale děje v hlubinách algoritmů, to už je něco, čemu dnes leckdy nerozumí ani ti nejpovolanější. I proto algoritmy vytváří umění sice známé, tedy v rozpoznatelném stylu, ale přesto zcela jedinečné.

Produkt umělé mysli

Aukční dům Christie’s před pár lety prodal první obraz vytvořený umělou inteligencí: rozmazaný obličej nazvaný Edmond de Belamy. Konečná cena? 432 500 dolarů, tedy v přepočtu něco přes 10 milionů korun. Počítačové umění tak už není jen inovativní experiment, ale reálný byznys, který zajímá sběratele umění.

U každého generátoru fungují algoritmy jinak, a přesný proces vzniku taková AI díla není často není znám. Třeba v případě portrétu Edmond de Belamy vzalo několik pařížských malířů tisíce reálných portrétů z historie umění a využilo je jako datový základ, na němž následně natrénovali algoritmy. Ten si poté umělecká data vyložil z části podle svého, a vytvořil tak unikátní portrét.

To je ta fascinující část: ta chvíle, kdy se do algoritmu vloží data a instrukce, a algoritmus se už následně učí sám. Proto je strojové učení, či konkrétněji hluboké učení, natolik revoluční technikou – nejde jen o to, jaká vstupní data má algoritmus k dispozici, ale také, jak s nimi přesně naloží.

Snaha využít AI v umění není ani zdaleka nová. Jeden z prvních projektů tohoto typu, systém AARON vyvinutý Haroldem Cohenem, vznikl už na konci šedesátých let minulého tisíciletí. Tento typ programu byl ale „klasickým“ algoritmem: jednalo se o program, který dostal data a instrukce, které poté přesně následoval.

Až dnes umí vývojáři napsat algoritmy, které se učí konkrétnímu druhu estetiky pomocí analýzy tisíců vstupních obrazů a následně z nich generují nové obrázky ve stylu, který se naučily. Proto můžete u MidJourney nebo DALL-E 2 a dalších programů vidět sice velmi rozdílné, ale stylově podobné výsledky – dané algoritmy si ze vstupních dat a sofistikovaných pravidel totiž určily celkovou estetiku, kterou se následně při generování obrázků řídí.

Tedy, většinou. Občas to moc nefunguje, což je dáno limity, které stanovují současné metody strojového učení. Ty se však budou dál zlepšovat, což je nakonec jejich účelem.

𝒎𝒊𝒏 𝑮 𝒎𝒂𝒙 𝑫 𝔼𝒙 [𝒍𝒐𝒈 𝑫 (𝒙))] + 𝔼𝒛 [𝒍𝒐𝒈(𝟏 − 𝑫(𝑮(𝒛)))],
Portrait of Edmond de Belamy, from La Famille de Belamy (2018). Courtesy of Christie’s Images Ltd.; 

Hluboké učení, neuronové sítě a “kreativní” algoritmy

Většina starších, ačkoli reálně jen pár let, i značná část novějších generátorů umění využívá takzvané generativní adverzní sítě neboli Generative Adversarial Networks (GAN). Ty se poprvé objevily teprve v roce 2014 a platí za jedny z nejpokročilejších modelů strojového učení. Mimo jiné představují také znatelnou hrozbu například v oblasti dezinformací díky tomu, jak snadno umožňují tvorbu takzvaných deepfakes.

Uveďme si na příkladu, jak algoritmy založené na modelu GAN fungují. Řekněme, že umělec-programátor vloží ve fázi trénování do algoritmu tisíce maleb krajiny od různých autorů a v různém stylu. Algoritmus tato vstupní data zpracuje, zanalyzuje je dle instrukcí a následně vytvoří širokou škálu výstupních obrázků.

Programátor poté pomáhá algoritmu vybírat, které výstupy jsou nejvhodnější a které dále využít. Ruka programátora je zde velmi výrazná, v zásadě jde o podobný proces jako u modelu učení s učitelem.

Novější programy jsou pak často postaveny na technologii VQGAN+CLIP, kterou využívá například generátor NightCafe Creator, jedna z nejpopulárnějších aplikací v oblasti generování AI umění. Ve stručnosti jde o dva různé algoritmy strojového učení, které společně pomáhají vytvořit obrázek založený na textovém vstupu. VQGAN je neuronová síť založená na modelu GAN, a CLIP je rovněž neuronová síť, která zde vlastně nahrazuje vstup člověka sama posuzuje, jak dobře textový vstup odpovídá generovanému obrázku. Odstraňuje se tím další vrstva lidského vstupu, a umění se tak skutečně postupně robotizuje.

Co umí který AI generátor umění? 

Night Cafe

V případě Night Cafe nejprve zadáte textový vstup, dále vyberete požadovaný styl, a nakonec kliknete na tlačítko Vytvořit. A za chvíli je hotovo. V našem experimentu jsme zkusili, jak podle AI vypadá vlaková stanice v kouzelném lese – to vše v estetice steampunk.

Obrázky vytvořené pomocí Night Cafe jsou jednoduché, ale líbivé, a program lze využít částečně zdarma. Pracuje na systému kreditů, které lze generovat různými způsoby. Jedná se o jednu z nejpřístupnějších forem moderních generátorů obrázků. 

DALL-E 2

Dnes už profláknutý program, který ale patří mezi naprostou elitu. Jen je těžké se k němu reálně dopracovat – musíte se registrovat na čekací listinu a není jasné, jak rychle se k aplikaci dostanete. Autor tohoto článků je “na čekačce” už přes měsíc.

DALL-E 2 je opravdu působivý, a dokáže výsledné umění upravovat dle požadavků uživatele. Dokáže také generovat fascinující škálu variancí na originální vstupní obraz, mnohdy skutečně neobvyklým způsobem.

Midjourney

Midjourney funguje velmi podobně jako DALL-E, a na rozdíl od něj je služba dostupná částečně i v bezplatné verzi. Uživatel musí zaplatit, pokud chce Midjourney používat pravidelně.

Zároveň není tak snadné umění vytvářet, především k tomu totiž potřebujete účet na chatovací službě Discord a porozumět základním příkazům pro boty. Výsledek ale stojí za to . Midjourney produkuje konzistentně krásné, často dosti abstraktní výsledky.

Wombo Dream

Nejpřístupnější ze všech námi odzkoušených služeb, Wombo Dream je nesmírně jednoduchá aplikace na použití, a dokáže dosáhnout velmi dobrých výsledků. Právě aplikace Dream jsou momentálně plné sociální sítě jako TikTok nebo Twitter. Tam nedosáhla mateřská firma Wombo popularity poprvé – kanadská společnost se totiž specializuje na vytváření zábavných deepfakes ze selfíček.

Problémem služby jsou ale zvláštní smluvní podmínky. Doporučujeme v tomto případě postupovat s opatrností, především pokud hodláte AI generované umění používat ke komerčním účelům nebo kdekoli veřejně.

Stable Diffusion

Open-source projekt Stable Diffusion umí generovat naprosto fantastické výsledky, prozatím je však určen především pro schopnější laiky. Jeho zprovoznění na vlastním počítači není jednoduché a vyžaduje pořádný hardware.

Až ale přijde na světlo světla první uživatelsky přívětivá verze, lze očekávat, že právě Stable Diffusion se stane jednou z nejpopulárnějších služeb svého druhu. Pro generování obrázků využívá masivní data set LAION-5G složený z více než 5 miliard veřejně přístupných obrázků z internetu. Mezi jeho běžné zdroje patří Pinterest, DeviantArt i různé knihovny jako Getty Images.