Historik a kritik Mario Carpo nás v rozhovoru s architektem Jiřím Vítkem provází zákrutami fungování generativní umělé inteligence. Své odpovědi pak s vypravěčskou bravurou ilustruje příběhy o psech a vážkách, robotech a řemeslnících, pravidlech a precedentech.
Do širšího povědomí jste vstoupil díky svým knihám zaměřeným na téma digitální revoluce, nazvaným Digitální obrat v architektuře 1992–2012 a Druhý digitální obrat. Přinášíte v nich zásadní vhledy do vývoje architektonického myšlení a metodologie. Před rokem vyšla vaše zatím poslední kniha, Po digitalizaci: Design a automatizace na sklonku modernity. Překvapil vás některý z nově vyvinutých nástrojů výpočetní techniky?
Co na to říct? Mou poslední knihu jste sám četl. Je v ní dokonce jedna kapitolka nazvaná „Pardon, žádný třetí digitální obrat způsobený AI nebude“. Ta kapitola má asi jen pět nebo šest stránek a psal jsem ji na jaře 2022, těsně před masivním nástupem jazykových modelů a GPT.1 V té době jsem znal pouze GAN2, takže jsem psal o nich a o jejich technické logice. Všechno jsem znal víceméně z dlouholeté práce Matiase del Campo, průkopníka v oblasti využití GAN.
Období, kdy jsem tuto kapitolu psal, se téměř přesně krylo s masivním nástupem umělé inteligence velkých jazykových modelů, tedy GPT. GPT je založen na velkých jazykových modelech, modelech CLIP a difuzních modelech.3 Má sice poněkud jinou technickou logiku než GAN, ale to jsme věděli. Velké jazykové modely, které se objevily v létě 2022, jako DALL-E nebo Midjourney, byly založeny na převodu textu na obraz. Bylo kolem nich obrovské haló a ze dne na den je začali používat i všichni naši studenti. Ale pak, na podzim 2022, přišel ChatGPT, který využívá stejnou technickou logiku, ale ne ve směru text–obraz, ale text–text. Je to chatbot. Tou dobou už však má kniha opouštěla tiskárnu a já v ní nemohl nic změnit. Svůj názor jsem ale také nezměnil – tím myslím názor na rozšíření logiky GAN z datasetu (neboli datové sady) vytvořeného na míru. U GAN si totiž dataset tvoříme sami. U velkých jazykových modelů si jej – už z principu – netvoříme. Dataset velkého jazykového modelu je obrovský, obecný, ukradený z internetu, a zároveň propojuje text a obraz.
GAN je vlastně technologie pro automatizaci imitace. Vytvoříte si v ní dataset z pečlivě vybraných prvků – například tisíc obrázků psů s bílou srstí a černými čumáky. Systém tedy bude znát jen bílé psy s černými čumáky. Latentní prostor pak ducha tohoto datasetu formalizuje pomocí vektorové matematiky a dalších nástrojů. Pak tomuto systému ukážete nový obrázek a zeptáte se: Je to pes? A když to bude bílý pes s černým čumákem, tak stroj odpoví, že ano. Pokud bude mít pes jinou barvu, řekne stroj: Ne tak docela, pravděpodobnost je asi 50 %. To je příklad analytické práce. Výsledkem generativní práce jsou pak nové obrázky psů – imitace, na kterých budou mít všichni psi bílou srst a černý čumák. Pak tu máme ještě třetí způsob práce a to je kombinování různých datasetů – čili princip přenosu stylu. Zkombinujete dataset bílých psů s datasetem šedých kojotů a při různých procentuálních zastoupeních vytvoříte například hybrid, který bude z 80 % bílý pes a z 20 % šedý kojot. Také můžete přenést styl celého datasetu na jediné individuum. Vezmete si například obrázek jednoho psa a aplikujete na něj dataset, který jste vytvořili.
Můžeme si představit příklad architektonické kanceláře, která má archiv svých prací a chce, aby se stroj naučil její specifický styl. Tedy pokud nějaký má – existují i kanceláře, které vůbec žádný styl nemají. Ale dejme tomu, že tuto logiku uplatníte na kancelář, která má na první pohled rozpoznatelný styl – podíváte se na budovu a hned víte, že to nemohl dělat nikdo jiný než, řekněme, Wolf Prix. Padesát let jeho architektonické práce spojuje konzistentní styl – a takový styl se GAN dokáže naučit. A co se dokáže naučit, to dokáže replikovat. Což může být někdy velmi užitečné. V rámci obecné ekonomiky architektonické praxe vidím hodně případů, kde vám tato technologie dokáže ušetřit spoustu času. Můžete třeba hned na první schůzce ukázat klientovi, jak by určitá zakázka vypadala, kdybyste ji navrhli ve svém stylu. Před pěti lety by vám příprava zabrala měsíc, zatímco dneska máte hotovo za minutu, protože imitace vašeho stylu je přesně to, co tato technologie umí dokonale.
Ovšem u velkých jazykových modelů typu text–obraz, které začaly být populární v létě 2022, hrajeme poněkud jinou hru, protože tam si dataset netvoříme sami. Datasetem je zde velký jazykový model. Je obrovský a obecný. Nevíte a nikdy se nedozvíte, co v něm všechno je, protože se skládá ze všech možných dostupných zdrojů. Uvedu typický příklad, který používám na přednáškách: když modelu zadáte heslo „Švýcarsko“, zobrazí vám krajinu, která neexistuje – její podoba bude ale založena na sloučení a zprůměrování milionu obrázků také označených „Švýcarsko“. Co vám takový výsledek řekne? Že takto si Švýcarsko představuje většina lidí, kteří nahráli obrázek ze Švýcarska na instagram. Je to automatizovaný průzkum veřejného mínění. Jako architektovi je vám ale veřejné mínění většinou k ničemu. Vy potřebujete něco architektonicky relevantního. Generované výsledky jsou příliš generické, aby se daly prakticky využít. Když například zadáte „Le Corbusier“, výsledek se Le Corbusierově práci moc podobat nebude. Dataset jeho děl dostupných na veřejném internetu totiž není moc velký, na většinu vyobrazení Le Corbusierových realizací se vztahují autorská práva. Pokud tedy budete chtít modely využívat profesionálně, musíte to udělat jako u starých dobrých GAN. Vytvořte si vlastní dataset, teprve s ním bude možné dosáhnout kýžených výsledků.
Podle všeho se teď experimentuje s novou technologií, která by měla umožňovat využití vlastního datasetu v kombinaci s velkým jazykovým modelem. A měli bychom mít možnost si vybrat, v jakém poměru je zapojíme. Dejme tomu, že zvolíme kombinaci 80 % specificky vytvořeného datasetu a 20 % velkého jazykového modelu – to by mohlo být v některých případech šikovné řešení.
Matias del Campo nebo Daniel Bolojan vytvářejí při práci vlastní datasety, které jsou velmi konzistentní a v jednotném formátu. Běžní architekti jsou často příliš pohodlní na to, aby vytvářeli vlastní datasety, a proto raději používají přednastavené nástroje…
Pokud používáte velký jazykový model, bude výsledkem crowdsourcovaný průzkum veřejného mínění. To je užitečné, pokud děláte marketing. Když například chcete navrhnout obal na novou značku čokolády a nepotřebujete nic bizarního nebo převratně kreativního. Chcete prostě obrázek, který se bude líbit většině lidí. Pokud děláte marketing, může vám velký jazykový model pomoci. A co si budeme povídat, někteří architekti vlastně marketing dělají.
Když se však architektura cyklí na datasetu obecného jazyka, už nelze pracovat tak, jak tvořil třeba Le Corbusier. Práce Le Corbusiera nebo Miese van der Rohe byla všechno, jen ne generická.
A proč neupadli v zapomnění? Právě proto, že inovovali – určitě ne proto, že by byli zdatnými imitátory. Dnes se všichni architekti odkazují na precedent. To je nevyhnutelné. Pokud budete ale jenom napodobovat precedent, stanete se tuctovými a vaše práce s precedentem splyne. Inteligentní architekti odkazují na precedent svým vlastním, unikátním způsobem. Tak to ostatně dělali všichni slavní architekti. Dokážete u nich říct, z čeho vyšli, ale vidíte i to, co přidali – něco, co před nimi neexistovalo.
To je přesně problém softwarů jako Autodesk Forma a automatizovaných architektonických návrhů. Půdorys vám sice nakreslí za pár vteřin, ale nové řešení nepřinesou.
Je to tak, ale právě proto, že tyto systémy nemají sémantiku. Stručně řečeno, systém generativní AI není založen na pravidlech. Generativní AI je založena na vyhledávání, seskupování a průměrování precedentů. Umělé inteligenci, třeba ChatGPT, můžete například zadat, aby spočítala, kolik je desetkrát deset nebo deset na druhou. Dnes už mají AI nástroje zabudovanou kalkulačku, ale kdyby to teoreticky byla čistá generativní AI, nepočítala by podle pravidel, která se učíme ve škole. Vyhledala by archiv všech předchozích výpočtů a řekla by: Statisticky existuje společenský konsenzus, že ve většině případů se desetkrát deset rovná 100. Podle toho, co vidím na internetu, toto násobení provedl milion lidí a všichni říkají, že výsledek je 100. Je tam i pár chyb, takže statisticky je výsledek pravděpodobný na 99,99 nebo 100 %. To ale není výpočet, je to průzkum.
Anebo si vezměte jako příklad nás architekty. Co děláme? Kreslíme na jeden výkres půdorys, pohled a řez ve stejném měřítku. To dokáže každý desítky let starý CAD software založený na pravidlech a geometrickém zobrazení. Dobrý CAD umí na základě půdorysu, pohledu a řezu zkonstruovat axonometrii a různé perspektivy. Všechno je založeno na geometrických pravidlech, která jsme se učili ve škole – a ta jsou převedena do vzorců. Je to matematika. Ale když požádáte generativní AI, aby udělala půdorys, pohled a řez, bude hledat precedent. Bude se snažit najít nějaký takový obrázek, který už byl někdy v minulosti publikovaný – a dost pravděpodobně žádný nenajde. Výsledek tedy bude zmatečný, protože tento model není založen na pravidlech.
Ze své zkušenosti mohu říct, že je opravdu třeba kombinovat generativní modely založené na pravidlech s modely založenými na AI, protože tak si vlastně vytváříme vlastní precedenty.
Pokud to má pravidla, použijte CAD. Pokud potřebujete pracovat s precedentem, vezměte si k ruce generativní AI – ale mějte na paměti, že vám najde jen to, co už do datasetu vložil někdo jiný.
Viděl jsem příklad chytrého využití umělé inteligence. Pro generativní model založený na pravidlech byl daný úkol příliš složitý – jedna iterace trvala asi 10 sekund. Takže vygenerovali asi 2 000 obrázků, na základě kterých už byli schopni něco předvídat, a pak využili AI. Na modelu založeném na pravidlech vygenerovali vlastní dataset a použili jej pro další výpočty.
Jde o to, abychom znali technickou logiku nástrojů, které používáme, a pak je používali ke správnému účelu. Generativní AI je jen dalším nástrojem, který v některých oblastech dokáže neskutečné věci, zatímco v jiných – třeba ve vědeckých výpočtech – je úplně mimo, protože to prostě není jeho doména.
V modelech založených na pravidlech či parametrech byl problém v tom, že vždy nějaké pravidlo chybělo. Měříme vzdálenosti, objemy, sluneční záření… Ale u umělé inteligence, když například vytváříme datasety z obrázků, máme obrovské množství dat a ne vždy rozumíme všem vzorcům, protože analýzu za nás provádí stroj. Umím si představit, že bych propojil přírodní systém s umělým, třeba ve StyleGAN nebo jiném generativním modelu, a mohl bych tím objevit něco nového. Podobně jako to dělá Daniel Bolojan. Posunout architekturu o krok dál, i když je to stále velmi experimentální.
To už se dostáváme k vědečtějšímu využití generativní umělé inteligence – například pro výpočet teploty slunce a podobně. GAN byly původně vytvořeny jako technologie, které dovedou manipulovat obrazy, což je také důvod, proč je začali tak masivně využívat právě architekti. Vezměme si ale data obecně. Některé výpočty jsou založené na pravidlech a ty pak fungují. Co když ale pravidla nelze jednoduše formalizovat – například v oblastech bez pravidel nebo ve vědních oborech, kde formalizace s použitím tradičních matematických nástrojů není možná?
Rád zmiňuji jeden příklad – najdete jej v mých posledních publikacích. Několik studentů, myslím, že z univerzity Tchungťi v Šanghaji, před pár lety využilo generativní AI k napodobení křídel vážky. Vážky mají velice složitá, ale evidentně velice výkonná křídla. Z technického pohledu jsou hotový zázrak. Jenže když zadáte inženýrovi, aby vypočítal tvar křídel vážky, tak to nedokáže, ani kdyby použil pokročilý model analýzy konečných prvků. Studenti tedy sestavili dataset milionu příkladů křídel vážky a použili GAN, aby vygenerovala jejich imitace. Uvažovali takto: imitace můžeme nechat běžet donekonečna. Počkáme, dokud některá nebude mít tvar, který by se dal použít pro křídla letadel – pak bychom totiž dostali dokonalý tvar křídla letadla nebo helikoptéry, jaký ještě žádný inženýr nevypočítal. Inženýra je pak necháme překontrolovat. Tento proces označujeme jako učení imitací, učení z příkladu nebo přenos znalostí. Vybudujete dataset, který představuje určité know-how, a tuto znalost, které nelze dát formální podobu, přenesete do jiné oblasti podobným způsobem, jako by to intuitivně udělal třeba řemeslník. Čili vy zadáte stroji, aby svým způsobem formalizoval nevyslovenou znalost, což je přesně to, co dělali umělci a řemeslníci ještě předtím, než byli vynalezeni inženýři.
Dobře, řekněme tedy, že takový dataset máme. Kdo je ale jeho autorem?
To, jak mají fungovat autorské poplatky v oblasti generativní umělé inteligence, dnes nikdo neví. Právníci se kvůli tomu přou a soudí. Například New York Times zažalovaly OpenAI s tímto argumentem: „Využili jste naše archivy pro trénování svých modelů – my teď za to chceme peníze.“ A OpenAI na to: „Neudělali jsme nic jiného než kdokoli, kdo si koupil vaše noviny a přečetl si je. Zaplatili jsme předplatné a přečetli si vaše články a teď si s tím můžeme dělat, co budeme chtít. Žádné noviny jsme neukradli. A vám může být ukradené, co uděláme s tím, co jsme se z vašich článků dozvěděli.“ Je to tedy celé dost komplikované.
Řekněme, že jste malíř a jdete se podívat do Louvru. Zaplatíte vstupné, díváte se na umění a pak uvidíte obraz, který ovlivní celou vaši další tvorbu. Znamená to, že máte Louvru do smrti platit tantiémy? To je přece vaše věc, co si z toho odnesete. Tak by přece muzea měla fungovat: člověk by se v nich měl dívat, učit se a pamatovat si.
Má poslední otázka se týká technologií AI a výroby. S tímto modelem bychom totiž mohli udělat ohromný pokrok ve výrobních metodách.
Zkusme situaci dovést ad absurdum a představme si následující scénář: žijete v horské vesnici, kde jsou všechny domy postaveny z nasucho kladeného zdiva. Stavělo se tam tak od nepaměti. Zedníci věděli, jaké kameny najdou na pastvinách, protože je museli sami odstraňovat. Pastviny jsou totiž pro krávy a ty se potřebují volně pást. Nechcete, aby si rozbily čumák o kámen, a tak ty kameny sbíráte a raději z nich něco postavíte. Místní zedníci takto stavějí už 1 500 let. A teď si představte, že máte na stavbě robota, který umí to samé co místní zedník. Naskenuje okolí, vyhledá nejvhodnější balvany, geometricky je naskenuje, rozhodne, který si vybere a jak zapadne do zdi. Jak robot ví, který je ideální tvar či způsob nasucho kladené zdi? Ví to pouze z datasetu všech suchých zdí, které ve vaší vesnici byly postaveny v posledních patnácti stoletích. Váš robot má v sobě zabudované znalosti padesáti generací místních zedníků, kteří pracovali určitým způsobem. Bude stavět suché zdi, aniž by znal jediné pravidlo – bude jen replikovat, co se naučil z místního datasetu příkladů. Takže tu máme plnou automatizaci, robotickou stavbu a jen tak mimochodem nulovou uhlíkovou stopu, protože využíváme kámen tam, kde ho najdeme. A takto můžeme v robotické automatizaci využít generativní AI k nastavení procesů, které nelze jednoduše formalizovat.
Bude to možná extrémní příklad, ale existuje celkem nová doktorská práce z ETH v Curychu, kde využili velkého robota, aby sbíral balvany na stavbu hrází. Tento projekt začal ještě před vynálezem generativní AI, takže do něj původně chtěli zakomponovat geometrická pravidla. Ale pak zjistili, že dataset všech přehrad, které byly do té doby postaveny z balvanů, funguje lépe než geometrie. Zde tedy generativní umělá inteligence nahradila matematické inženýrství díky transferu znalostí ukotvených v krajině. Pokud se v určitém regionu něco dělá 2 000 let, má to asi dobrý důvod. Proč v tom nepokračovat? A pokud už neexistují místní řemeslníci, lze je nahradit robotem s využitím stejné „mentality“. Imitace, transfer znalostí, replikace – tento druh učení může někdy nahradit inženýrství. Na druhou stranu, pokud už existují pravidla, měli bychom je využívat. Je to levnější než se učit z milionu precedentů. Pokud máte jedno matematické pravidlo na tři řádky, poslouží vám pravděpodobně lépe než dataset s miliardou příkladů.
Rozhovor proběhl 27. srpna online.
1 Generative Pre-Trained Transformer neboli generativní předtrénovaný transformátor je typ velkého jazykového modelu navržený společností OpenAI tak, aby generoval text na základě přijatého vstupu. Je předem trénován na rozsáhlém korpusu textových dat, což mu umožňuje imitovat lidský styl psaní nebo mluvení. První veřejně dostupnou verzí byl GPT-3, následován GPT-3.5, který byl trénován na datech do roku 2021. V placené verzi je dostupná robustnější verze GPT-4, která má i přístup k internetu. V nejbližší době se očekává 5. verze.
2 GAN neboli generativní adverzní síť (Generative Adversarial Network) je technika pro trénování stroje k provádění složitých úkolů prostřednictvím generativního procesu měřeného proti sadě trénovacích obrázků. GAN se skládá ze dvou modelů: generátoru a diskriminátoru, které proti sobě soutěží. Generátor má za úkol vytvářet nová data, která se snaží napodobit reálné tréninkové vzory, jako například obrázky. Diskriminátor dostává na vstup jak skutečná data, tak data generovaná generátorem a jeho úkolem je rozlišit, která data jsou reálná a která falešná (generovaná). Cílem generátoru je oklamat diskriminátor, aby nerozpoznal, že generovaná data nejsou skutečná. Diskriminátor se naopak neustále zlepšuje v rozlišování mezi reálnými a generovanými daty. Tento proces se opakuje a obě části sítě se neustále zlepšují. Nakonec generátor dosáhne bodu, kdy je schopen vytvářet velmi realistické výstupy, které mohou být nerozeznatelné od skutečných dat.
3 LLM (Large Language Model) je označení pro velký jazykový model, který je trénován na obrovském množství textových dat a využívá hluboké učení k tomu, aby rozuměl přirozenému jazyku a generoval smysluplné odpovědi. Tyto modely mají obrovský počet parametrů (v řádech miliard až bilionů), což jim umožňuje zachytit složité jazykové struktury, kontext, a dokonce vykazovat určité „vědomosti“. Zásadní schopností LLM je učení se kontextu skrze hledání vztahu mezi daty. LLM tedy pracuje s významy slov kontextuálně a jakoby odpovídá na otázku: Co by se slušelo říct v této situaci? Tím LLM vytváří dojem porozumění i přes absenci skutečného vědomí.
Difuzní modely se používají k syntéze dat, jako jsou obrazy, zvuky nebo text. Jejich vývoj navazoval na vývoj modelu GAN a nabízel kvalitativní zlepšení mnoha jeho schopností. Během tréninkové fáze difuzní modely fungují na principu postupného přidávání náhodných změn („šumu“) do dat (například obrázků) a následného „zpětného“ procesu, kdy se šum z dat odstraňuje, aby se obnovila původní struktura. Tento postup napodobuje proces difuze v přírodě, kde se látka šíří z oblastí s vysokou koncentrací do oblastí s nižší koncentrací. Difuzní modely začínají se zcela náhodným šumem a postupně jej upravují tak, aby se z něj stala struktura odpovídající tréninkovým datům, např. realistický obrázek. Nejznámějšími příklady difuzních modelů jsou DALL-E nebo Midjourney, které generují realistické obrázky na základě textového příkazu, tzv. promptu.
CLIP (Contrastive Language-Image Pre-Training) je typ neuronové sítě trénované na různých dvojicích textu a obrazu.
Mario Carpo (*1958, Vercelli, IT) je historik a kritik architektury, působící v současné době jako profesor historie architektury na Škole architektury Bartlett v Londýně a také jako emeritní profesor teorie architektury na vídeňské Angewandte. Studoval architekturu na Florentské univerzitě a posléze dějiny na Evropském univerzitním institutu ve Florencii a dějiny umění ve Francii. Ve své výzkumné a publikační činnosti se zaměřuje především na období raného modernismu a na teorii a kritiku současného designu a technologií. Kromě odborných článků a esejí vydal i řadu knižních publikací, z nichž nejnovější jsou Digitální obrat v architektuře 1992–2012 (The Digital Turn in Architecture 1992–2012, John Wiley & Sons, 2013), Druhý digitální obrat (The Second Digital Turn, MIT Press, 2017) a Po digitalizaci: Design a automatizace na sklonku modernity (Beyond Digital: Design and Automation at the End of Modernity, MIT Press, 2023). www.mariocarpo.com
Jiří Uran Vítek (*1979) je architekt a výzkumník zaměřující se na digitální architekturu, zkoumající konceptuální a ontologické aspekty tohoto oboru. Studoval stavební inženýrství a architekturu na VUT v Brně a později na vídeňské Angewandte pod vedením Zahy Hadid a Haniho Rashida. Vyučoval na Fakultě architektury VUT v Brně, v současnosti působí na Fakultě umění a architektury TU v Liberci v rámci Lab for Informed Architecture. Jeho práce zahrnuje jak akademickou, tak tvůrčí praxi, ve které zkoumá souhru mezi racionalitou a intuicí, stejně jako inovativní strukturální koncepty. Věnoval se vývoji architektury pro 3DCP a v současnosti působí jako kreativní ředitel ve studiu CHYBIK+KRISTOF.
Odešlete e-mailem zpět »
ERA21 vydává ERA Média, s. r. o. |
|
|
Telefon: +420 530 500 801 E-mail: redakce@era21.cz |
|
| WEBdesign Kangaroo group, a.s. |