Fotograf roku

Nový generátor obrazu v ChatGPT

Publikováno: 16. května 2025 | autor Jan Vojtek

Štítky

Společnost OpenAI nedávno zpřístupnila zcela nový generátor obrazů integrovaný přímo do multimodálního modelu GPT-4o. Zapomeňte na složité parametry nebo speciální příkazy – stačí popsat, co chceme vidět, a model to vytvoří. A to s neuvěřitelnou přesností, dokonalým textem v obrázcích a schopností přesně propojit objekty ve scéně.

Na rozdíl od běžných difuzních modelů nový ChatGPT generuje obrázky postupně – řádek po řádku, tzv. autoregresivním přístupem. Díky tomu zvládá mnohem lépe porozumět vztahům mezi objekty, přesně renderovat text a udržet konzistenci napříč obrázkem.

OpenAI už v lednu 2021 představila svůj text-to-image model DALL•E, který se jako první dostal do obecného povědomí. K verzím DALL•E 2 a DALL•E 3 pak již měla přístup veřejnost. S posledním modelem se otevírá nová kapitola generování obrazu. V době psaní toho článku je dokonce dostupný i neplatícím uživatelům ChatGPT.

Základní generování obrazu

Vytvořit obrázek je velice snadné. Stačí normálně vlastními slovy popsat, co chceme vidět –jako bychom to vysvětlovali fotografovi nebo grafikovi.

Pokud chceme něco změnit, stačí to napsat přirozeným jazykem.

Komplexní scény s více objekty

Jednou z nejsilnějších stránek nového modelu je schopnost správně pochopit vztahy mezi mnoha objekty, jejich vlastnostmi a pozicemi ve scéně.

Kromě scény jako takové můžeme snadno změnit i její nasvícení a model stále drží původní kompozici.

Na finální podobě fotografie se s GPT-4o prostě „domluvíme“.

Perfektní text v obrázcích

Nový generátor vytváří text, který je skutečně čitelný a přesný. To otevírá dveře pro tvorbu plakátů, pozvánek nebo log – věcí, které byly dříve u AI generátorů problematické.

Toto je praktická ukázka použití, když jsem pro naši školu potřeboval letáček. Trvalo to asi tři minuty, přičemž nejvíc času zabralo moje psaní promptu. Kdybych to dělal celé ručně, ani po třech hodinách by nebyl výsledek lepší.

Průhledné pozadí

Jednou z nových a velice praktických funkcí je schopnost vytvořit grafiku s průhledným pozadím, kterou můžeme použít na web nebo v grafických materiálech.

Úprava části obrázku

Chatováním si také můžeme vyžádat úpravu pouze některé části fotografie. V takovém případě se generátor pokusí vytvořit kopii zdrojového snímku – ještě to není dokonalé, ale to je jen otázka času....