Naslov Stvaranje slika iz prirodnog jezika koristeći modele dubokog učenja
Naslov (engleski) Image creation from natural language using deep learning models
Autor Matija Krajačić
Mentor Emil Dumić (mentor)
Član povjerenstva Mario Periša (predsjednik povjerenstva)
Član povjerenstva Emil Dumić (član povjerenstva)
Član povjerenstva Dean Valdec (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište Sjever (Sveučilišni centar Varaždin) (Odjel za multimediju) Koprivnica
Datum i država obrane 2023-09-29, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Grafička tehnologija Procesi grafičke reprodukcije
Sažetak U ovom radu će biti opisani i ispitani različiti modeli dubokog učenja za stvaranje realističnih i umjetničkih slika uvjetovanih prirodnim jezikom
Pretvorba teksta u sliku označava skup modela za stvaranje slika iz ulaznog teksta. Primjena navedenih modela može biti različita, od proširivanja korištenja računalnih botova, arhitekture, modne industrije, marketinga, umjetnosti, poslovnih primjena i drugo. Specifično, bit će objašnjeni modeli StabilityAl, DALL-E, DALL-E 2 i Imagen, bazirani na metodama dubokog učenja. Također će se opisati i transformer neuronske mreže često korištene u modelima za kodiranje teksta, kao i difuzijski modeli općenito, često korišteni u koraku generiranja slike. Opisat će se i drugi mogući zadaci modela, poput nadopunjavanja nedostajećih dijelova slike (inpainting), super-rezolucija, bezuvjetno generiranje slika, klasom uvjetovano generiranje slika i uvjetovanje bez klasifikatora. Bit će opisani i neki noviji modeli za generiranje videozapisa iz teksta.
U praktičnom dijelu rada će se analizirati neki otvoreni kodovi od objašnjenih modela za stvaranje slika iz prirodnog jezika. Usporedit će se kvaliteta generiranih slika za modele i izvesti zaključci za ograničenja koja su još prisutna kod njih. Kvaliteta slika će se usporediti koristeći bazu slika MS-COCO, pomoću nekih od postojećih objektivnih mjera vezanih za umjetno generiranje slika (Inception Score, ICS mjera, za različitost slika, Frechet Inception Distance, FID mjera, za vjernost slike i Contrastive Language-lmage Pre-training, CLIP mjera za povezanost slike i teksta).
Sažetak (engleski) This paper will describe and evaluate different deep learning models for generating realistic and artistic images conditioned on natural language. Converting text to an image denotes a set of models for generating images from an input text. The use cases of such models can vary, from extending the use of computer bots, to architecture, fashion industry, marketing, art, business applications and more. The specific models that will be described are StabilityAI, DALL-E, DALL-E 2 and Imagen, based on deep learning methods. Additionally, the neural network transformer which is commonly used in natural language processing will be described, as well as the diffusion models in general, often used in the step of generating images. Some other tasks of the models will be described, such as inpainting, super-resolution, unconditional image generation, class-conditional image generation and classifier-free guidance. Some new text to video models will also be described.
In the practical section of the paper, some of the released codes from the described text to image models will be analysed. The quality of the generated images by the models will be compared, and conclusions will be made on the limitations that are still present. The quality of the images will be compared using the image database MS-COCO, through some of the existing objective measures related to text to image synthesis (Inception Score, for image diversity, Frechet Inception Distance, for image fidelity and Contrastive Language-Image Pre-training, for text and image similarity).
Ključne riječi
stvaranje slika
stvaranje slika iz teksta
duboko učenje
modeli dubokog učenja
txt2img
Stable Diffusion
DALL-E
DALL-E 2
Ključne riječi (engleski)
image generation
generating images from text
deep learning
deep learning models
txt2img
Stable Diffusion
DALL-E
DALL-E 2
Jezik hrvatski
URN:NBN urn:nbn:hr:122:039215
Studijski program Naziv: Multimedija Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: sveučilišni magistar/magistra inženjer/inženjerka multimedijske i grafičke tehnologije (univ. mag. ing. techn. graph.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2024-01-08 12:06:08