Title Stvaranje slika iz prirodnog jezika koristeći modele dubokog učenja
Title (english) Image creation from natural language using deep learning models
Author Matija Krajačić
Mentor Emil Dumić (mentor)
Committee member Mario Periša (predsjednik povjerenstva)
Committee member Emil Dumić (član povjerenstva)
Committee member Dean Valdec (član povjerenstva)
Granter University North (University centre Varaždin) (Department of Multimedia, Design and Application) Koprivnica
Defense date and country 2023-09-29, Croatia
Scientific / art field, discipline and subdiscipline TECHNICAL SCIENCES Graphic Technology Processes of Graphic Reproduction
Abstract U ovom radu će biti opisani i ispitani različiti modeli dubokog učenja za stvaranje realističnih i umjetničkih slika uvjetovanih prirodnim jezikom
Pretvorba teksta u sliku označava skup modela za stvaranje slika iz ulaznog teksta. Primjena navedenih modela može biti različita, od proširivanja korištenja računalnih botova, arhitekture, modne industrije, marketinga, umjetnosti, poslovnih primjena i drugo. Specifično, bit će objašnjeni modeli StabilityAl, DALL-E, DALL-E 2 i Imagen, bazirani na metodama dubokog učenja. Također će se opisati i transformer neuronske mreže često korištene u modelima za kodiranje teksta, kao i difuzijski modeli općenito, često korišteni u koraku generiranja slike. Opisat će se i drugi mogući zadaci modela, poput nadopunjavanja nedostajećih dijelova slike (inpainting), super-rezolucija, bezuvjetno generiranje slika, klasom uvjetovano generiranje slika i uvjetovanje bez klasifikatora. Bit će opisani i neki noviji modeli za generiranje videozapisa iz teksta.
U praktičnom dijelu rada će se analizirati neki otvoreni kodovi od objašnjenih modela za stvaranje slika iz prirodnog jezika. Usporedit će se kvaliteta generiranih slika za modele i izvesti zaključci za ograničenja koja su još prisutna kod njih. Kvaliteta slika će se usporediti koristeći bazu slika MS-COCO, pomoću nekih od postojećih objektivnih mjera vezanih za umjetno generiranje slika (Inception Score, ICS mjera, za različitost slika, Frechet Inception Distance, FID mjera, za vjernost slike i Contrastive Language-lmage Pre-training, CLIP mjera za povezanost slike i teksta).
Abstract (english) This paper will describe and evaluate different deep learning models for generating realistic and artistic images conditioned on natural language. Converting text to an image denotes a set of models for generating images from an input text. The use cases of such models can vary, from extending the use of computer bots, to architecture, fashion industry, marketing, art, business applications and more. The specific models that will be described are StabilityAI, DALL-E, DALL-E 2 and Imagen, based on deep learning methods. Additionally, the neural network transformer which is commonly used in natural language processing will be described, as well as the diffusion models in general, often used in the step of generating images. Some other tasks of the models will be described, such as inpainting, super-resolution, unconditional image generation, class-conditional image generation and classifier-free guidance. Some new text to video models will also be described.
In the practical section of the paper, some of the released codes from the described text to image models will be analysed. The quality of the generated images by the models will be compared, and conclusions will be made on the limitations that are still present. The quality of the images will be compared using the image database MS-COCO, through some of the existing objective measures related to text to image synthesis (Inception Score, for image diversity, Frechet Inception Distance, for image fidelity and Contrastive Language-Image Pre-training, for text and image similarity).
Keywords
stvaranje slika
stvaranje slika iz teksta
duboko učenje
modeli dubokog učenja
txt2img
Stable Diffusion
DALL-E
DALL-E 2
Keywords (english)
image generation
generating images from text
deep learning
deep learning models
txt2img
Stable Diffusion
DALL-E
DALL-E 2
Language croatian
URN:NBN urn:nbn:hr:122:039215
Study programme Title: Multimedia Science Study programme type: university Study level: graduate Academic / professional title: sveučilišni magistar/magistra inženjer/inženjerka multimedijske i grafičke tehnologije (sveučilišni magistar/magistra inženjer/inženjerka multimedijske i grafičke tehnologije)
Type of resource Text
File origin Born digital
Access conditions Open access
Terms of use
Created on 2024-01-08 12:06:08