Naslov Modeliranje bioloških sekvenci dubokim neuronskim mrežama
Autor Ana Paliska
Mentor Tomislav Šmuc (mentor)
Član povjerenstva Tomislav Šmuc (predsjednik povjerenstva)
Član povjerenstva Vedran Čačić (član povjerenstva)
Član povjerenstva Josip Tambača (član povjerenstva)
Član povjerenstva Tomislav Pejković (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Prirodoslovno-matematički fakultet (Matematički odsjek) Zagreb
Datum i država obrane 2018-03-02, Hrvatska
Znanstveno / umjetničko područje, polje i grana PRIRODNE ZNANOSTI Matematika
Sažetak Informacije o primarnoj strukturi proteina koriste se kao ulazni podaci u mnogim klasifikacijskim problemima iz područja biologije. Pri tome se značajke standardno konstruiraju uprosječivanjem svojstava aminokiselina u sekvenci. Međutim, u takvoj reprezentaciji gube se informacije o slijedu aminokiselina u sekvenci. Umjesto ručnog konstruiranja značajki koje zahtijeva dodatno vrijeme te poznavanje specifičnog problema koji se rješava, duboke neuronske mreže omogućavaju automatsko učenje reprezentacije u obliku realnog vektora fiksne dimenzije. Takve reprezentacije mogu se koristiti za rješavanje različitih klasifikacijskih problema. Budući da danas raspolažemo velikim brojem sekvenciranih genoma, taj pristup je iznimno prikladan za proteinske sekvence. U ovom radu bavimo se modeliranjem realnih vektorskih reprezentacija proteinskih sekvenci kroz nekoliko faza. U prvoj fazi proteinske sekvence dijelimo u sekvence trigrama aminokiselina i povezujemo problem traženja reprezentacija trigrama s problemom traženja reprezentacija riječi koristeći metode word2vec i Glove. Naučene reprezentacije trigrama koristimo u drugoj fazi za treniranje dvosmjerne LSTM rekurentne mreže na problemu prepoznavanja originalne od permutirane sekvence. U tu svrhu definiramo tri različita načina permutiranja koji odgovaraju različitoj težini problema. Na problemu razlikovanja stvarne od permutirane sekvence, rekurentna mreža s Glove reprezentacijama trigrama postigla je visoku točnost (> 93 %) već nakon 30 epoha. Za razliku od Glove reprezentacija, word2vec je postigla nešto lošije rezultate (> 72 %). Skriveni sloj LSTM mreže odgovara reprezentaciji sekvence koju smo zatim usporedili s reprezentacijama dobivenih sumom reprezentacija trigrama. U zadnjoj fazi, testirali smo kvalitete dobivenih reprezentacija na tri različita klasifikacijska problema: problemu predviđanja familije proteina, razlikovanja termofilnih od netermofilnih proteina te predviđanju klase ribosoma. Rezultati pokazuju da reprezentacije dobivene sumiranjem daju najbolje rezultate, dok Glove daje bolje rezultate od word2vec. Nadalje, uočava se korelacija između težine problema rekurentne mreže i kvalitete reprezentacija. Iako je zbog hardverskih ograničenja mreža trenirana na malom skupu podataka, rezultati pokazuju da postoje primjeri reprezentacija dobivenih rekurentnim mrežama koji postižu veću točnost od reprezentacija dobivenih sumom.
Sažetak (engleski) Protein sequences are used as features in many biological classification problems. Those sequences are usually represented using biophysical properties of amino acids the sequence is built from. However, that kind of representation does not include information about the order of amino acids in the original sequence. Deep neural networks enable learning dense vector representations of sequences automatically, instead of building features by hand which is time-consuming and requires domain knowledge. These representations can be used to solve different classification tasks. In this work, we propose different methods of extracting dense vector representations from protein sequences through couple of phases. In the first phase, we divide each protein sequence into trigrams of amino acids. In order to map trigrams to distributed vectors, we relate trigrams to words and use natural language processing models word2vec and Glove. In the second phase, learned representations of trigrams are used as an input to bidirectional LSTM recurrent network to differentiate between a real protein sequence and a permuted sequence. For this purpose, we define three different permutation methods corresponding to distinct levels of complexity. On the hardest permutation problem, recurrent networks in case of Glove trigram representations achieve high accuracy (> 93 %) after only 30 epochs. On the other hand, recurrent networks with word2vec trigrams as inputs reach lower accuracy (> 72 %). Hidden layer of trained LSTM network corresponds to sequence representation which we have compared to representations obtained by sum of trigram representations. The final phase was used to test quality of all eight representations by solving three different classification tasks: protein family classification, distinguishing between thermophilic and non-thermophilic protein and predicting class of ribosomes. Results suggest that representations obtained from trigram summation outperform those from recurrent network and that Glove recurrent representations exceed those from word2vec. Furthermore, we have noticed a correlation between complexity of permutation task and achieved results. Although hardware limitations allow us to train the network only on small subset of the original dataset, there are individual cases where representations from recurrent networks perform better than summation representation.
Ključne riječi
duboke neuronske mreže
proteinske sekvence
realne vektorske reprezentacije
Glove
word2vec
LSTM
trigram
Ključne riječi (engleski)
deep neural networks
protein sequences
dense vector representations
Glove
word2vec
LSTM
trigram
Jezik hrvatski
URN:NBN urn:nbn:hr:217:664083
Studijski program Naziv: Računarstvo i matematika Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra računarstva i matematike (mag. inf. et math.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2018-09-11 10:24:29