Title Binary classification of peptides using deep neural networks and transfer learning
Title (english) Binarna klasifikacija peptida korištenjem dubokih neuronskih mreža i učenja prijenosom znanja
Author Erik Otović
Mentor Goran Mauša (mentor)
Mentor Daniela Kalafatović (komentor)
Committee member Kristijan Lenac (predsjednik povjerenstva)
Committee member Marina Ivašić-Kos (član povjerenstva)
Committee member Tell Tuttle https://orcid.org/0000-0003-2300-8921 (član povjerenstva)
Granter University of Rijeka Faculty of Engineering Rijeka
Defense date and country 2024, Croatia
Scientific / art field, discipline and subdiscipline TECHNICAL SCIENCES Computing
Universal decimal classification (UDC ) 004 - Computer science and technology. Computing. Data processing
Abstract Machine learning is increasingly used for high-throughput peptide screening, providing a rapid and efficient method to identify peptides with desired functions in contrast to traditional trial-and-error approaches that are time-consuming and resource-intensive. It streamlines the exploration of the vast peptide space in a data-driven way and accelerates the discovery of novel peptides.
This thesis investigates three dominantly used peptide representation schemes and analyzes them based on the type of information they capture. Considering that machine learning models require input to be in a numerical form, the choice of peptide representation scheme is crucial as it can directly influence model performance. Therefore, anovel sequential properties representation scheme is proposed to address gaps identified in existing schemes. Additionally, a manually curated dataset comprising 126 peptides evaluated for the catalysis of ester and phosphoester hydrolysis is presented. The experimental evaluation of four peptide representation schemes in combination with deep neural networks was conducted using antimicrobial, antiviral and catalytic datasets. Results on the antimicrobial and antiviral datasets were used for statistical tests and to draw reliable conclusions due to their diversity and size. Statistical tests applied across seven evaluation metrics demonstrated that the introduced sequential properties scheme significantly outperformed other representations in 90% of cases. The antimicrobial and antiviral datasets were downsampled to create smaller target datasets to assess the effectiveness of transfer learning. Results showed that knowledge transfer was beneficial only when transferring from the more diverse antimicrobial dataset encompassing multiple subfunctions to less diverse antiviral dataset, improving the ROC-AUC score by 6.9% with statistical significance. Moreover, the results show that the transfer learning model outperforms the baseline model by more than 1% when the target dataset contains fewer than 275 peptides.
Abstract (english) Strojno učenje se sve više koristi za visoko-propusno pregled peptida, pružajući brzu i učinkovitu metodu za identifikaciju peptida sa željenim funkcijama za razliku od tradicionalnih pristupa baziranih na postupku pokušaja i pogreške koji zahtijevaju puno vremena i resursa. Takoder pojednostavljuje istraživanje velikog prostora peptida metodama strojnog učenja koje su vođene dostupnim podacima te ubrzava otkrivanje novih peptida.
Ova doktorska disertacija razmatra tri dominantno korištene sheme predstavljanja peptida i analizira ih na temelju vrsta informacija koje obuhvaćaju. Uzimajući u obzir da modeli strojnog učenja zahtijevaju ulazne podatke u numeričkom obliku, odabir sheme predstavljanja peptida je ključan odabir jer može imati izravni utjecaj na učinak modela. Stoga, nova shema predstavljanja nazvana slijedne značajke je predložena u ovoj disertaciji s ciljem premošćivanja identificiranih nedostatak u postojećim shemama. Dodatno, u disertaciji je predstavljen skup podataka koji se sastoji od 126 ručno prikupljenih peptida ispitanih za katalizu hidrolize estera i fosfoestera. Provedeno je eksperimentalno ispitivanje četiri sheme predstavljanja peptida u kombinaciji s dubokim neuronskim mrežama korištenjem antimikrobnih, antivirusnih i katalitičkih skupova podataka. Rezultati na antimikrobnom i antivirusnom skupu podataka korišteni su za statističke testove i donošenje pouzdanih zaključaka zbog raznolikosti i veličine tih skupova podataka. Statistički testovi primijenjeni na sedam metrika vrednovanja pokazali su da je predstavljena shema slijednih značajki statistički značajno nadmašila ostale sheme u 90% slučajeva. Smanjene inačice antimikrobnog i antivirusnog
skupa podataka korištene su kao odredišni skupovi podataka za ispitivanje učinka učenjem
prijenosom znanja. Rezultati pokazuju da je poboljšanje ostvareno samo pri prijenosu
znanja iz raznovrsnijeg antimikrobnog skupa podataka, koji obuhvaća nekoliko podfunkcija
na antivirusni skup podataka, na manje raznoliki antivirusni skup rezultirajući u statistički
Classification of Peptides using Deep Neural Networks and Transfer Learning VIII
signifikantnom povećanju ROC-AUC metrike za 6.9%. Povrh toga, rezultati su pokazali
da model baziran na prijenosu znanja ostvaruje ičinak veći od 1% u usporedbi sa modelom
koji nije koristio prijenos znanja kada ciljni skup podataka sadrži manje od 275 peptida.
Keywords
peptide function prediction
peptide representation schemes
sequential properties
catalytic peptides
transfer learning
Keywords (english)
predviđanje funkcije peptida
shema predstavljanja peptida
katalitički peptidi
učenje prijenosom znanja
Language croatian
URN:NBN urn:nbn:hr:190:986491
Promotion 2024-12-09
Study programme Title: Postgraduate University Doctoral Study in the area of Engineering Sciences, in the field of Computer Science Study programme type: university Study level: postgraduate Academic / professional title: doktor/doktorica znanosti, područje tehničkih znanosti, polje računarstvo (doktor/doktorica znanosti, područje tehničkih znanosti, polje računarstvo)
Type of resource Text
File origin Born digital
Access conditions Open access
Terms of use
Created on 2024-12-16 14:06:52