Abstract | Tvrtke se nerijetko suočavaju s problemom rješavanja više zadataka obrade prirodnog jezika (engl. natural language processing, NLP) te kontinuiranih zahtjeva klijenata ili promjena distribucije (engl. distribution shift). Standardni pristup pojedinačnog treniranja velikih jezičnih modela (engl. large language models, LLMs) nije održiv zbog vremena potrebnog za učenje, broja parametara te sposobnosti obrade novih podataka.
Cilj ovog rada jest pronaći metodu združenog učenja zadataka (engl. multi-task learning, MTL) koja je također primjenjiva za kontinuirano učenje (engl. continual learning, CL). Cilj je premostiti istraživački jaz između združenog i kontinuiranog učenja. Rad ispituje pristupe adaptera i hiper mreže (engl. hypernetwork) te uspoređuje njihovu uspješnost s pojedinačnim treniranjem zadataka u pogledu performansi, broja parametara te vremena potrebnog za učenje.
E-pošta i računi iz različitih industrijskih primjena koji sadrže zadatke prepoznavanja imenovanih entiteta (engl. named entity recognition, NER) i klasifikacije sekvenci (engl. sequence classification, CLS) podijeljeni su radi simuliranja scenarija združenog i kontinuiranog učenja. Za svaki združeni ili kontinuirani zadatak trenira se zasebni adapter ili fuzija adaptera. Obuka hiper mreže provodi se za združeno učenje zadataka te nastavlja tijekom dva kruga kontinuiranog učenja.
Prilikom scenarija združenog učenja, adapteri i hiper mreža daju rezultate slične pristupu pojedinačnog učenja zadataka. Međutim, adapteri smanjuju vrijeme potrebno za učenje te broj parametara redom za 29,4% i 99,16%, dok ih hiper mreža smanjuje za 15% i 91,38%. Kada se u obzir uzme kontinuirano učenje, adapteri zadržavaju slične rezultate, dok hiper mreža pokazuje značajno lošije rezultate za skupove podataka klasifikacije sekvence s malim brojem primjera za učenje.
Iako bi budući rad trebao koristiti skupove podataka s većim brojem primjera te učiti hiper mrežu kontinuirano tijekom više od dva kruga, rezultati impliciraju da su i adapteri i hiper mreža bolja alternativa za združno-kontinuirani scenarij u odnosu na pojedinačno učenje zadataka. Ovi rezultati omogućuju tvrtkama brže učenje modela, uštedu prostora za pohranu, lakšu integraciju sa sustavima strojnog učenja (engl. machine learning, ML) te kontinuirano učenje, uz održavanje rezultata na razini pojedinačnog učenja zadataka. Konačno, budući rad mogao bi uključiti informacije o značajnosti parametara hiper mreže tijekom kontinuiranog učenja. |
Abstract (english) | Companies often face a problem of having to solve multiple Natural Language Processing (NLP) tasks and receive new client requirements or face distribution shifts. A standard Large Language Model (LLM) single-task learning (STL) approach is unsustainable in its training time, number of parameters, and ability to handle new data.
This work’s objective is to find a multi-task learning (MTL) method, which is also suitable for continual learning (CL). It aims to bridge the research gap between MTL and CL. The work examines adapters and hypernetwork approach and inspects how they compare to STL in terms of performance, number of parameters, and training time.
Industrial inbox and invoice documents from different use cases containing named entity recognition (NER) and sequence classification (CLS) tasks are split to simulate MTL and CL scenarios. A different adapter or Adapter Fusion is trained for each MTL/CL task. A hypernetwork training is conducted for MTL and continued for two rounds of CL.
Adapters and hypernetwork perform on par with STL when tasks are jointly trained. However, adapters reduce the training time and number of parameters by 29.4% and 99.16%, and a hypernetwork by 15% and 91.38%, respectively. When CL is considered, adapters encounter no performance loss, while hypernetwork sees significantly deteriorated performance for CLS datasets with limited resources.
Although the future work should use higher resource datasets and train a hypernetwork continuously for more than two rounds, the results imply that both adapters and hypernetwork are a better alternative to STL for a MTL-CL setting. These findings allow companies to train the models faster, save them using less storage, integrate them easier with ML systems, and continually train them, all whilst preserving an on-par performance with STL. Future work could also incorporate the parameter significance information into hypernetwork CL. |