Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
New Language Models for SerbianNovi jezički modeli za srpski jezik
INFOtheca, Scientific paper [pdf]INFOteka, Naučni rad [pdf]
ID: 1.2024.1.1 Number: 1 Volume: 24 Month: 02 Year: 2025 UDC: 811.163.41’322.2 [tmx] [bow]
Mihailo Škorić
Institution: University of Belgrade, Faculty of Mining and Geology, Belgrade, Serbia
Mail: mihailo.skoric@rgf.bg.ac.rs
Mihailo Škorić
Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet, Beograd, Srbija
E-pošta: mihailo.skoric@rgf.bg.ac.rs
Abstract
The paper will briefly present the development history of transformer-based language models for the Serbian language. Several new models for text generation and vectorization, trained on the resources of the Society for Language Resources and Technologies, will also be presented. Ten selected vectorization models for Serbian, including two new ones, will be compared on four natural language processing tasks. The paper will analyze which models are the best for each selected task, how their size and the size of their training sets affects the performance on those tasks, and what is the optimal setting to train the best language models for the Serbian laguage.
Apstrakt
U radu će ukratko biti prikazan istorijat razvoja jezičkih modela za srpski jezik koji su zasnovanina transformerskoj arhitekturi. Biće predstavljeno i nekoliko novih modelaza generisanje i vektorizaciju teksta, obučenih na resursima Društva za jezičke resurse i tehnologije. Deset odabranih modela za vektorizaciju srpskog jezika, među kojima su i dva nova modela, biće upoređena na četiri zadatka obrade prirodnog jezika. Analiziraćemo koji su modeli najbolji za izabrane zadatke, kako veličina modela i veličina skupa za obučavanje utiču na njihove performanse na tim zadacima i šta je potrebno za obučavanje najboljih modela za srpski jezik.
Keywords: language models, Serbian language, vectorization, natural language processingKljučne reči: jezički modeli, srpski jezik, vektorizacija, obrada prirodnog jezika
Pages: 7-28Strane: 7-28
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2024_1_1_tmx_0.svg