| New Language Models for Serbian | Novi jezički modeli za srpski jezik |
| INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] |
| ID: 1.2024.1.1 Number: 1 Volume: 24 Month: 02 Year: 2025 UDC: 811.163.41’322.2 [tmx] [bow] |
Mihailo Škorić Institution: University of Belgrade, Faculty of Mining and Geology, Belgrade, Serbia Mail: mihailo.skoric@rgf.bg.ac.rs | Mihailo Škorić Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet, Beograd, Srbija E-pošta: mihailo.skoric@rgf.bg.ac.rs |
Abstract The paper will briefly present the development history of transformer-based language models for the Serbian language. Several new models for text generation and vectorization, trained on the resources of the Society for Language Resources and Technologies, will also be presented. Ten selected vectorization models for Serbian, including two new ones, will be compared on four natural language processing tasks. The paper will analyze which models are the best for each selected task, how their size and the size of their training sets affects the performance on those tasks, and what is the optimal setting to train the best language models for the Serbian laguage. | Apstrakt U radu će ukratko biti prikazan istorijat razvoja jezičkih modela za srpski jezik koji su zasnovanina transformerskoj arhitekturi. Biće predstavljeno i nekoliko novih modelaza generisanje i vektorizaciju teksta, obučenih na resursima Društva za jezičke resurse i tehnologije. Deset odabranih modela za vektorizaciju srpskog jezika, među kojima su i dva nova modela, biće upoređena na četiri zadatka obrade prirodnog jezika. Analiziraćemo koji su modeli najbolji za izabrane zadatke, kako veličina modela i veličina skupa za obučavanje utiču na njihove performanse na tim zadacima i šta je potrebno za obučavanje najboljih modela za srpski jezik. |
| Keywords: language models, Serbian language, vectorization, natural language processing | Ključne reči: jezički modeli, srpski jezik, vektorizacija, obrada prirodnog jezika |
| Pages: 7-28 | Strane: 7-28 |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
| Translator: | Prevodilac: |