| En/De/Fr/It- (first 9 out of 187 sentences)
[pdf] |
Srpski - (prvih 9 od 187 rečenica)
[pdf]
|
| n1 | ABSTRACT: This paper will present textual corpora for Serbian (and Serbo-Croatian) that can be used for the training of large language models and that are publicly available at one of the several important online repositories of such resources. | n1 | SAŽETAK: Ovaj rad će predstaviti tekstualne korpuse za srpski (i srpskohrvatski) koji se mogu koristiti za treniranje velikih jezičkih modela, a koji su javno dostupni na jednom od nekoliko značajnih veb repozitorijuma. |
| n2 | Each corpus will be classified using multiple methods and its characteristics will be described in details. | n2 | Svaki korpus će biti klasifikovan pomoću više metoda i njegove karakteristike će biti detaljno opisane. |
| n3 | Additionally, the paper will introduce three new corpora: a new umbrella web corpus of Serbo-Croatian, a new high-quality corpus based on the doctoral dissertations from all Universities in Serbia, stored within the National Repository of Doctoral Dissertations (NARDUS), and a parallel corpus of dissertation abstracts and their translations, derived from the same source. | n3 | Pored toga, rad će predstaviti tri nova korpusa: novi krovni veb-korpus za srpskohrvatski, novi visokokvalitetni korpus zasnovan na doktorskim disertacijama pohranjenim u Nacionalnom repozitorijumu doktorskih disertacija sa svih univerziteta u Srbiji, i paralelni korpus prevoda sažetaka iz istog izvora. |
| n4 | The uniqueness of both old and new corpora will be accessed via frequency-based stylometric methods, and the results will be briefly discussed. | n4 | Jedinstvenost starih i novih korpusa biće ocenjena putem stilometrijskih metoda zasnovanih na frekvenciji, i ukratko će se diskutovati o rezultatima. |
| n5 | KEYWORDS: corpora, Serbian language, language models, evaluation. | n5 | KLjUČNE REČI: korpusi, srpski jezik, jezički modeli, evaluacija. |
| n6 | With the rapid increase of available textual data within the Big Data phenomenon at the beginning of the twenty-first century, it was soon realized that these data can be used to build corpora for natural language modeling. | n6 | S naglim povećanjem dostupnih tekstualnih podataka kroz fenomen Big Data početkom dvadeset prvog veka, ubrzo se uvidelo da se ti podaci mogu koristiti za izgradnju korpusa za modelovanje prirodnog jezika. |
| n7 | The fast-growing web-based data was first used as an add-on to the existing slower-growing book-based data, but with an increased interest in quantity, it slowly but steadily caught up with and surpassed the latter’s share in various language model training corpora. | n7 | Podaci sa interneta, čija količina brzo raste, najpre su korišćeni kao dodatak podacima iz knjiga, koji su sporije rasli, ali, sa povećanim interesovanjem za količinu, polako ali sigurno dostigli su i nadmašili udeo podataka zasnovanim na knjigama u raznim korpusima za treniranje jezičkih modela. |
| n8 | Today, most of the publicly available corpora use web-based data, mostly due to looser copyright constraints. | n8 | Danas, većina javno dostupnih korpusa koristi podatke sa interneta, uglavnom zbog labavijih ograničenja autorskih prava. |
| n9 | In the context of this research, we will categorize the datasets into the following categories based on their origin: | n9 | U kontekstu ovog istraživanja, kategorisaćemo skupove podataka u sledeće kategorije na osnovu njihovog porekla: |