Mihailo Škorić, Nikola Janković[About]

En/De/Fr/It- (first 9 out of 187 sentences) [pdf]		Srpski - (prvih 9 od 187 rečenica) [pdf]
n1	ABSTRACT: This paper will present textual corpora for Serbian (and Serbo-Croatian) that can be used for the training of large language models and that are publicly available at one of the several important online repositories of such resources.	n1	SAŽETAK: Ovaj rad će predstaviti tekstualne korpuse za srpski (i srpskohrvatski) koji se mogu koristiti za treniranje velikih jezičkih modela, a koji su javno dostupni na jednom od nekoliko značajnih veb repozitorijuma.
n2	Each corpus will be classified using multiple methods and its characteristics will be described in details.	n2	Svaki korpus će biti klasifikovan pomoću više metoda i njegove karakteristike će biti detaljno opisane.
n3	Additionally, the paper will introduce three new corpora: a new umbrella web corpus of Serbo-Croatian, a new high-quality corpus based on the doctoral dissertations from all Universities in Serbia, stored within the National Repository of Doctoral Dissertations (NARDUS), and a parallel corpus of dissertation abstracts and their translations, derived from the same source.	n3	Pored toga, rad će predstaviti tri nova korpusa: novi krovni veb-korpus za srpskohrvatski, novi visokokvalitetni korpus zasnovan na doktorskim disertacijama pohranjenim u Nacionalnom repozitorijumu doktorskih disertacija sa svih univerziteta u Srbiji, i paralelni korpus prevoda sažetaka iz istog izvora.
n4	The uniqueness of both old and new corpora will be accessed via frequency-based stylometric methods, and the results will be briefly discussed.	n4	Jedinstvenost starih i novih korpusa biće ocenjena putem stilometrijskih metoda zasnovanih na frekvenciji, i ukratko će se diskutovati o rezultatima.
n5	KEYWORDS: corpora, Serbian language, language models, evaluation.	n5	KLjUČNE REČI: korpusi, srpski jezik, jezički modeli, evaluacija.
n6	With the rapid increase of available textual data within the Big Data phenomenon at the beginning of the twenty-first century, it was soon realized that these data can be used to build corpora for natural language modeling.	n6	S naglim povećanjem dostupnih tekstualnih podataka kroz fenomen Big Data početkom dvadeset prvog veka, ubrzo se uvidelo da se ti podaci mogu koristiti za izgradnju korpusa za modelovanje prirodnog jezika.
n7	The fast-growing web-based data was first used as an add-on to the existing slower-growing book-based data, but with an increased interest in quantity, it slowly but steadily caught up with and surpassed the latter’s share in various language model training corpora.	n7	Podaci sa interneta, čija količina brzo raste, najpre su korišćeni kao dodatak podacima iz knjiga, koji su sporije rasli, ali, sa povećanim interesovanjem za količinu, polako ali sigurno dostigli su i nadmašili udeo podataka zasnovanim na knjigama u raznim korpusima za treniranje jezičkih modela.
n8	Today, most of the publicly available corpora use web-based data, mostly due to looser copyright constraints.	n8	Danas, većina javno dostupnih korpusa koristi podatke sa interneta, uglavnom zbog labavijih ograničenja autorskih prava.
n9	In the context of this research, we will categorize the datasets into the following categories based on their origin:	n9	U kontekstu ovog istraživanja, kategorisaćemo skupove podataka u sledeće kategorije na osnovu njihovog porekla:

Bibliša: Aligned Collection Search Tool

New Textual Corpora for Serbian Language Modeling / Mihailo Škorić, Nikola Janković = Novi tekstualni korpusi za modelovanje srpskog jezika / Mihailo Škorić, Nikola Janković[About]