Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]

 [About]



En/De/Fr/It- (first 9 out of 12 sentences) [pdf] Srpski - (prvih 9 od 12 rečenica) [pdf]
n1Mihailo Škorićn1Mihailo Škorić
n2Društvo za jezičke resurse i tehnologije JeRTehn2Društvo za jezičke resurse i tehnologije JeRTeh
n3mihailo@jerteh.rsn3mihailo@jerteh.rs
n4NEW LANGUAGE MODELS FOR SOUTH SLAVIC LANGUAGESn4NOVI JEZIČKI MODELI ZA JUŽNOSLOVENSKE JEZIKE
n5The report will present the challenges and perspectives of modeling South Slavic languages, especially the general language models built on the transformer architecture (BERT, GPT), available corpora of texts for training those models, and the quantity and quality of those corpora.n5Izlaganje će predstaviti izazove i perspektive modelovanja južnoslovenskih jezika, sa posebnim osvrtom opšte jezičke modele građene na arhitekturi transformera (BERT, GPT), na dostupne skupove tekstova za obučavanje tih modela, te kvantitet i kvalitet tih skupova.
n6 The presentation will offer an overview of the available data and models, primarily the latest textual corpora.n6 Izlaganje će ponuditi pregled dostupnih skupova i modela, dok će posebna pažnja biti posvećena najnovijim korpusima tekstova.
n7 The first corpus, Umbrella, represents the umbrella web corpus of South Slavic languages ​​and at the same time the largest corpus of texts in the region, includes all other currently available regional web corpora and contains over eighteen billion words.n7 Prvi korpus, Kišobran, predstavlja krovni veb korpus južnoslovenskih jezika i ujedno trenutno najveći korpus tekstova na našim prostorima koji broji preko osamnaest milijardi reči i uključuje sve ostale trenutno dostupne južnoslovenske veb korpuse.
n8 The second corpus, S.T.A.R.S, gathers academic works written in the Serbian language and includes, most notably, eleven thousand dissertations downloaded from the NARDUS platform, and a large number of scientific and professional works downloaded from various open repositories that are included in the eScience system.n8 Drugi korpus, S.T.A.R.S, na jednom mestu okuplja akademske radove pisane na srpskom jeziku i uključuje pre svega jedanaest hiljada disertacija preuzetih sa platforme NARDUS, ali i veliki broj naučnih i stručnih radova preuzetih iz različitih otvorenih repozitorijuma koji su uvršteni u sistem eNauka.
n9 In addition, academic corpora of other South Slavic languages ​​will be discussed, which were created from works stored on various web platforms: DABAR (for the Croatian language), the repositories of the universities in Maribor, Ljubljana, Primorska and Nova Gorica, and the DiRROS and REVIS repositories (for the Slovene language ), the repository of the universities in Zenica, Sarajevo and East Sarajevo (for the Bosnian language), the repository of the University of Goce Delčev and St. Kliment Ohridski (for the Macedonian language) and the repository of the University of Montenegro (for Montenegrin).n9 Osim toga, biće reči o akademskih korpusima ostalih južnoslovenskih jezika, koji su nastali od radova pohranjenih na različitim veb platformama: DABAR (za hrvatski jezik), repozitorijuma univerziteta u Mariboru, Ljubljani, Primorskoj i Novoj Gorici i repozitorijuma DiRROS i REVIS (za slovenački jezik), repozitorijuma univerziteta u Zenici, Sarajevu i Istočnom Sarajevu (za bosanski jezik), repozitorijuma Univerziteta Goce Delčev i Sv. Kliment Ohridski (za makedonski jezik) i repozitorijuma Univerziteta Crne Gore (za crnogorski).