Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]

 [About]



En/De/Fr/It- (first 9 out of 16 sentences) [pdf] Srpski - (prvih 9 od 16 rečenica) [pdf]
n1Jaka Čibejn1Jaka Čibej
n2Faculty of Arts, University of Ljubljana, Centre for Language Resources and Technologies, University of Ljubljanan2Faculty of Arts, University of Ljubljana, Centre for Language Resources and Technologies, University of Ljubljana
n3jaka.cibej@ff.uni-lj.sin3jaka.cibej@ff.uni-lj.si
n4FIRST STEPS TOWARDS AN ONLINE SERVICE FOR AUTOMATIC MORPHOLOGICAL INFLECTION OF SERBIAN AND CROATIANn4PRVI KORACI KA ONLAJN SERVISU ZA AUTOMATSKU MORFOLOŠKU FLEKSIJU SRPSKOG I HRVATSKOG
n5Open-source machine-readable morphological lexicons are useful for morphosyntactic tagging of corpora and represent a crucial step toward compiling modern digital dictionary databases (see e.g. Kosem et al. 2021).n5Mašinski čitljivi morfološki leksikoni otvorenog koda korisni su za morfosintaksičko označavanje korpusa i predstavljaju ključni korak ka sastavljanju savremenih baza podataka digitalnih rečnika (npr. Kosem et al. 2021).
n6 Currently, the most well developed among the lexicons for South Slavic languages is the Sloleks Morphological Lexicon of Slovene (Čibej et al. 2022).n6 Među leksikonoma za južnoslovenske jezike trenutno je najrazvijeniji Morfološki leksikon slovenačkog jezika Sloleks (Čibej et al. 2022).
n7 Version 2.0 with approximately 100,000 entries was updated to version 3.0, adding approximately 265,000 new entries, their inflected forms, accentuated forms, and IPA/SAMPA pronunciations.n7 Verzija 2.0 sa približno 100.000 unosa je ažurirana na verziju 3.0, dodajući približno 265.000 novih unosa, njihovih oblika sa naglaskom, naglašenih oblika i IPA/SAMPA izgovora.
n8 All were automatically generated using Pregibalnik ("Inflector"), a custom-developed open-source tool (also available as an API service) for Slovene lexicon expansion, which takes a lemma and its morphosyntactic features according to the MULTEXT-East Morphosyntactic Specifications (e.g. liofilizacija, 'lyophilization'; noun, common, feminine) as input and generates (among other things) complete paradigms of forms inflected by case, number, tense, etc. (e.g. liofilizacija, liofilizacije, liofilizaciji, ...) using a combination of machine-learning and linguistically informed rule-based methods, including machine-readable morphological patterns (e.g. "[liofilizacij]-a, [liofilizacij]-e, [liofilizacij]-i, ...") which were automatically extracted and validated (Arhar Holdt & Čibej 2018; Arhar Holdt 2021) before being used in machine-learning predictions.n8 Svi su automatski generisani koristeći Pregibalnik, prilagođeni alat otvorenog koda (takođe dostupan kao API servis1) za proširenje slovenačkog leksikona, koji uzima lemu i njene morfosintaksičke karakteristike u skladu sa morfološkim specifikacijama MULTEXT-East2 (npr. liofilizacija, imenica, zajednička, ženskog roda) kao input i generiše (između ostalog) potpune paradigme oblika - padež, broj, vreme itd. (npr. liofilizacija, liofilizacija, ...) kombinacija mašinskog učenja i lingvistički informisanih metoda zasnovanih na pravilima, uključujući mašinski čitljive morfološke obrasce (npr. "[liofilizacij]-a, [liofilizacij]-e, [liofilizacij]-i, ...") koji su automatski izvučeni i potvrđeni (Arhar Holdt & Čibej 2018; Arhar Holdt 2021) pre nego što se koriste u predviđanjima mašinskog učenja.
n9Two open-source lexicons similar to Sloleks have been published for Serbian and Croatian - srLex 1.3 (Ljubešić 2019a) and hrLex 1.3 (Ljubešić 2019b), compiled from srWaC and hrWaC corpora, respectively.n9Objavljena su dva leksikona otvorenog koda slična Sloleksu za srpski i hrvatski - srLex 1.3 (Ljubešić 2019a) i hrLex 1.3 (Ljubešić 2019b), sastavljena iz srWaC i hrWaC korpusa.