En/De/Fr/It- (first 9 out of 16 sentences)
[pdf] |
Srpski - (prvih 9 od 16 rečenica)
[pdf]
|
n1 | Jaka Čibej | n1 | Jaka Čibej |
n2 | Faculty of Arts, University of Ljubljana, Centre for Language Resources and Technologies, University of Ljubljana | n2 | Faculty of Arts, University of Ljubljana, Centre for Language Resources and Technologies, University of Ljubljana |
n3 | jaka.cibej@ff.uni-lj.si | n3 | jaka.cibej@ff.uni-lj.si |
n4 | FIRST STEPS TOWARDS AN ONLINE SERVICE FOR AUTOMATIC MORPHOLOGICAL INFLECTION OF SERBIAN AND CROATIAN | n4 | PRVI KORACI KA ONLAJN SERVISU ZA AUTOMATSKU MORFOLOŠKU FLEKSIJU SRPSKOG I HRVATSKOG |
n5 | Open-source machine-readable morphological lexicons are useful for morphosyntactic tagging of corpora and represent a crucial step toward compiling modern digital dictionary databases (see e.g. Kosem et al. 2021). | n5 | Mašinski čitljivi morfološki leksikoni otvorenog koda korisni su za morfosintaksičko označavanje korpusa i predstavljaju ključni korak ka sastavljanju savremenih baza podataka digitalnih rečnika (npr. Kosem et al. 2021). |
n6 | Currently, the most well developed among the lexicons for South Slavic languages is the Sloleks Morphological Lexicon of Slovene (Čibej et al. 2022). | n6 | Među leksikonoma za južnoslovenske jezike trenutno je najrazvijeniji Morfološki leksikon slovenačkog jezika Sloleks (Čibej et al. 2022). |
n7 | Version 2.0 with approximately 100,000 entries was updated to version 3.0, adding approximately 265,000 new entries, their inflected forms, accentuated forms, and IPA/SAMPA pronunciations. | n7 | Verzija 2.0 sa približno 100.000 unosa je ažurirana na verziju 3.0, dodajući približno 265.000 novih unosa, njihovih oblika sa naglaskom, naglašenih oblika i IPA/SAMPA izgovora. |
n8 | All were automatically generated using Pregibalnik ("Inflector"), a custom-developed open-source tool (also available as an API service) for Slovene lexicon expansion, which takes a lemma and its morphosyntactic features according to the MULTEXT-East Morphosyntactic Specifications (e.g. liofilizacija, 'lyophilization'; noun, common, feminine) as input and generates (among other things) complete paradigms of forms inflected by case, number, tense, etc. (e.g. liofilizacija, liofilizacije, liofilizaciji, ...) using a combination of machine-learning and linguistically informed rule-based methods, including machine-readable morphological patterns (e.g. "[liofilizacij]-a, [liofilizacij]-e, [liofilizacij]-i, ...") which were automatically extracted and validated (Arhar Holdt & Čibej 2018; Arhar Holdt 2021) before being used in machine-learning predictions. | n8 | Svi su automatski generisani koristeći Pregibalnik, prilagođeni alat otvorenog koda (takođe dostupan kao API servis1) za proširenje slovenačkog leksikona, koji uzima lemu i njene morfosintaksičke karakteristike u skladu sa morfološkim specifikacijama MULTEXT-East2 (npr. liofilizacija, imenica, zajednička, ženskog roda) kao input i generiše (između ostalog) potpune paradigme oblika - padež, broj, vreme itd. (npr. liofilizacija, liofilizacija, ...) kombinacija mašinskog učenja i lingvistički informisanih metoda zasnovanih na pravilima, uključujući mašinski čitljive morfološke obrasce (npr. "[liofilizacij]-a, [liofilizacij]-e, [liofilizacij]-i, ...") koji su automatski izvučeni i potvrđeni (Arhar Holdt & Čibej 2018; Arhar Holdt 2021) pre nego što se koriste u predviđanjima mašinskog učenja. |
n9 | Two open-source lexicons similar to Sloleks have been published for Serbian and Croatian - srLex 1.3 (Ljubešić 2019a) and hrLex 1.3 (Ljubešić 2019b), compiled from srWaC and hrWaC corpora, respectively. | n9 | Objavljena su dva leksikona otvorenog koda slična Sloleksu za srpski i hrvatski - srLex 1.3 (Ljubešić 2019a) i hrLex 1.3 (Ljubešić 2019b), sastavljena iz srWaC i hrWaC korpusa. |