Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]

 [About]



En/De/Fr/It- (first 9 out of 105 sentences) [pdf] Srpski - (prvih 9 od 105 rečenica) [pdf]
n1ABSTRACT: The program KaMP finds word pairs whose members are segmentally (in terms of speech) different only by two selected factors (Deza and Deza 2016, 215), each factor with length 1 or more, e.g. peć~ pet, filma~ firma, ist`orizovati~ maj`orizovati, p‚esničk¯i~ pol`itičk¯i. n1SAŽETAK: Program KaMP nalazi parove reči koje su na segmentalnom nivou govora nepodudarne samo po dvama odabranim faktorima (Deza and Deza 2016, 215) dužine bar po 1, npr. pet ~ peć, filma‚ ~ firma, ist`orizovati ~ ma - j`orizovati, p‚esničk¯ ~ pol`itičk¯.
n2The paper introduces the faster varints of KaMP with improved sorting and with a supplementary mode. n2Predmet rada su brže varijante KaMP-a sa poboljšanim sortiranjem sa suplementarnim modom.
n3KEYWORDS: phonetics, phonology, natural language processing, corpus linguistics, Python. n3KLjUČNE REČI: fonetika, fonologija, obrada prirodnog jezika, korpusna lingvistika, Python.
n4According to (Bugarski 2003, 128), minimal pairs are pairs in which two semantically distinct words formally differ in one phoneme only, e.g bas‚ ~ čas‚. n4Prema (Bugarski 2003, 128), minimalni parovi su parovi „kod kojih se dve po značenju odelite reči formalno razlikuju samo u jed-noj fonemi“, npr. b‚as ~ č‚as.
n5Ignoring prosody and letter case, in a Serbian corpus, the program Ka minimalnim parovima (Towards Minimal Pairs; Алексић and Шандрих 2021) finds word pairs whose members formally differ from each other by selected substrings 2 only. n5Program Ka minimalnim parovima (Aleksić and Šandrih 2021) u srpskom korpusu nalazi parove reči uzajamno formalno različitih samo po zadatim podniskama, pri čemu zanemaruje prozodiju i to da li su slova velika ili mala.
n6The corpus needs to be UTF-8 encoded. n6Korpus treba da bude kodiran shemom UTF-8.
n7Apart from the selected substrings, the “words” can contain (i) characters from "A" to "Z", from "a" to "z" and from "C" to "ž" in the corresponding Unicode charts and (ii) hyphens in medial position. n7Osim zadatih podniski, u „rečima“ mogu biti (I) karakteri od do , od do i od ´ do u "A" "Z" "a" "z" "C" "ž" odgovarajućim tabelama Unicode-a i (II) crtice u medijalnom položaju.
n8Content of the input file Selected substrings String for the output "Klima-uređaji pre klima-uređaja" "a", "i" "klima-uređaja ~ Klima-uređaji" (or "Klima-uređaji~klima-uređaja") "α-čestica, α-čestice, α-čestici" "a", "e" "čestica ~ čestice" "α-čestica,β-čestica" "α", "β" "α-čestica ~ β-čestica" n8Sadržaj ulazne datoteke Zadate podniske Niska za izlaz "Klima-uređaji pre klima-uređaja" "a", "i" "klima-uređaja ~ Klima-uređaji" (or "Klima-uređaji~klima-uređaja") "α-čestica, α-čestice, α-čestici" "a", "e" "čestica ~ čestice" "α-čestica,β-čestica" "α", "β" "α-čestica ~ β-čestica"
n9Table 1. KaMP: Examples of input and output n9Tabela 1. KaMP: primeri ulaza i izlaza