Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
Extraction of Bilingual Terminology using Graphs, Dictionaries and GIZA++Ekstrakcija dvojezične terminologije korišćenjem grafova, rečnika i GIZA++
INFOtheca, Scientific paper [pdf]INFOteka, Naučni rad [pdf] [WikiData]
ID: 1.2019.2.6 Number: 2 Volume: 19 Year: 2019 UDC: 81’322.2 [tmx] [bow]
Branislava Šandrih
Institution: University of Belgrade, Faculty of Philology
Mail: branislava.sandrih@fil.bg.ac.rs
Branislava Šandrih
Institucija: Univerzitet u Beogradu, Filološki fakultet
E-pošta: branislava.sandrih@fil.bg.ac.rs
Ranka Stanković
Institution: University of Belgrade, Faculty of Mining and Geology
Mail: ranka.stankovic@rgf.bg.ac.rs
Ranka Stanković
Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet
E-pošta: ranka.stankovic@rgf.bg.ac.rs
Abstract
In science, industry and many research fields, terminology is rapidly developing. Most often, a language that is “lingua franca” for most of these areas is English. As a consequence, for many fields, domain terms are conceived in English, and are later translated to other languages. In this paper, we present an approach for automatic bilingual terminology extraction for English-Serbian language pair that relies on an aligned bilingual domain corpus, a terminology extractor for a target language and a tool for chunk alignment.We examine the performance of the method on a Library and Information Science domain. The obtained results, as well as the application that implements the method, are available on-line.
Apstrakt
U nauci, industriji i mnogim oblastima istraživanja, terminologija se brzo razvija. Najčešće jezik koji je “lingua franca” za većinu ovih oblasti je engleski. Kao posledica, za mnoge oblasti, domenski termini su koncipirani na engleskom, a kasnije su prevedeni na druge jezike. U radu je prikazan pristup za automatsku ekstrakciju dvojezične terminologije za englesko-srpski jezički par koji se oslanja na poravnati dvojezični domenski korpus, ekstraktor terminologije za ciljni jezik i alat za poravnanje delova. Ispitane su performanse metoda na bibliotečko-informacionom domenu. Dobijeni rezultati, kao i aplikacija koja implementira metod dostupni su onlajn.
Keywords: terminology extraction, terminology validation, GIZA++, graphs, Unitex, text classification.Ključne reči: ekstrakcija terminologije, validacija terminologije, GIZA++, grafovi, Unitex, klasifikacija teksta.
Pages: 119-138Strane:
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2019_2_6_tmx_0.svg