Extraction of Bilingual Terminology using
Graphs, Dictionaries and GIZA++ | Ekstrakcija dvojezične terminologije korišćenjem grafova, rečnika i GIZA++ |
INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2019.2.6 Number: 2 Volume: 19 Year: 2019 UDC: 81’322.2 [tmx] [bow] |
Branislava Šandrih Institution: University of Belgrade, Faculty of Philology Mail: branislava.sandrih@fil.bg.ac.rs | Branislava Šandrih Institucija: Univerzitet u Beogradu, Filološki fakultet E-pošta: branislava.sandrih@fil.bg.ac.rs |
Ranka Stanković Institution: University of Belgrade, Faculty of Mining and Geology Mail: ranka.stankovic@rgf.bg.ac.rs | Ranka Stanković Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet E-pošta: ranka.stankovic@rgf.bg.ac.rs |
Abstract In science, industry and
many research fields, terminology is rapidly
developing. Most often, a language that is “lingua
franca” for most of these areas is English.
As a consequence, for many fields, domain
terms are conceived in English, and
are later translated to other languages. In
this paper, we present an approach for automatic
bilingual terminology extraction for
English-Serbian language pair that relies on
an aligned bilingual domain corpus, a terminology
extractor for a target language and a
tool for chunk alignment.We examine the performance
of the method on a Library and Information
Science domain. The obtained results,
as well as the application that implements
the method, are available on-line. | Apstrakt U nauci, industriji i mnogim oblastima istraživanja, terminologija se brzo razvija. Najčešće jezik koji je “lingua
franca” za većinu ovih oblasti je engleski. Kao posledica, za mnoge oblasti, domenski termini su koncipirani na engleskom, a kasnije su prevedeni na druge jezike. U radu je prikazan pristup za automatsku ekstrakciju dvojezične terminologije za englesko-srpski jezički par koji se oslanja na poravnati dvojezični domenski korpus, ekstraktor terminologije za ciljni jezik i alat za poravnanje delova. Ispitane su performanse metoda na bibliotečko-informacionom domenu. Dobijeni rezultati, kao i aplikacija koja implementira metod dostupni su onlajn. |
Keywords: terminology extraction,
terminology validation, GIZA++, graphs,
Unitex, text classification. | Ključne reči: ekstrakcija terminologije, validacija terminologije, GIZA++, grafovi, Unitex, klasifikacija teksta. |
Pages: 119-138 | Strane: |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |