Old or new, we repair, adjust and alter (texts) | Staro ili novo, popravljamo, prilagođavamo i menjamo (tekstove) |
INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2019.2.3 Number: 2 Volume: 19 Year: 2019 UDC: 811.163.41’322.2:004.9 [tmx] [bow] |
Cvetana Krstev Institution: University of Belgrade, Faculty of Philology Mail: cvetana@matf.bg.ac.rs | Cvetana Krstev Institucija: Univerzitet u Beogradu, Filološki fakultet E-pošta: cvetana@matf.bg.ac.rs |
Ranka Stanković Institution: University of Belgrade, Faculty of Mining and Geology Mail: ranka.stankovic@rgf.bg.ac.rs | Ranka Stanković Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet E-pošta: ranka.stankovic@rgf.bg.ac.rs |
Abstract In this paper we present
how e-dictionaries and cascades of finite-state
transducers, as implemented in Unitex, can be
used to solve three text transformation problems:
correction of texts after OCR, restoration
of diacritics and switching between different
language variants. | Apstrakt U radu je prikazano kao elektronski morfološki rečnici i kaskade konačnih transduktora, koji su implementirani u sistem Unitex, mogu da se koriste da reše tri problema prilikom transformacije teksta: ispravka teksta posle OCR-a, ispravka dijakritika i prebacivanje između različitih jezičkih varijanti. |
Keywords: text correction, OCR errors,
diacritic restoration, language variants,
electronic dictionary, finite-state transducers. | Ključne reči: korekcija tekstova, OCR greške, ispravka dijakritika, jezičke varijante, elektronski rečnik, konačni transduktori. |
Pages: 61-80 | Strane: |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |