| Transducers for Annotating Weather Information in Meteorological Texts in Serbia | Transduktori za označavanje podataka o vremenskim prilikama u meteorološkim tekstovima na srpskom jeziku |
| INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] |
| ID: 1.2012.2.4 Number: 2 Volume: XIII Month: 12 Year: 2012 UDC: [tmx] [bow] |
Vesna Pajić Institution: University of Belgrade, Faculty of Agriculture, Departmant for Agricultural Engineering, Belgrade, Republic of Serbia Mail: svesna@agrif.bg.ac.rs | Vesna Pajić Institucija: Univerzitet u Beogradu, Poljoprivredni fakultet, Institut za poljoprivrednu tehniku, Beograd, Srbija E-pošta: svesna@agrif.bg.ac.rs |
Staša Vujičić Stanković Institution: University of Belgrade, Faculty of Mathematics, Belgrade, Republic of Serbia Mail: stasa@matf.bg.ac.rs | Staša Vujičić Stanković Institucija: Univerzitet u Beogradu, Matematički fakultet, Bograd, Srbija E-pošta: stasa@matf.bg.ac.rs |
Miloš Pajić Institution: University of Belgrade, Faculty of Agriculture, Departmant for Agricultural Engineering, Belgrade, Republic of Serbia Mail: paja@agrif.bg.ac.rs | Miloš Pajić Institucija: Univerzitet u Beogradu, Poljoprivredni fakultet, Institut za poljoprivrednu tehniku, Beograd, Srbija E-pošta: paja@agrif.bg.ac.rs |
Abstract We present a process of extracting information on meteorological phenomena from texts in Serbian. We used finite state automata and transducers for both text processing and information extraction, through software specialized for linguistic text processing. Information extraction was done by annotating text segments. The extraction rules were described with transducers (finite state transducers and recursive transition networks). Some details of used transducers are presented in this paper, aiming to demonstrate the application of different electronic resources for Serbian, especially the electronic morphological dictionary. Transducers are very efficient tools for language processing. In the case of processing Serbian, it is very important to create different resources and corpora which could allow linguistic research. Therefore, we plan to form a collection of transducers and make it publicly available for different kinds of research in the computational linguistics domain. | Apstrakt U radu je prikazan jedan proces izdvajanja informacija o meteorološkim pojavama iz tekstova na srpskom jeziku. Obrada teksta, kao i samo izdvajanje informacija, vršeno je uz pomoć konačnih automata i transduktora, kreiranih i primenjenih pomoću programa specijalizovanih za lingvističku obradu teksta. Samo izdvajanje informacija vršeno je obeležavanjem segmenata teksta. Sva pravila korišćena za obeležavanje predstavljena su transduktorima (konačnim transduktorima i rekurzivnim mrežama prelaza). U radu su detaljno prikazani neki od korišćenih transduktora, sa ciljem da se demonstrira upotreba različitih elektronskih resursa srpskog jezika, na prvom mestu elektronskih morfoloških rečnika. Sami transduktori su veoma efikasno sredstvo za obradu jezika. U slučaju obrade srpskog jezika, kreiranje različitih resursa i korpusa koji bi omogućili lingvistička istraživanja veoma je važno. Stoga je planirano da se u budućnosti formira kolekcija transduktora koja bi bila javno dostupna i raspoloživa za različite vrste istraživanja iz oblasti računarske lingvistike. |
| Keywords: Information Extraction, Serbian, Natural Language Processing, Finite State Transducers, Recursive Transition Networks | Ključne reči: ekstrakcija informacija, srpski jezik, obrada prirodnih jezika, konačni transduktori, rekurzivne mreže prelaza
|
| Pages: 33-47 | Strane: |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
| Translator: | Prevodilac: |