Wordnet-Based Serbian Text Categorization | Klasifikacija teksta zasnovana na srpskom wordnet-u |
INFOtheca, Scientific Paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2013.2.1 Number: 2 Volume: XIV Month: 12 Year: 2013 UDC: 811.163.41'322.2 [tmx] [bow] |
Jelena Graovac Institution: University of Belgrade, Faculty of Mathematics, Department for Computer Science Mail: jgraovac@matf.bg.ac.rs | Jelena Graovac Institucija: Univerzitet u Beogradu, Matematički fakultet, Katedra za računarstvo i informatiku E-pošta: jgraovac@matf.bg.ac.rs |
Abstract A Serbian text categorization technique, based on the Serbian wordnet is presented. The author is guided by the hypothesis that the inclusion of morphological, syntactic and semantic information contained in lexical resources can improve the process of text documents categorization in Serbian, as one of morphologically rich languages. Ebart-3 corpus is used for driving experiments. It is a collection of newspaper articles in Serbian divided into three categories: Economics, Politics and Sport. The method is based on lists of representative synsets (for each category) from the Serbian wordnet and category assignment function, defined on the basis of these lists. Selection of representative synsets is based on the significance weight measure of a synset for the considered category. Inflection problem in Serbian is solved by means of the system of morphological dictionaries for Serbian. In order to evaluate the presented technique, micro- and macro-averaged Precision, Recall and F1 measures are used. For comparison purpose, another technique based on wordnet-encoded semantic domains is also developed. Instead of well-chosen synsets, representative lists for categories consist of all synsets that belong to semantic domains corresponding to the considered categories. The results show that the technique based on well-chosen synsets outperforms the technique based on semantic domains, although the main reason for enriching wordnet by semantic domains is its even more successful application in natural language processing tasks, especially in text categorization. | Apstrakt U ovom radu je prikazana metoda za klasifikaciju teksta na srpskom jeziku zasnovana na srpskom wordnet-u. Metoda je vođena hipotezom da se uključivanjem morfoloških, sintaksičkih i semantičkih informacija sadržanih u leksičkim resursima može unaprediti proces klasifikacije tekstova na srpskom jeziku, kao jednom od morfološki bogatijih jezika. Korišćen je Ebart-3 korpus koji predstavlja skup novinskih članaka na srpskom jeziku podeljenih u tri klase: ekonomija, politika i sport. Metoda koristi pametan odabir koncepata iz srpskog wordnet-a kao predstavnika svake od klasa, a sam odabir se vrši na osnovu vrednosti uvedene mere za težinu koja kvantifikuje značaj koncepta za datu klasu. Problem fleksije u srpskom jeziku je rešen korišćenjem morfološkog rečnika za srpski jezik. Radi evaluacije prikazane metode korišćeni su mikroprosečni i makroprosečni pokazatelji – preciznost, odziv i f-mera. Dobijeni rezultati su pokazali da se pametnim izborom koncepata dobijaju bolji rezultati nego korišćenjem svih koncepata pridruženih domenima koji odgovaraju klasama, mada su domeni definisani u wordnet-u, pored ostalog, i zbog njegove uspešnije primene na zadatke klasifikacije teksta. |
Keywords: Natural Language Text Categorization, Serbian Wordnet, the System of Morphological Dictionaries for Serbia | Ključne reči: klasifikacija dokumenata, wordnet, srpski wordnet, morfološki rečnik za srpski jezik |
Pages: 2a-17a | Strane: 2-17 |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |