Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
Application of a Structural Support Vector Machine Method to N-gram Based Text Classification in SerbianN-gramski zasnovana klasifikacija teksta na srpskom jeziku primenom metode strukturalnih podržavajućih vektora
INFOtheca, [pdf]INFOteka, [pdf] [WikiData]
ID: 1.2016.1/2.1 Number: 1/2 Volume: 16 Year: 2016 UDC: [tmx] [bow]
Jovana Kovačević
Institution: University of Belgrade, Faculty of Mathematics, Department for Computer Science and Informatics
Mail: jovana@matf.bg.ac.rs
Jovana Kovačević
Institucija: Univerzitet u Beogradu, Matematički fakultet, Katedra za računarstvo i informatiku
E-pošta: jovana@matf.bg.ac.rs
Jelena Graovac
Institution: University of Belgrade, Faculty of Mathematics, Department for Computer Science and Informatics
Mail: jgraovac@matf.bg.ac.rs
Jelena Graovac
Institucija: Univerzitet u Beogradu, Matematički fakultet, Katedra za računarstvo i informatiku
E-pošta: jgraovac@matf.bg.ac.rs
Abstract
The paper presents classification results that were obtained using the Support Vector Machine method (SVM) over a hierarchically organized corpus of documents in Serbian. Two techniques derived from the SVM with structural output have been applied: multiclass flat classification and hierarchical classification. A common representation model of a document and a class or a hierarchy of classes the document belongs to, specific for this form of the SVM method, is based on different length byte n-grams. Four tf-idf statistics have been used that define significance of an n-gram for a specific document. The described techniques and statistics have been tested on a hierarchically structured subset of the Ebart corpus of newspaper texts. The results obtained for both types of classifiers are similar for the corpus as a whole, while hierarchical classifier performs better for most specific classes with a small number of texts.
Apstrakt
U radu su predstavljeni rezultati klasifikacije hijerarhijski organizovanog korpusa dokumenata na srpskom jeziku korišćenjem metode podržavajućih vektora (MPV, engl. Support Vector Machine, SVM). Primenjene su dve tehnike klasifikacije izvedene iz metode MPV sa strukturnim izlazom: višeklasna ravna (engl. flat) i hijerarhijska klasifikacija. Model zajedničke reprezentacije dokumenta i klase ili hijerarhije klasa kojima dokument pripada, specifičan za ovaj oblik MPV metode, baziran je na n-gramima bajtova različite dužine. Korišćene su četiri tf-idf statistike koje određuju značajnost n-grama za određeni dokument. Opisane tehnike i statistike testirane su na hijerarhijski struktuiranom podskupu Ebart korpusa novinskih tekstova. Dobijeni rezultati za oba tipa klasifikatora na nivou celog korpusa su približni, dok na nivou pojedinačnih klasa hijerarhijski tip klasifikatora pokazuje bolje rezultate za većinu klasa sa malim brojem tekstova.
Keywords: hierarchical text classification, Support Vector Machine Method, Ebart corpusKljučne reči: hijerarhijska klasifikacija teksta, metoda podržavajućih vektora, Ebart korpus
Pages: 5-23Strane: 5-24
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2016_1\2_1_tmx_0.svg