Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]

 Kovačević et al., 2016, vol. XVI:1/2, ID: 1.2016.1/2.1[About]



En/De/Fr/It- (first 9 out of 200 sentences) [pdf] Srpski - (prvih 9 od 200 rečenica) [pdf]
n1Application of a Structural Support Vector Machine Method to N-gram Based Text Classification in Serbian n1N-gramski zasnovana klasifikacija teksta na srpskom jeziku primenom metode strukturalnih podržavajućih vektora
n2ABSTRACT: The paper presents classification results that were obtained using the Support Vector Machine method (SVM) over a hierarchically organized corpus of documents in Serbian. n2SAŽETAK: U radu su predstavljeni rezultati klasifikacije hijerarhijski organizovanog korpusa dokumenata na srpskom jeziku korišćenjem metode podržavajućih vektora (MPV, engl. Support Vector Machine, SVM).
n3Two techniques derived from the SVM with structural output have been applied: multiclass flat classification and hierarchical classification. n3Primenjene su dve tehnike klasifikacije izvedene iz metode MPV sa strukturnim izlazom: višeklasna ravna (engl. flat) i hijerarhijska klasifikacija.
n4A common representation model of a document and a class or a hierarchy of classes the document belongs to, specific for this form of the SVM method, is based on different length byte n-grams. n4Model zajedničke reprezentacije dokumenta i klase ili hijerarhije klasa kojima dokument pripada, specifičan za ovaj oblik MPV metode, baziran je na n-gramima bajtova različite dužine.
n5Four tf-idf statistics have been used that define significance of an n-gram for a specific document. n5Korišćene su četiri tf-idf statistike koje određuju značajnost n-grama za određeni dokument.
n6The described techniques and statistics have been tested on a hierarchically structured subset of the Ebart corpus of newspaper texts. n6Opisane tehnike i statistike testirane su na hijerarhijski struktuiranom podskupu Ebart korpusa novinskih tekstova.
n7The results obtained for both types of classifiers are similar for the corpus as a whole, while hierarchical classifier performs better for most specific classes with a small number of texts. n7Dobijeni rezultati za oba tipa klasifikatora na nivou celog korpusa su približni, dok na nivou pojedinačnih klasa hijerarhijski tip klasifikatora pokazuje bolje rezultate za većinu klasa sa malim brojem tekstova.
n8KEYWORDS: hierarchical text classification, Support Vector Machine Method, Ebart corpus n8KLjUČNE REČI: hijerarhijska klasifikacija teksta, metoda podržavajućih vektora, Ebart korpus
n91. Introduction n91. Uvod