A Suffix Subsumption-based Approach to Building Stemmers and Lemmatizers for Highly Inflectional Languages with Sparse Resources | Pristup izgradnji stemera i lematizatora za jezike s bogatom fleksijom i oskudnim resursima zasnovan na obuhvatanju sufiksa |
INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2008.1/2.4 Number: 1/2 Volume: IX Month: 5 Year: 2008 UDC: [tmx] [bow] |
Vlado Kešelj Institution: Dalhousie University | Vlado Kešelj Institucija: Univerzitet Dalhousie |
Danko Šipka Institution: Arizona State University | Danko Šipka Institucija: Državni univerzitet Arizona |
Abstract We present a general suffix-based method for construction of stemmers and lemmatizers for highly inflectional languages with only sparse resources. The process is directly implementable with described efficient design and it is evaluated on a construction of a stemmer for the Serbian language. The evaluation on real data has shown an accuracy of 79%. | Apstrakt Predstavljamo opšti sufiksni metod za konstruisanje stemera i lematizera za jezike sa bogatom fleksijom i oskudnim resursima. Opisali smo jedan efikasan pristup pomoću koga se proces može direktno implementirati, a evaluacija je izvršena na konstrukciji stemera za srpski jezik. Evaluacija na verodostojnim podacima dala je tačnost od 79%. |
Pages: 23a-33a | Strane: 21-31 |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |