Annotating the Corpus of Contemporary Serbian | Anotacija Korpusa savremenog srpskog jezika |
INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2011.2.3 Number: 2 Volume: XII Month: 12 Year: 2011 UDC: 004.9:811.163.41’374 [tmx] [bow] |
Miloš Utvić Institution: University of Belgrade, Faculty of Philology Mail: misko@matf.bg.ac.rs | Miloš Utvić Institucija: Univerzitet u Beogradu, Filološki fakultet E-pošta: misko@matf.bg.ac.rs |
Abstract This article describes stages in annotation of the 113 million Corpus of Contemporary Serbian (preparation and implementation). There are several levels of annotation which have been conducted. Corresponding bibliographical information is attached to each corpus text. Part-of-speech (PoS) tagset is prepared, based on the electronic morphological dictionary of Serbian, as well as dictionary of possible annotations adapted for TreeTagger, the PoS tagging system. The Corpus of Contemporary Serbian has been automatically, morphosyntactically annotated with TreeTagger software, i.e. information about part of speech and lemma has been attached to each corpus word form. TreeTagger used manually tagged one million word corpus INTERA as a training set. Ten-fold cross-validation is used for evaluation of applied annotation procedure. | Apstrakt Ovaj tekst opisuje pripremu i realizaciju anotacije Korpusa savremenog srpskog jezika veličine 113 miliona reči. Anotacija je sprovedena na nekoliko nivoa. Svakom tekstu korpusa je pridružena odgovarajuća bibliografska informacija. Na osnovu elektronskog morfološkog rečnika srpskog jezika pripremljen je skup etiketa za vrste reči, kao i rečnik za anotaciju prilagođen programu za etiketiranje TreeTagger. Korišćenjem programa TreeTagger i ručno anotiranog korpusa INTERA veličine oko milion reči, izvršena je automatska morfosintaksička anotacija Korpusa savremenog srpskog jezika, tj. korpusnim rečima je pridružena informacija o vrsti reči i lemi. Primenom desetostruke unakrsne provere (eng. 10-fold cross-validation) obavljena je evaluacija primenjenog postupka. |
Keywords: annotation, corpus, tagger, TreeTagger | Ključne reči: anotacija, korpus, tagger, TreeTagger |
Pages: 36a-47a | Strane: 39-51 |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |