Annotation of the Serbian ELTeC Collection | Anotacija srpske kolekcije u okviru ELTeC korpusa |
INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2021.2.3 Number: 2 Volume: 21 Year: 2021 UDC: 811.163.41’322.2 [tmx] [bow] |
Ranka Stanković Institution: University of Belgrade, Faculty of Mining and Geology Mail: ranka.stankovic@rgf.bg.ac.rs | Ranka Stanković Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet E-pošta: ranka.stankovic@rgf.bg.ac.rs |
Cvetana Krstev Institution: University of Belgrade, Faculty of Philology Mail: cvetana@matf.bg.ac.rs | Cvetana Krstev Institucija: Univerzitet u Beogradu, Filološki fakultet E-pošta: cvetana@matf.bg.ac.rs |
Branislava Šandrih Todorović Institution: University of Belgrade, Faculty of Philology Mail: branislava.sandrih@fil.bg.ac.rs | Branislava Šandrih Todorović Institucija: Univerzitet u Beogradu, Filološki fakultet E-pošta: branislava.sandrih@fil.bg.ac.rs |
Mihailo Škorić Institution: University of Belgrade, Faculty of Mining and Geology Mail: mihailo.skoric@rgf.bg.ac.rs | Mihailo Škorić Institucija: Univerzitet u Beogradu, Rudarsko-geološki fakultet E-pošta: mihailo.skoric@rgf.bg.ac.rs |
Abstract This paper presents the so-called level-2 edition of SrpELTeC collection developed within the activities of Working Group 2 - Methods and Tools of the COST Action CA 16204 (Distant Reading for European Literary History), and its schema specification. The level-2 edition is a follow-up of the level-1 edition, which is used as input for morphosyntactic and NER annotation of novels. The Serbian level-2 pipeline outlines steps required for production of level-2, including methods and tools used in the process. Some statistics drawn from the Serbian ELTeC level-2 sub-collection brings an interesting insight into collection content. | Apstrakt Ovaj rad prikazuje takozvanu level-2 shemu za anotaciju kolekcije SrpELTeC koja je razvijena u okviru aktivnosti Radne grupe 2 - metode i alati COST akcije CA 16204 (Udaljeno čitanje za istoriju evropske književnosti) i wenu specifikaciju. Shema Level-2 je nastala na osnovu sheme level-1 koja se koristi kao ulaz za morfosintaksičku i NER anotaciju romana. Srpska verzija level-2 sheme prikazuje korake koji su neophodni za anotaciju, uključujući metode i alate koji se u tom procesu koriste. Neke statistike nastale na osnovu anotacije shemom level-2 potkolekcije srpski ELTeC daju interesantan pogled na sadržaj same kolekcije. |
Keywords: distant reading, literary
corpus, tagging, NER, lemmatization,
ELTeC | Ključne reči: udaljeno čitanje, književni korpus, tagiranje, NER, lematizacija, ELTeC |
Pages: 43-59 | Strane: |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |