Enrichment of Renaissance Texts with Proper Names | Obogaćivanje renesansnih tekstova vlastitim imenima |
INFOtheca, Scientific paper [pdf] | INFOteka, Naučni rad [pdf] [WikiData] |
ID: 1.2014.1.3 Number: 1 Volume: XV Month: 09 Year: 2014 UDC: 81'322.2:004.9 [tmx] [bow] |
Denis Maurel Institution: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300 Mail: denis.maurel@univ-tours.fr | Denis Maurel Institucija: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300 E-pošta: denis.maurel@univ-tours.fr |
Nathalie Friburger Institution: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300 Mail: nathalie.friburger@univ-tours.fr | Nathalie Friburger Institucija: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300 E-pošta: nathalie.friburger@univ-tours.fr |
Iris Eshkol-Taravella Institution: Université d'Orléans, Laboratoire ligérien de linguistique, UMR 7270 Mail: eshkol@univ-orleans.fr | Iris Eshkol-Taravella Institucija: Université d'Orléans, Laboratoire ligérien de linguistique, UMR 7270 E-pošta: eshkol@univ-orleans.fr |
Abstract The aim of the Renom project was to enrich Renaissance texts with proper names. These texts present two challenges: they exhibit great diversity due to various spellings of words and are overladen with numerous XML-TEI tags introduced to save the exact format of the original edition. The task consisted of adding Named Entity tags to this format by tagging names, that had not been already tagged, and their left, and sometimes right, context when appropriate. In order to achieve this, we have improved free, open source program CasSys to parse texts with Unitex graph cascades and we have built specific dictionaries and cascades. The evaluation showed that the slot error rate of name tagging was 6.1%. Renaissance texts enriched in this way are used in a website that unites Humanities and tourism by allowing visitors to navigate maps with names. | Apstrakt Cilj projekta Renom je da obogati renesansne tekstove vlastitim imenima. Ovi tekstovi predstavljaju dva izazova: veliku raznovrsnost usled različitog zapisivanja reči; pretrpanost velikim brojem XML-TEI etiketa koje su uvedene da bi se sačuvao tačan izgled originalnog izdanja. Haš zadatak se sastojao od dodavanja etiketa imenovanih entiteta ovom formatu za imena koja nisu već bila obeležena i za kontekst sa njihove leve strane, a ponekad i sa desne strane. U tu svrhu poboljšali smo besplatan program u otvorenog koda CasSys da bismo analizirali tekstove sa Unitex-ovim kaskadama grafova i napravili smo posebne rečnike i kaskade. Evaluacija je pokazala da je stopa greške bila 6,1%. Renesansni tekstovi obogaćeni na ovaj način koriste se na veb-sajtu koji objedinjuje humanističke nauke i turizam tako što omogućavaju navigaciju po mapama preko imena koja se na njima nalaze. |
Keywords: Named entities, Renaissance texts, Graph cascades, CasSys, Humanities and tourism | Ključne reči: imenovani entiteti, renesansni tekstovi, kaskade grafova, CasSys, humanističke nauke i turizam |
Pages: 29a-41a | Strane: 30-41 |
Publishing place: Publisher: Publishing year: | Mesto izdanja: Izdavač: Godina izdanja: |
Translator: | Prevodilac: |