Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
Enrichment of Renaissance Texts with Proper NamesObogaćivanje renesansnih tekstova vlastitim imenima
INFOtheca, Scientific paper [pdf]INFOteka, Naučni rad [pdf] [WikiData]
ID: 1.2014.1.3 Number: 1 Volume: XV Month: 09 Year: 2014 UDC: 81'322.2:004.9 [tmx] [bow]
Denis Maurel
Institution: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300
Mail: denis.maurel@univ-tours.fr
Denis Maurel
Institucija: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300
E-pošta: denis.maurel@univ-tours.fr
Nathalie Friburger
Institution: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300
Mail: nathalie.friburger@univ-tours.fr
Nathalie Friburger
Institucija: Université François-Rabelais de Tours, Laboratoire d'informatique, EA 6300
E-pošta: nathalie.friburger@univ-tours.fr
Iris Eshkol-Taravella
Institution: Université d'Orléans, Laboratoire ligérien de linguistique, UMR 7270
Mail: eshkol@univ-orleans.fr
Iris Eshkol-Taravella
Institucija: Université d'Orléans, Laboratoire ligérien de linguistique, UMR 7270
E-pošta: eshkol@univ-orleans.fr
Abstract
The aim of the Renom project was to enrich Renaissance texts with proper names. These texts present two challenges: they exhibit great diversity due to various spellings of words and are overladen with numerous XML-TEI tags introduced to save the exact format of the original edition. The task consisted of adding Named Entity tags to this format by tagging names, that had not been already tagged, and their left, and sometimes right, context when appropriate. In order to achieve this, we have improved free, open source program CasSys to parse texts with Unitex graph cascades and we have built specific dictionaries and cascades. The evaluation showed that the slot error rate of name tagging was 6.1%. Renaissance texts enriched in this way are used in a website that unites Humanities and tourism by allowing visitors to navigate maps with names.
Apstrakt
Cilj projekta Renom je da obogati renesansne tekstove vlastitim imenima. Ovi tekstovi predstavljaju dva izazova: veliku raznovrsnost usled različitog zapisivanja reči; pretrpanost velikim brojem XML-TEI etiketa koje su uvedene da bi se sačuvao tačan izgled originalnog izdanja. Haš zadatak se sastojao od dodavanja etiketa imenovanih entiteta ovom formatu za imena koja nisu već bila obeležena i za kontekst sa njihove leve strane, a ponekad i sa desne strane. U tu svrhu poboljšali smo besplatan program u otvorenog koda CasSys da bismo analizirali tekstove sa Unitex-ovim kaskadama grafova i napravili smo posebne rečnike i kaskade. Evaluacija je pokazala da je stopa greške bila 6,1%. Renesansni tekstovi obogaćeni na ovaj način koriste se na veb-sajtu koji objedinjuje humanističke nauke i turizam tako što omogućavaju navigaciju po mapama preko imena koja se na njima nalaze.
Keywords: Named entities, Renaissance texts, Graph cascades, CasSys, Humanities and tourismKljučne reči: imenovani entiteti, renesansni tekstovi, kaskade grafova, CasSys, humanističke nauke i turizam
Pages: 29a-41aStrane: 30-41
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2014_1_3_tmx_0.svg