Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
Personal Names in Information ExtractionVlastita imena u ekstrakciji informacija
INFOtheca, Scientific paper [pdf]INFOteka, Naučni rad [pdf] [WikiData]
ID: 1.2010.1.4 Number: 1 Volume: XI Month: 4 Year: 2010 UDC: [tmx] [bow]
Sandra Gucul-Milojević
Institution: University of Belgrade, Faculty of Philology
Mail: undra01@gmail.com
Sandra Gucul-Milojević
Institucija: Univerzitet u Beogradu, Filološki fakultet
E-pošta: undra01@gmail.com
Abstract
The production of electronic texts on the Internet in digital libraries and archives increases every day and the need for adequate software tools that would enable users to manipulate texts and automatically process them increases with it. In the first part of the paper, various definitions of the Information Extraction field, the short history of the development of IE methods, and its different types and possible applications shall be presented. There are various methods of information extraction. Some are simple methods based on pattern matching, and some that use finite-state automata, context-free grammars or statistical models which are rather more complex. In the second part of the paper, the method for the precise automatic string recognition in a Serbian language digital text of a Serbian name and a surname, as well as English names transcribed in Serbian, will be presented and analyzed. Personal names represent an important part of the lexica of written texts regardless of their form, printed or electronic, and they are widely researched in the information extraction field. The method that is described in this work has been developed in LADL (Laboratoire d’Automatique Documentaire et Linguistique).
Apstrakt
Proizvodnja elektronskih tekstova na vebu, u digitalnim bibliotekama i arhivima povećava se iz dana u dan, a sa njom raste i potreba za odgovarajućim računarskim alatima koji bi korisnicima omogućili jednostavniju manipulaciju tekstom i njegovu lakšu automatsku obradu. Prvi deo ovoga rada daje definiciju oblasti ekstrakcije informacija, kratak prikaz istorijskog razvoja metoda koje koristi, vrste i moguće primene. Metode ekstrakcije informacija su različite, od jednostavnih koje se zasnivaju na sravnjivanju niski (engl. pattern matching) do znatno složenijih koje koriste konačne automate i kontekstno-slobodne gramatike ili statističke modele. U drugom delu rada će biti predstavljen i analiziran metod za precizno automatsko prepoznavanje niske u digitalnom tekstu koja predstavlja formu imena i prezimena u srpskom jeziku i engleskih imena transkribovanih na srpski jezik. Lična imena predstavljaju značajan deo leksike pisanih tekstovima, posebno novinskih, bilo da su u tradicionalnom ili elektronskom obliku, pa se stoga široko istražuju u oblasti ekstrakcije informacija. Metod koji je predstavljen u ovom radu je razvijen u okviru LADL (Laboratoire d'Automatique Documentaire et Linguistique).
Keywords: personal name, information extraction, electronic text, finite state automata, electronic dictionary, local grammar, computational linguisticKljučne reči: vlastito ime, ekstrakcija informacija, elektronski tekst, konačni automat, elektronski rečnik, lokalna gramatika, računarska lingvistika
Pages: 53a-63aStrane: 47-58
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2010_1_4_tmx_0.svg