Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
An Algorithm for Sentence Recovery from PDF FilesAlgoritam za rekonstrukciju rečenica iz PDF dokumenta
INFOtheca, Scientific paper [pdf]INFOteka, Naučni rad [pdf] [WikiData]
ID: 1.2014.2.4 Number: 2 Volume: XV Month: 04 Year: 2015 UDC: 81'322.2:004.912 [tmx] [bow]
Vesna Pajić
Institution: University of Belgrade,Faculty of Agriculture
Mail: svesna@agrif.bg.ac.rs
Vesna Pajić
Institucija: Univerzitet u Beogradu, Poljoprivredni fakultet
E-pošta: svesna@agrif.bg.ac.rs
Staša Vujičić Stanković
Institution: University of Belgrade,Faculty of Mathematics
Mail: stasa@matf.bg.ac.rs
Staša Vujičić Stanković
Institucija: Univerzitet u Beogradu, Matematički fakultet
E-pošta: stasa@matf.bg.ac.rs
Miloš Pajić
Institution: University of Belgrade,Faculty of Agriculture
Mail: paja@agrif.bg.ac.rs
Miloš Pajić
Institucija: Univerzitet u Beogradu, Poljoprivredni fakultet
E-pošta: paja@agrif.bg.ac.rs
Abstract
The use of PDF documents in Natural Language Processing (NLP) became an almost daily activity for researchers in the field of computer linguistics and alike. Extracting plain text from PDF documents, with existing software tools, leads to severe distortion of sentence and paragraph structures, which is a huge problem for linguistically oriented research. In this paper, we present a novel algorithm for recovering sentences and paragraphs from PDF documents, called Sentence Recovery Algorithm or SR algorithm. The algorithm takes plain text extracted from a PDF document as an input, and tends to recover sentences from it. It takes into account cases like misinterpreted end of line, interruption of a sentence by tables or figures, problems occurred by hyphenation and so on. Beside describing and evaluating the algorithm, we present a use case for processing scientific articles originally given in PDF format, implemented in Java programming language.
Apstrakt
Upotreba PDF dokumenata u obradi prirodnih jezika postala je uobičajena i svakodnevna aktivnost istraživača u oblasti računarske lingvistike i njoj sličnih. Izdvajanje teksta iz PDF dokumenata pomoću postojećih softverskih alata dovodi do ozbiljnog narušavanja strukture rečenice i paragrafa, što predstavlja veliki problem za lingvistički orijentisana istraživanja. U ovom radu predstavljamo nov algoritam za rekonstruisanje rečenica i paragrafa iz PDF dokmenata, nazvan algoritam za rekonstruisanje rečenice (eng. Sentence Recovery Algorithm) ili skraćeno SR algoritam. Ovaj algoritam kao ulaz koristi tekst izdvojen iz PDF dokumenta i pokušava da rekonstruiše rečenice iz njega. Algoritam uzima u obzir probleme nastale pogrešnim tumačenjem kraja linije teksta, prekidanja rečenice ili paragrafa nastalim zbog umetnutih tabela ili slika, zatim problema nastalih zbog hifenacije i sličnih. Osim opisivanja i evaluacije algoritma, predstavićemo i jedan slučaj implementacije algoritma u Java programskom jeziku, za obradu naučnih članaka originalno zapisanih u PDF fomatu.
Keywords: Natural Language Processing, Language Re-sources, Java programming, PDF processingKljučne reči: obrada prirodnih jezika, jezički resursi, Java programiranje, procesiranje PDF dokumenata.
Pages: 41-54Strane: 42-55
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2014_2_4_tmx_0.svg