Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]

 An Algorithm for Sentence Recovery from PDF Files / Vesna Pajić, Staša Vujičić Stanković, Miloš Pajić = Algoritam za rekonstrukciju rečenica iz PDF dokumenta / Vesna Pajić, Staša Vujičić Stanković, Miloš Pajić[About]



En/De/Fr/It- (first 9 out of 282 sentences) [pdf] Srpski - (prvih 9 od 282 rečenica) [pdf]
n1Abstract: The use of PDF documents in Natural Language Processing (NLP) became an almost daily activity for researchers in the field of computer linguistics and alike.n1Sažetak: Upotreba PDF dokumenata u obradi prirodnih jezika postala je uobičajena i svakodnevna aktivnost istraživača u oblasti računarske lingvistike i njoj sličnih.
n2 Extracting plain text from PDF documents, with existing software tools, leads to severe distortion of sentence and paragraph structures, which is a huge problem for linguistically oriented research.n2 Izdvajanje teksta iz PDF dokumenata pomoću postojećih softverskih alata dovodi do ozbiljnog narušavanja strukture rečenice i paragrafa, što predstavlja veliki problem za lingvistički orijentisana istraživanja.
n3In this paper, we present a novel algorithm for recovering sentences and paragraphs from PDF documents, called Sentence Recovery Algorithm or SR algorithm.n3 U ovom radu predstavljamo nov algoritam za rekonstruisanje rečenica i paragrafa iz PDF dokmenata, nazvan algoritam za rekonstruisanje rečenice (eng. Sentence Recovery Algorithm) ili skraćeno SR algoritam.
n4 The algorithm takes plain text extracted from a PDF document as an input, and tends to recover sentences from it.n4 Ovaj algoritam kao ulaz koristi tekst izdvojen iz PDF dokumenta i pokušava da rekonstruiše rečenice iz njega.
n5 It takes into account cases like misinterpreted end of line, interruption of a sentence by tables or figures, problems occurred by hyphenation and so on.n5 Algoritam uzima u obzir probleme nastale pogrešnim tumačenjem kraja linije teksta, prekidanja rečenice ili paragrafa nastalim zbog umetnutih tabela ili slika, zatim problema nastalih zbog hifenacije i sličnih.
n6 Beside describing and evaluating the algorithm, we present a use case for processing scientific articles originally given in PDF format, implemented in Java programming language.n6 Osim opisivanja i evaluacije algoritma, predstavićemo i jedan slučaj implementacije algoritma u Java programskom jeziku, za obradu naučnih članaka originalno zapisanih u PDF fomatu.
n7Keywords: Natural Language Processing, Language Resources, Java programming, PDF processingn7Ključne reči: obrada prirodnih jezika, jezički resursi, Java programiranje, procesiranje PDF dokumenata.
n8Computer processing of texts written in natural languages (known as Natural Language Processing or NLP) is developing extensively in recent years.n8Računarska obrada tekstova na prirodnim jezicima, poznata i kao obrada prirodnih jezika (eng. Natural Langugae Processing ili NLP) intenzivno se razvija poslednjih godina.
n9 Its development is followed by its integration with other areas of computer science, such as text mining, information retrieval, information extraction, machine translation and others.n9 Razvoj je praćen i njenom integracijom sa drugim oblastima računarstva, kao što su istraživanje teksta, pretraga informacija, ekstrakcija informacija, mašinsko prevođenje i druge.