Bibliša: Aligned Collection Search Tool

Journal selection

Bibliša is a digital library of aligned bilingual journal articles. Search of multilingual text repository is based on key words with additional use other resources, such as e-dictionaries, semantic networks, termbases, and the like. which provides search by concept. Bibliša je digitalna biblioteka paralelizovanih članaka dvojezičnih časopisa. Pretraživanje višejezičnih tekstualnih repozitorijuma se zasnova na ključnim rečima uz korišćenje drugih resursa, kakvi su e-rečnici, semantičke mreže, terminološke baze, i sl. što omogućuje pretragu po konceptima.
Therefore, Biblisha is a tool for searching digital libraries e-journal specially designed for those published bilingual and currently contains three journals: INFOtheka, Underground Mining Engineering and Architecture and Urbanism. Dakle, Bibliša je alat za pretraživanje digitalne biblioteke e-časopisa naročito namenjen onima koji izlaze dvojezično. U bazi se trenutno nalaze tri časopisa: Infoteka, Podzemni radovi i Arhitektura i urbanizam.
The database consists of 8 issues of INFOtheca dating from 2007. to 2012. which makes the total of 54 documents, 6 issues Underground Mining Engineering dating from 2004 to 2012, the total of 59 documents, and 8 issues of Architecture and Urbanism dating from 2000 to 2013. with the total of 11 documents. U bazi se nalazi 8 brojeva Infoteke iz perioda.od 2007- 2012. godine sa ukupno 54 dokumenata, 6 brojeva Podzemnih radova iz perioda 2004-2012. sa ukupno 59 dokumenata. U bazi se nalazi i 8 brojeva Arhitekture i urbanizma iz perioda 2000-2013. sa ukupno. 11 dokumenata.
For expanded queries, general lexical resources are used: Serbian morphological e-dictionary, English and Serbian WordNet; as for specific resource, bilingual Dictionary of Librarianship (English and Serbian) is used. Za proširenje upita se koriste opšti lekšički resurski: srpski morfološki e-rečnici, engleski i srpski WordNet, a od specifičnih: dvojezični (engleski i srpski) Bibliotekarski terminološki rečnik
Picture shows the resulting page upon selecting “Journal selection” link, where the User can select the default journal, as well as lexical and terminology resources on which to base the query on. Selection of resources is used as default configuration for query expansion. Na slici je prikazana stranica koja se dobija iz menija izborom "Journal selection" na kojoj korisnik može da izabere podrazumevani časopis za pretragu, kao i leksičke i terminološke resurse koje će da koristi. Izbor resursa se koristi kao podrazumevana konfiguracija za proširenje upita.

Home: search collection of journal articles

The User enters the keyword for query and selects magazine to search on the Home page. The system is set to search the default journal, but allows for a selection of a different journal from the dropdown list of available journals. The ones that will be used in extended query will have a check mark before them, depending on default settings. Na osnovnoj stranici (Home) se zadaje ključna reč za pretragu i bira časopis. Sistem automatski podešava na prethodno postavljeni podrazumevani časopis, ali dozvoljava izbor u padajućoj listi nekog drugog časopisa ili svih raspoloživih časopisa. U zavisnosti od podrazumevanih podešavanja za rečnike, biće potvrđeni oni koje se koriste za proširenje upita.
Besides the keyword itself, it is necessary to choose the keyword language, and then click on the “Preview term for query” link. The system uses web services to find synonyms and English translations in dictionaries. The User can remove or add term using “,” as separator. Uz ključnu reč treba navesti i jezik ključne reči, nakon čega se klikne "Preview term for query". Sistem poziva veb servise koji pronalaze sinonime i prevode na engleski jezik u rečnicima. Korisnik može da obriše neke od ponuđenih termina ili da dopiše, pri čemu treba koristiti "," kao separator.
Expanded query includes all the synonyms and translations stated in the panel by making disjunction (OR) between the terms in one language. User can select from the dropdown list on the bottom of the page whether the query in Serbian and English should be in disjunction (OR) or conjunction (AND). For example, for the keyword ‘Biblioteka’, WordNet offers the following synonyms in Serbian: ‘programska biblioteka’, ‘biblioteka programa’, ‘polica za knjige’; in English, the synonyms are: 'program library', 'subroutine library', 'bookcase', 'bibliotheca'. Prošireni upit će da uključi sve sinonime i prevode navedene na panelu tako što će da napravi disjunkciju (OR) između termina je jednom jeziku. Korisnik u padajućoj listi na dnu strane može da odabere da li upit na srpskom i engleskom treba da budu u diskunkciji (OR) ili konjunkciju (AND). Na primer, za ključnu reč biblioteka, WordNet nudi na srpskom sinonime: 'programska biblioteka', 'biblioteka programa', 'polica za knjige', a na engleskom 'program library', 'subroutine library', 'bookcase', 'bibliotheca'.
The final form of the query is obtained by morphological expansion of the each individual term through web service Vebran (ref) based on Unitex (ref) routines and morphological e-dictionaries (ref) with inflectional forms. For example, the term ‘programska biblioteka’ is assigned with the terms 'programske biblioteke', 'programskoj biblioteci', 'programsku biblioteku', 'programska biblioteko', 'programskom bibliotekom', 'programskih biblioteka', 'programskim bibliotekama'. Konačan oblik upita se dobija morfološkim proširenjem u kom se svakom od izabranih termina korišćenjem veb servisa Vebran (ref) zasnovanog na Unitex(ref) rutinama i morfološkim e-rečnicima (ref) dodaju flektivni oblici. Na primer, terminu 'programska biblioteka' se pridružuju 'programske biblioteke', 'programskoj biblioteci', 'programsku biblioteku', 'programska biblioteko', 'programskom bibliotekom', 'programskih biblioteka', 'programskim bibliotekama'.
The query expanded semantically, morphologically and in other language, transforms into XQuery, which is then used to search collections of TMX documents of journal articles. XQuery form is forwarded to TMX documents database in MarkLogic system for management of XML databases. Upit proširen semantički, morfološki i na drugi jezik se se transformiše u XQuery koji se koristi za pretragu kolekcije TMX dokumenata koja je dobijena od članaka časopisa. XQuery oblik upita se prosleđuje bazi TMX dokumenata koja je skladištena u MarkLogic sistemu za upravljanje XML bazama podataka.
MarkLogic is a NoSQL document database that has evolved from native XML DBMS database to enterprise NoSQL. It combines a database, search engine and application services together in one platform. MarkLogic je NoSQL baza podataka za rukovanje dokumentima koja je nastala iz izvorne XML baze podataka u NoSQL SUBP na nivou preduzeća. On objedinjuje baze podataka, pretraživač i servise za izradu aplikacija u jednoj razvojnoj platformi.
As a result, aligned concordances with all the keywords in both languages appear. At the beginning of each concordance line is identification of the document from which the line originates – the identification is the hyperlink to metadata card for both languages. Metadata card has hyperlinks to TMX and PDF documents in both languages. Picture shows result of the query. Kao rezultat se dobija skup poravnatih linija konkordanci u kojima su sve pronađene ključne reči istaknute u oba jezika. Na početku svake linije konkordanci je identifikacija dokumenta iz koga linija potiče – ta identifikacija je hiperveza ka kartici metapodataka za oba jezika. Kartica metapodataka ima hiperveze ka TMX-u i PDF-u dokumenta na oba jezika.Na slici je prikazan rezultat upita.

About metadata

The preparation of metadata of all texts includes creating XML documents using elements ID, URL and ISSN, as well as title in Serbian and English and brief description of the journal. Every individual journal issue has ID (format of ID is: journal ID. year published. Number of issue), issue, volume, month and year of publishing. Priprema metapodataka svih tekstova je obuhvatila kreiranje XML dokumenta u kom je za svaki časopis naveden: ID, URL i ISSN, a na srpskom i engleskom su dati naslov i kratak opis časopisa. Za svaki pojedinačan broj časopisa se evidentira: ID (u formatu: ID časopisa.godina.broj časopisa), broj, tom, mesec i godina izdavanja.
Every article contains: ID (in the following format: journal ID. Year. Issue. Number of article), UDC, Name/s of Author/s, affiliation, e-adress, followed by Title of the article, categorization, pagination, abstract keywords in English and Serbian. The picture shows part of the XML document with metadata. Za svaki članak se beleže: ID ((u formatu: ID časopisa.godina.broj časopisa.broj članka), UDC, ime(na) autor(a), afilijacija, e-adresa, a potom, na srpskom i engleskom: naslov članka, kategorizacija, brojevi stranica, apstrakt, ključne reči. Na slici je prikazan deo XML dokumenta sa metapodacima.

Metadata search

The search of the Serbian or English part of the collection using Author’s name, words in the article, year of publishing and keywords (ether individually or by combining some or all of them) is available by clicking the ‘Metadata search’ link in the menu Pretraživanje srpskog ili engleskog dela kolekcije korišćenjem imena autora, reči iz naslova članaka, godine izdavanja i ključnih reči (pojedinačno ili njihovim kombinovanjem bulovskim operatorima) je prikazano na slici, a poziva se sa 'Metada search' iz menija.
To search the metadata User can select language and journal (it is possible to simultaneously search through all available journals). User enters the search criteria in the search field, then applies criteria by clicking the ‘+’ sign. Boolean operators ‘OR’ and ‘AND’ build the search query: same field with 'OR' different fields 'AND'. Example in the picture shows how the system finds all articles from the journal Infotheca written by Ranka or Cvetana, published in 2010 or 2012. Za pretraživanje metapodataka, moguće je odabrati jezik pretrage i časopis (moguća je istovremena pretraga svih časopisa). Kriterijum pretrage se gradi izborom polja za pretragu i unosom teksta koji želimo da pronađemo u izabrano polje, nakon čega treba kliknuti '+' da bi se kriterijum primenio. Kada se gradi upit za pretragu ista polja se spajaju operatorom 'OR', a različita 'AND'. Na primeru sa slike sistem će pronaći sve članke iz časopisa Infoteka koje su napisale Ranka ili Cvetana, a publikovani su 2010 ili 2012.
To exclude the criteria click on ‘x’ button, and to delete the whole query click ‘New search criterion’. Za brisanje jednog kriterijuma koristi se 'x' a za brisanje celog upita 'New search criterion'
Result is the list of articles matching the metadata query with links to full text article in .pdf format, as well as aligned text in .html format. Depicted is the result of the previous query for the selected language (Serbian). Selection of language 'en' retrieves a page with metadata in English Kao rezultat upita se dobija se lista članaka koji odgovaraju upitu preko metapodataka sa vezama ka kompletnom tekstu članka u .pdf i ka paralelizovanoj verziji u .html formatu. Na slici je prikazan rezultat prethodnog upita za izabrani jezik (srpski). Izborom jezika 'en' dobija se stranica sa metapodacima na engleskom.
This page contains links to pdf and tmx format of article in English or Serbian, as the picture shows. Sa ove stranice korisnik može da pozove pdf oblik članka na srpskom ili engleskom, kao i tmx oblik rada, što je prikazano na slici.

Metadata browse

Browsing the metadata in Serbian and English for the selected journal starts with the ‘Metadata browse’ menu. Prelistavanje metapodataka na srpskom i engleskom za pojedinačne časopise se poziva sa stranice 'Metadata browse'.
Picture shows the page for browsing metadata in English for the journal Infotheca. User can also access the article in tmx and pdf format following the links on this page. Na slici je prikazana stranica za prelistavanje metapodataka na engleskom za časopis Infoteka. Sa ove stranice je moguće pristupiti traženom članku u tmx i pdf formatu.
Similarly, browsing in Serbian results in following page. Slično, prelistavanje na srpkom daje odgovarajuću stranicu.
Click on the link ‘metadata’ opens the page with basic data on paper in Serbian and English. Klikom na vezu 'metadata' se dobija stranica sa osnovnim podacima o radu na srpskom i engleskom.

MarkLogic search

Under construction Radovi u toku

Biblimir

Under construction Radovi u toku

Text alignment and Tmx document creation

Preliminary phase for parallelization consists of forming XML document (eXtensible Markup Language) according to TEI consortium. In practice, this step is comprised of marking the divisions, titles, paragraphs and segments using text editing software (XML, Spy, oXygen, PSPad, XML Copy Editor etc.) with support using DTD (Document Type Definition) scheme to validate and check well-formedness. This part can be automated using final transducers, but still manual intervention is necessary. Pripremna faza za paralelizaciju tekstova se sastoji od formiranja XML (eXtensible Markup Language) dokumenta koji je u skladu preporukama TEI konzorcijuma. Ovaj korak se u praksi sastoji od obeležavanja celina, naslova, pasusa i segmenata, korišćenjem nekog od programa za editovanje teksta (XML Spy, oXygen, PSPad, XML Copy Editor itd.) koji podržava korišćenje DTD (Document Type Definition) sheme za validaciju i proveru dobre formiranosti. Ovaj deo se može automatizovati korišćenjem konačnih transduktora ali su ručne intervencije neophodne.
The following picture shows the example of valid and well formed XML document. Na sledećoj slici je prikazan primer validnog i dobro formiranog XML dokumenta.
The next key step is pairing the text – parallelization. The aim is to determine which element of the text correlate with the translation of the element in the corresponding text. The task is to establish the connection between the translations in both texts. In this case, segments are paired that sometimes even represent the whole sentence or just a part of it, depending on complexity of the sentence or the very translation. Sledeći, ujedno i ključni korak, je uparivanje tektova – paralelizacija. Zadatak ovog koraka se svodi na utvrđivanje koji elementi jednog teksta predstavlja prevod odgovarajućeg elemenata drugog teksta. Radi se na uspostavljanju veze prevodnih delova teksta. U ovom slučaju se uparuju segmenti, koji su nekad čitava rečenica a nekad delovi rečenice, u zavisnosti od složenosti rečenice ili samog prevoda.
Parallelization is done within ACIDE, using the option Build All from the meny Alignment. User enters the XML documents to be paired. Paralelizacija se vrši u integrisanom okruženju ACIDE korišćenjem opcije Build All iz menija Alignment. Korisnik zadaje ulazne XML dokumente za uparivanje.
As an end result, three documents are created with extension _f_id, _s_id and _fs. The first two represent the original documents, whose seg labels are tagged with the attribute id=”nx”, which is to identify the serial number of the segment. Examples are shown in the next picture. Kao krajnji rezultat se dobijaju tri dokumenta sa ekstenzijama _f_id, _s_id i _fs. Prva dva predstavljaju XML izvorne dokumente čijim etiketama seg su dodeljeni atributi id=”nx” koji služe za identifikaciju rednog broja segmenta. Primeri su prikazani u sledećoj slici.
Document with an extension _fs contains the information about paired segments, as shown in the following picture. Dokument sa ekstenzijom _fs, prikazan na sledećoj slici, čuva informacije o uparenim segmentima.
The method used in the Alignment is based on the number of characters (length of the segment). This approach is very successful (as much as 96% correctly paired documents). Mistakes in pairing, however, must be corrected manually, which is done through the Concordancier software. Metoda koju koristi Alignment je zasnovana na broju karaktera (tj. dužini segmenta). Ovakav pristup je veoma uspešan (i do 96% tačnih uparivanja). Greške prilikom uparivanja moraju se ručno ispravljati, i to omogućava program Concordancier.
Generating TMX documents Generisanje TMX dokumenta
When all the elements have been paired correctly, it is time for the final part – transcribing to TMX document. This is done by selecting the Generate TMX button, and selecting paired file with the _fs extension. Kada su svi elementi pravilno upareni, dolazi se do završnog dela – prevođenja u TMX dokument. Ovaj deo se radi pozivanjem opcije Generate TMX i odabira uparene datoteke sa ekstenzijom _fs.
Selecting the Article metadata opens the dialog window for entering article metadata that will appear within the prop label. Dialog window is shown in the following picture. Pozivanjem dugmeta Article metadata se otvara dijalog za popunjavanje metapodataka o članku, koji će se javljati u okviru etikete prop. Dijalog je prikazan na sledećoj slici.
After entering the metadata, selecting the Text integration button generates TMX document. Nakon popunjavanja metapodataka, pozivom dugmeta Text integration, vrši se pretvaranje u TMX document.
TMX consists of tu (Translation Unit) and tuv elements. The example is shown in the following picture. TMX se sastoji od elemenata tu – Translation Unit i tuv. Primer je prikazan na sledećoj slici.
Finally, the option to generate HTML view of the final TMX document is available. Na samom kraju, moguće je generisati i HTML prikaz završnog TMX-dokumenta.

