Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]

 [About]



En/De/Fr/It- (first 9 out of 19 sentences) [pdf] Srpski - (prvih 9 od 19 rečenica) [pdf]
n1Miloš Košprdić, Gorana Gojić, Adela Ljajić, Dragiša Miškovićn1Miloš Košprdić, Gorana Gojić, Adela Ljajić, Dragiša Mišković
n2Istraživačko-razvojni institut za veštačku inteligenciju Srbijen2Istraživačko-razvojni institut za veštačku inteligenciju Srbije
n3[milos.kosprdic|gorana.gojic|adela.ljajic|dragisa.miskovic]@ivi.ac.rsn3[milos.kosprdic|gorana.gojic|adela.ljajic|dragisa.miskovic]@ivi.ac.rs
n4DEVELOPMENT OF A SEMANTIC SEARCH MODEL FOR SERBIANn4RAZVOJ MODELA SEMANTIČKE PRETRAGE ZA SRPSKI JEZIK
n5The development of large language models represents a significant advancement in natural language processing, enabling efficient semantic search and text understanding.n5Razvoj velikih jezičkih modela predstavlja značajan napredak u oblasti obrade prirodnih jezika, omogućavajući efikasnu semantičku pretragu i razumevanje teksta.
n6 This paper presents the training process of a large language model for semantic search in Serbian, focusing on the task of passage ranking.n6 U ovom radu predstavljamo proces treniranja velikog jezičkog modela za semantičku pretragu na srpskom jeziku, fokusirajući se na zadatak rangiranja pasusa (engl. passage ranking).
n7 The model is based on the msmaarco-bert-base-dot-v5 architecture and adapted for asymmetric semantic search.n7 Model koji koristimo je zasnovan na msmaarco-bert-base-dot-v5 arhitekturi i prilagođen za asimetričnu semantičku pretragu.
n8To facilitate model training in Serbian, we used the MSMarco dataset, which was automatically translated from English to Serbian using Google Translate.n8Da bismo omogućili treniranje modela na srpskom jeziku, koristili smo MSMarco skup podataka koji smo automatski preveli sa engleskog na srpski koristeći Google prevodilac.
n9 This dataset encompasses a wide range of questions and answers, allowing the model to learn the richness of semantic connections in Serbian.n9 Ovaj skup podataka obuhvata širok spektar pitanja i odgovora, omogućavajući modelu da nauči bogatstvo semantičkih veza na srpskom jeziku.