Bibliša: Aligned Collection Search Tool

[ Log In ] [ Register ]
Enhancing Social Newa Media in Bulgarian with Natural Language ProcUnapređivanje društvenih informativnih medija na bugarskom putem obrade prirodnih jezika
INFOtheca, Scientific paper [pdf]INFOteka, Naučni rad [pdf] [WikiData]
ID: 1.2012.2.2 Number: 2 Volume: XIII Month: 12 Year: 2012 UDC: 81’322.4 [tmx] [bow]
Valentin Zhikov
Institution: Ontotext AD
Mail: valentin.zhikov@ontotext.com
Valentin Zhikov
Institucija: Ontotext AD
E-pošta: valentin.zhikov@ontotext.com
Ivelina Nikolova
Institution: IICT, Bulgarian Academy of Sciences and Ontotext AD
Mail: iva@lml.bas.bg
Ivelina Nikolova
Institucija: Institut za informaciono – komunikacione tehnologije (IICT), Bugarske akademije nauka i Ontotext AD
E-pošta: iva@lml.bas.bg
Laura Toloşi
Institution: Ontotext AD
Mail: laura.tolosi@ontotext.com
Laura Toloşi
Institucija: Ontotext AD
E-pošta: laura.tolosi@ontotext.com
Yavor Ivanov
Institution: Xenium Ltd.
Mail: yavor@xenium.bg
Yavor Ivanov
Institucija: Xenium Ltd.
E-pošta: yavor@xenium.bg
Borislav Popov
Institution: Ontotext AD
Mail: borislav.popov@ontotext.com
Borislav Popov
Institucija: Ontotext AD
E-pošta: borislav.popov@ontotext.com
Georgi Georgiev
Institution: Ontotext AD
Mail: georgiev@ontotext.com
Georgi Georgiev
Institucija: Ontotext AD
E-pošta: georgiev@ontotext.com
Abstract
In this work we introduce a system based on natural language processing techniques which aim is to enhance social news media in Bulgarian. It solves the task of multi-class, multi-label classification of documents. We apply the algorithms to a collection of media articles from Svejo.net, a popular Bulgarian web resource comprising user-generated content. Our algorithms are one-versus-all classification methods widely used in the computational linguistics community. We describe the algorithms, the features employed and we evaluate the impact of the features on the performance of the models. Thereby, we show that knowledge about the user and user behavior can greatly improve performance. Also, despite the fact that our document collection is generated entirely by social media users, the quality of the classification results is comparable to that of previously reported studies. We address also the task of automatic keyword and keyphrase extraction from unstructured text, and suit it to the needs of Svejo.net for induction of’themes’. Themes are defined as text snippets that summarize the essence of an article. We evaluate the performance of several generic methods for keyword and keyphrase extraction on a corpus of articles in Bulgarian. The methods that we discuss rely on widely accepted information retrieval and machine learning techniques and are languageindependent. We also consider the effect of a stemmer component on the keyphrase extraction accuracy. The satisfactory performance of our models in spite of the limited linguistic knowledge incorporated in them recommends our models as a baseline for keyword and keyphrase extraction for Bulgarian language.
Apstrakt
U ovom radu, uvodimo sistem zasnovan na tehnikama obrade prirodnih jezika koje imaju za cilj unapređivanje društvenih informativnih medija na bugarskom. Tim sistemom se rešava zadatak klasifikacije dokumenata sa više klasa i više obeležja. Primenjujemo algoritme na zbirku članaka iz medija objavljenih na sajtu Svejo.net, popularnom bugarskom veb resursu koji obuhvata sadržaje koje kreiraju korisnici. U našim algoritmima se koriste metodi klasifikacije „jedan protiv svih“, široko rasprostranjeni u računarskoj lingvistici. Opisujemo algoritme, svojstva koja su upotrebljena i procenjujemo uticaj tih svojstava na delotvornost modela. Time pokazujemo da saznanja o korisniku i ponašanju korisnika mogu mnogo da doprinesu poboljšanju učinka. Osim toga, uprkos činjenici da su celu našu zbirku napravili korisnici društvenih medija, kvalitet rezultata klasifikacije je uporediv sa kvalitetom od ranije poznatih studija. Bavimo se i zadatkom automatske ekstrakcije ključnih reči i izraza iz nestrukturisanog teksta i prilagođavamo ga potrebama Svejo.net-a radi indukovanja „tema“. Teme se definišu kao odlomci teksta u kojima je sumirana suština nekog članka. Ocenjujemo delotvornost nekolikih generičkih metoda ekstrakcije ključnih reči i izraza primenjenih na korpus se oslanjaju na široko prihvaćene metode pronalaženja informacija i mašinskog učenja i funkcionišu nezavisno od jezika. Takođe razmatramo dejstvo komponente koju čini stemer na preciznost ekstrakcije ključnih izraza. Zadovoljavajući učinak naših modela, uprkos ograničenom lingvističkom znanju ugrađenom u njih, preporučuje ih da budu polazna osnova za ekstrakciju ključnih reči i izraza u bugarskom jeziku.
Keywords: natural language processing, machine learning, language agnostic approaches, keyword extraction, text classification Ključne reči: obrada prirodnih jezika, mašinsko učenje, pristupi koji ne zavise od jezika, ekstrakcija ključnih reči, klasifikacija teksta
Pages: 6-18Strane: 7-20
Publishing place:
Publisher:
Publishing year:
Mesto izdanja:
Izdavač:
Godina izdanja:
Translator: Prevodilac:
C:\inetpub\BiblishaMongo\export\11\svg\1_2012_2_2_tmx_0.svg