Collected Item: “Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic”
Врста публикације
Рад у зборнику
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Teodora Mihajlov, Milica Ikonić Nešić, Ranka Stanković, Olivera Kitanović
Наслов рада (Наслов - поднаслов)
Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic
Назив конференције (зборника), место и датум одржавања
Annals of Computer Science and Information Systems
Издавач (Београд : Просвета)
IEEE
Година издавања
2024
Сажетак рада на српском језику
Modeliranje tema je efikasan način da se dobije uvid u velike količine podataka. Neki od najčešće korišćenih metoda za modeliranje tema su Latentna Dirihleova alokacija (LDA) i faktorizacija nenegativne matrice (NMF). Međutim, sa porastom modela samopažnje i unapred obučenih jezičkih modela, pojavili su se novi načini za ekstrakcju tema. BERTopic predstavlja novi pristup modeliranju tema. U ovom radu smo uporedili performanse LDA, NMF i BERTopic na književnim tekstovima na srpskom, merenjem koherentnosti tema i raznovrsnosti tema, kao i kvalitativnom evaluacijom tema. Za BERTopic smo uporedili višejezične transofmerske vektorske reprezentacije rečenica sa jednojezičnim modelom Jerteh-355 za srpski. Za TC, NMF je dao najbolje rezultate, dok je BERTopic sa Jerteh-355 reprezentacijama dao najbolji TD. Jerteh-355 je takođe nadmašio transformatore rečenica u TC i TD.
Сажетак рада на енглеском језику
opic modeling is an effective way to gain insight into large amounts of data. Some of the most widely used topic models are Latent Dirichlet allocation (LDA) and Nonnegative Matrix Factorization (NMF). However, with the rise of self- attention models and pre-trained language models, new ways to mine topics have emerged. BERTopic represents the current state-of-the-art when it comes to modeling topics. In this pa- per, we comapred LDA, NMF, and BERTopic performance on literaty texts in Serbian, by measuring Topic Coherency and Topic Diveristy, as well as qualitatively evaluating the topics. For BERTopic, we compared multilingual sentence transofmer embeddings, to the Jerteh-355 monolingual embeddings for Serbian. For TC, NMF yielded the best results, while BERTopic with Jerteh-355 embeddings gave the best TD. Jerteh-355 also outperformed sentence transformers embeddigs in both TC and TD.
Почетна страна рада
649
Завршна страна рада
653
DOI број
10.15439/2024F1593
ISSN број изворне публикације
2300-5963
Кључне речи на српском (одвојене знаком ", ")
jezički modeli, LDA, modeliranje tema, BERT, BERTopic
Кључне речи на енглеском (одвојене знаком ", ")
language models, LDA, topic modeling, BERT, BERTopic
Линк
http://dx.doi.org/10.15439/2024F1593
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Пројект у склопу кога је настао рад
TESLA
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат датотеке
.pdf