Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic

Објеката

Тип
Рад у зборнику
Верзија рада
објављена
Језик
енглески
Креатор
Teodora Mihajlov, Milica Ikonić Nešić, Ranka Stanković, Olivera Kitanović
Извор
Annals of Computer Science and Information Systems
Издавач
IEEE
Датум издавања
2024
Сажетак
Modeliranje tema je efikasan način da se dobije uvid u velike količine podataka. Neki od najčešće korišćenih metoda za modeliranje tema su Latentna Dirihleova alokacija (LDA) i faktorizacija nenegativne matrice (NMF). Međutim, sa porastom modela samopažnje i unapred obučenih jezičkih modela, pojavili su se novi načini za ekstrakcju tema. BERTopic predstavlja novi pristup modeliranju tema. U ovom radu smo uporedili performanse LDA, NMF i BERTopic na književnim tekstovima na srpskom, merenjem koherentnosti tema i raznovrsnosti tema, kao i kvalitativnom evaluacijom tema. Za BERTopic smo uporedili višejezične transofmerske vektorske reprezentacije rečenica sa jednojezičnim modelom Jerteh-355 za srpski. Za TC, NMF je dao najbolje rezultate, dok je BERTopic sa Jerteh-355 reprezentacijama dao najbolji TD. Jerteh-355 je takođe nadmašio transformatore rečenica u TC i TD.
opic modeling is an effective way to gain insight into large amounts of data. Some of the most widely used topic models are Latent Dirichlet allocation (LDA) and Nonnegative Matrix Factorization (NMF). However, with the rise of self- attention models and pre-trained language models, new ways to mine topics have emerged. BERTopic represents the current state-of-the-art when it comes to modeling topics. In this pa- per, we comapred LDA, NMF, and BERTopic performance on literaty texts in Serbian, by measuring Topic Coherency and Topic Diveristy, as well as qualitatively evaluating the topics. For BERTopic, we compared multilingual sentence transofmer embeddings, to the Jerteh-355 monolingual embeddings for Serbian. For TC, NMF yielded the best results, while BERTopic with Jerteh-355 embeddings gave the best TD. Jerteh-355 also outperformed sentence transformers embeddigs in both TC and TD.
почетак странице
649
крај странице
653
doi
10.15439/2024F1593
issn
2300-5963
Subject
jezički modeli, LDA, modeliranje tema, BERT, BERTopic
language models, LDA, topic modeling, BERT, BERTopic
Шира категорија рада
М30
Ужа категорија рада
М33
Је дио
TESLA
Права
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат
.pdf
Медија
fedcsis1593.pdf

Teodora Mihajlov, Milica Ikonić Nešić, Ranka Stanković, Olivera Kitanović. "Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic" in Annals of Computer Science and Information Systems, IEEE (2024). https://doi.org/10.15439/2024F1593

This item was submitted on 13. децембар 2024. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://romeka.rgf.rs/s/repo

Click here to view the collected data.