Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic
Објеката
- Тип
- Рад у зборнику
- Верзија рада
- објављена
- Језик
- енглески
- Креатор
- Teodora Mihajlov, Milica Ikonić Nešić, Ranka Stanković, Olivera Kitanović
- Извор
- Annals of Computer Science and Information Systems
- Издавач
- IEEE
- Датум издавања
- 2024
- Сажетак
- Modeliranje tema je efikasan način da se dobije uvid u velike količine podataka. Neki od najčešće korišćenih metoda za modeliranje tema su Latentna Dirihleova alokacija (LDA) i faktorizacija nenegativne matrice (NMF). Međutim, sa porastom modela samopažnje i unapred obučenih jezičkih modela, pojavili su se novi načini za ekstrakcju tema. BERTopic predstavlja novi pristup modeliranju tema. U ovom radu smo uporedili performanse LDA, NMF i BERTopic na književnim tekstovima na srpskom, merenjem koherentnosti tema i raznovrsnosti tema, kao i kvalitativnom evaluacijom tema. Za BERTopic smo uporedili višejezične transofmerske vektorske reprezentacije rečenica sa jednojezičnim modelom Jerteh-355 za srpski. Za TC, NMF je dao najbolje rezultate, dok je BERTopic sa Jerteh-355 reprezentacijama dao najbolji TD. Jerteh-355 je takođe nadmašio transformatore rečenica u TC i TD.
- opic modeling is an effective way to gain insight into large amounts of data. Some of the most widely used topic models are Latent Dirichlet allocation (LDA) and Nonnegative Matrix Factorization (NMF). However, with the rise of self- attention models and pre-trained language models, new ways to mine topics have emerged. BERTopic represents the current state-of-the-art when it comes to modeling topics. In this pa- per, we comapred LDA, NMF, and BERTopic performance on literaty texts in Serbian, by measuring Topic Coherency and Topic Diveristy, as well as qualitatively evaluating the topics. For BERTopic, we compared multilingual sentence transofmer embeddings, to the Jerteh-355 monolingual embeddings for Serbian. For TC, NMF yielded the best results, while BERTopic with Jerteh-355 embeddings gave the best TD. Jerteh-355 also outperformed sentence transformers embeddigs in both TC and TD.
- почетак странице
- 649
- крај странице
- 653
- doi
- 10.15439/2024F1593
- issn
- 2300-5963
- Subject
- jezički modeli, LDA, modeliranje tema, BERT, BERTopic
- language models, LDA, topic modeling, BERT, BERTopic
- Шира категорија рада
- М30
- Ужа категорија рада
- М33
- Је дио
- TESLA
- Права
- Отворени приступ
- Лиценца
- Creative Commons – Attribution 4.0 International
- Формат
- Медија
- fedcsis1593.pdf
Teodora Mihajlov, Milica Ikonić Nešić, Ranka Stanković, Olivera Kitanović. "Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic" in Annals of Computer Science and Information Systems, IEEE (2024). https://doi.org/10.15439/2024F1593
This item was submitted on 13. децембар 2024. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://romeka.rgf.rs/s/repo
Click here to view the collected data.