Радови ⚒ Др РГФ - Репозиторијум РГФ

Collected Item: “Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic”

Врста публикације

Рад у зборнику

Верзија документа

објављена

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Teodora Mihajlov, Milica Ikonić Nešić, Ranka Stanković, Olivera Kitanović

Наслов рада (Наслов - поднаслов)

Topic Modeling of the SrpELTeC Corpus: A Comparison of NMF, LDA, and BERTopic

Назив конференције (зборника), место и датум одржавања

Annals of Computer Science and Information Systems

Издавач (Београд : Просвета)

IEEE

Година издавања

2024

Сажетак рада на српском језику

Modeliranje tema je efikasan način da se dobije uvid u velike količine podataka. Neki od najčešće korišćenih metoda za modeliranje tema su Latentna Dirihleova alokacija (LDA) i faktorizacija nenegativne matrice (NMF). Međutim, sa porastom modela samopažnje i unapred obučenih jezičkih modela, pojavili su se novi načini za ekstrakcju tema. BERTopic predstavlja novi pristup modeliranju tema. U ovom radu smo uporedili performanse LDA, NMF i BERTopic na književnim tekstovima na srpskom, merenjem koherentnosti tema i raznovrsnosti tema, kao i kvalitativnom evaluacijom tema. Za BERTopic smo uporedili višejezične transofmerske vektorske reprezentacije rečenica sa jednojezičnim modelom Jerteh-355 za srpski. Za TC, NMF je dao najbolje rezultate, dok je BERTopic sa Jerteh-355 reprezentacijama dao najbolji TD. Jerteh-355 je takođe nadmašio transformatore rečenica u TC i TD.

Сажетак рада на енглеском језику

opic modeling is an effective way to gain insight into large amounts of data. Some of the most widely used topic models are Latent Dirichlet allocation (LDA) and Nonnegative Matrix Factorization (NMF). However, with the rise of self- attention models and pre-trained language models, new ways to mine topics have emerged. BERTopic represents the current state-of-the-art when it comes to modeling topics. In this pa- per, we comapred LDA, NMF, and BERTopic performance on literaty texts in Serbian, by measuring Topic Coherency and Topic Diveristy, as well as qualitatively evaluating the topics. For BERTopic, we compared multilingual sentence transofmer embeddings, to the Jerteh-355 monolingual embeddings for Serbian. For TC, NMF yielded the best results, while BERTopic with Jerteh-355 embeddings gave the best TD. Jerteh-355 also outperformed sentence transformers embeddigs in both TC and TD.

Почетна страна рада

649

Завршна страна рада

653

DOI број

10.15439/2024F1593

ISSN број изворне публикације

2300-5963

Кључне речи на српском (одвојене знаком ", ")

jezički modeli, LDA, modeliranje tema, BERT, BERTopic

Кључне речи на енглеском (одвојене знаком ", ")

language models, LDA, topic modeling, BERT, BERTopic

Линк

http://dx.doi.org/10.15439/2024F1593

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Пројект у склопу кога је настао рад

TESLA

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution 4.0 International

Формат датотеке

.pdf

Click here to view the corresponding item.