Social-Emo.Sr: Emotional Multi-Label Categorization of Conversational Messages from Social Networks X and Reddit

Објеката

Тип
Саопштење са скупа штампано у изводу
Верзија рада
објављена
Језик
енглески
Креатор
Milena Šošić, Ranka Stanković, Jelena Graovac
Извор
South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024.
Уредник
prof. dr Jasmina Moskovljević Popović, prof. dr Ranka Stanković
Издавач
University of Belgrade - Faculty of Philology
Датум издавања
2024
Сажетак
U digitalnom okruženju južnoslovenskih jezika, analiza emocija u tekstovima na društvenim mrežama postaje sve važnija za razumevanje javnog mnjenja, kreiranje personalizovanog sadržaja i analizu međusobnih interakcija korisnika. U okviru ovog rada predstavljamo detaljnu metodologiju i rezultate označavanja korpusa na srpskom jeziku prema Plutčikovom modelu kategorizacije, koji prepoznaje osam osnovnih emocionalnih kategorija, kao što su radost, tuga, bes, strah, poverenje, gađenje, iščekivanje i iznenađenje. Cilj istraživanja je da se analizira emocionalni sadržaj tekstova preuzetih sa društvenih mreža X (nekada Twitter) i Reddit, od kojih svaka kolekcija sadrži oko 17,000 pojedinačnih poruka i približno 5,000 kompletnih konverzacija. Proces označavanja korpusa uključivao je nekoliko faza: prikupljanje i pripremu podataka, ručno označavanje od strane stručnih lica, verifikaciju preciznosti označavanja i statističku analizu harmonizovanih oznaka. Korišćenjem pristupa višeznačnog označavanja, omogućena je bogatija i kvalitetnija analiza emocionalnih stanja, sa posebnim značajem na primenu u analizama složenih emocionalnih sadržaja koji se mogu pronaći na društvenim mrežama.
Za prikupljanje podataka korišćeni su automatizovani alati za preuzimanje konverzacija napisanih na srpskom jeziku sa naloga na društvenim mrežama koji obrađuju aktuelne društvene, političke, muzičke i sportske teme. Priprema podataka obuhvatila je dodatnu selekciju poruka da bi se obezbedio kvalitet njihovog sadržaja, uz uslov održanja konverzacione strukture preuzetih podataka. U okviru pripreme podataka, poruke su unapred označene automatskim metodama korišćenjem klasičnih, ali i naprednih tehnika računarske lingvistike, u cilju unapređenja efikasnosti procesa ručnog označavanja. Timovi lingvista i psihologa su automatski dodeljene oznake proveravali i ocenjivali u pogledu njihove verodostojnosti za tekstualni sadržaj kojima su dodeljene. U clju obezbeđivanja visoke tačnosti i konzistentnosti, korišćene su standardizovane procedure za obuku anotatora i proveru njihovih ocena kroz statističke mere za pouzdanost označavanja. Analiza pouzdanosti označavanja je pokazala da je moguće klasifikovati emocije u tekstovima sa društvenih mreža na srpskom jeziku koristeći Plutčikov model. Statistička analiza podataka je otkrila značajne distribucije emocija u porukama i pružila uvid u emocionalne reakcije korisnika na različite emocionalne nadražaje i tematske sadržaje.
Višeznačno kategorizovan emocionalni korpus na srpskom jeziku Social-Emo.SR predstavlja značajan iskorak ka dubljem razumevanju emocionalne dinamike na društvenim mrežama među korisnicima. Osim obogaćivanja lingvističkih resursa za srpski jezik, ovaj korpus otvara nove mogućnosti za primenu u istraživanjima, komercijalnim aplikacijama i unapređenju analize mentalnog zdravlja populacije. Potencijalna primena savremenih metodologija nad razvijenim korpusom omogućila bi kreiranje korisnih alata za prepoznavanje i reflektovanje složenosti ljudskih emocija u aktuelnom digitalnom svetu na srpskom govornom području. Korpus će biti objavljen pod javnom licencom CC-BY-4.0.
In the digital environment of South Slavic languages, emotion analysis in texts on social media is becoming increasingly important for understanding public opinion, creating personalized content, and analyzing user interactions. This presentation presents a detailed methodology and results of corpus annotation in the Serbian language according to Plutchik's categorization model, which identifies eight basic emotional categories: joy, sadness, anger, fear, trust, disgust, anticipation, and surprise. The aim of the research is to analyze the emotional content of texts taken from social media X (formerly Twitter) and Reddit, each collection containing around 17,000 individual messages and approximately 5,000 complete conversations. The corpus annotation process involved several stages: data collection and preparation, manual annotation by experts, verification of annotation accuracy, and statistical analysis of the harmonized labels. By using a multi-label annotation approach, a richer and more qualitative analysis of emotional states was made possible, with particular significance for the application in analyzing complex emotional content found on social media.
To collect data, automated tools were used to download conversations written in Serbian from social media accounts that address current social, political, musical, and sports topics. Data preparation involved additional selection of messages to ensure the quality of their content, while maintaining the conversational structure of the retrieved data. During data preparation, messages were preliminarily annotated using automatic methods, employing both classical and advanced computational linguistics techniques to improve the efficiency of the manual labeling process. Teams of linguists and psychologists reviewed and assessed the automatically assigned labels for their validity concerning the textual content to which they were assigned. To ensure high accuracy and consistency, standardized procedures were used for training annotators and verifying their evaluations through statistical measures of annotation reliability. The analysis of annotation reliability demonstrated that it is possible to classify emotions in texts from social media in Serbian using Plutchik's model. Statistical data analysis revealed significant distributions of emotions in the messages and provided insights into users' emotional reactions to various emotional stimuli and thematic content.
The multi-label categorized emotional corpus in Serbian Social-Emo.SR represents a significant advancement toward a deeper understanding of emotional dynamics on social media among users. In addition to enriching linguistic resources for the Serbian language, this corpus opens new possibilities for application in research, commercial applications, and enhancing mental health analysis of the population. The potential application of modern methodologies on the developed corpus would enable the creation of useful tools for recognizing and reflecting the complexity of human emotions in the current digital world within the Serbian-speaking community. The corpus will be published under open license CC-BY-4.0.
Subject
emocije, Plutčikov model, označavanje, korpus, društvene mreže, srpski jezik
emotions, Plutchik's model, annotation, corpus, social media, Serbian language
Шира категорија рада
М60
Ужа категорија рада
М64
Је дио
Text Embeddings - Serbian Language Applications - TESLA
Права
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат
.pdf
Скупови објеката
Ранка Станковић
Radovi istraživača

Milena Šošić, Ranka Stanković, Jelena Graovac. "Social-Emo.Sr: Emotional Multi-Label Categorization of Conversational Messages from Social Networks X and Reddit" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024., University of Belgrade - Faculty of Philology (2024)

This item was submitted on 29. новембар 2024. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://romeka.rgf.rs/s/repo

Click here to view the collected data.