Multi-word Expressions for Abusive Speech Detection in Serbian

Објеката

Тип
Рад у зборнику
Верзија рада
рецензирана
Језик
енглески
Креатор
Ranka Stanković, Jelena Mitrović, Danka Jokić, Cvetana Krstev
Извор
Proceedings of the Joint Workshop on Multiword Expressions and Electronic Lexicons
Уредник
Stella Markantonatou et al.
Издавач
Association for Computational Linguistics
Датум издавања
2020
Сажетак
Ovaj rad predstavlja istraživanja na usavršavanju i unapređenju srpske verzije rečnika Hurtlex, višejezičnog leksikona uvredljivih reči. Posebnu pažnju posvećujemo dodavanju izraza sa više reči (polileksemskih jedinica) koji se mogu smatrati uvredljivim, jer su takvi leksički zapisi veoma važni za postizanje dobrih rezultata u mnoštvu zadataka otkrivanja uvredljivog jezika. Srpski morfološki rečnici se koriste kao osnova za čišćenje podataka i stvaranje rečnika. Istaknuta je veza sa drugim leksičkim i semantičkim resursima na srpskom jeziku i predviđena je izgradnja sistema za otkrivanje uvredljivog jezika zasnovanog na tom resursu.
This paper presents our work on the refinement and improvement of the Serbian language part of Hurtlex, a multilingual lexicon of words to hurt. We pay special attention to adding Multi-word expressions that can be seen as abusive, as such lexical entries are very important in obtaining good results in a plethora of abusive language detection tasks. We use Serbian morphological dictionaries as a basis for data cleaning and MWE dictionary creation. A connection to other lexical and semantic resources in Serbian is outlined and building of abusive language detection systems based on that connection is foreseen.
почетак странице
74
крај странице
84
Subject
uvredljiv govor, govor mržnje, leksički izvori, višejezični leksikon, izrazi sa više reči
abusive speech, hate-speech, lexical resources, multilingual lexicon, multi-word expressions
Шира категорија рада
М30
Ужа категорија рада
М33
Права
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат
.pdf
Скупови објеката
Ранка Станковић
Radovi istraživača
Медија
2020.mwe-1.10.pdf

Ranka Stanković, Jelena Mitrović, Danka Jokić, Cvetana Krstev. "Multi-word Expressions for Abusive Speech Detection in Serbian" in Proceedings of the Joint Workshop on Multiword Expressions and Electronic Lexicons, Association for Computational Linguistics (2020)

This item was submitted on 17. април 2021. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://romeka.rgf.rs/s/repo

Click here to view the collected data.