Collected Item: “SrpCNNeL: Serbian Model for Named Entity Linking”
Врста публикације
Рад у зборнику
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Milica Ikonić Nešić, Saša Petalinkar, Ranka Stanković, Miloš Utvić, Olivera Kitanović
Наслов рада (Наслов - поднаслов)
SrpCNNeL: Serbian Model for Named Entity Linking
Назив конференције (зборника), место и датум одржавања
Annals of Computer Science and Information Systems
Издавач (Београд : Просвета)
IEEE
Година издавања
2024
Сажетак рада на српском језику
Ovaj rad predstavlja razvoj modela za prepoznavanje i povezivanje imenovanih entiteta (NEL) sa bazom znanja Vikipodaci za srpski jezik pod nazivom SrpCNNeL. Model je obučen da prepozna i poveže sedam različitih imenovanih tipova entiteta (osobe, lokacije, organizacije, profesije, događaji, demoni i umetnička dela) na skupu podataka koji sadrži rečenice iz romana, pravnih dokumenata, kao i rečenice generisane iz znanja Vikipodataka baza i Leksimirka leksička baza podataka. Dobijeni model je pokazao dobre performanse, postigavši F1 rezultat od 0,8 na test skupu. S obzirom da skup podataka sadrži najveći broj lokacija povezanih sa bazom znanja, evaluacija je sprovedena na nezavisnom skupu podataka i upoređena sa osnovnim modelom Spacy Entity Linker samo za lokacije.
Сажетак рада на енглеском језику
This paper presents the development of a Named Entity Linking (NEL) model to the Wikidata knowledge base for the Serbian language named SrpCNNeL. The model was trained to recognize and link seven different named entity types (persons, locations, organisations, professions, events, demonyms, and works of art) on the dataset containing sentences from novels, legal documents, as also sentences generated from the Wikidata knowledge base and Leximirka lexical database. The resulting model demonstrated robust performance, achieving an F1 score of 0.8 on the test set. Considering that the dataset contains the highest number of locations linked to the knowledge base, an evaluation was conducted on an independent dataset and compared to the baseline Spacy Entity Linker for locations only.
Почетна страна рада
465
Завршна страна рада
473
DOI број
10.15439/2024F8827
ISSN број изворне публикације
2300-5963
Кључне речи на српском (одвојене знаком ", ")
obeležavanje imenovanih entiteta, povezivanje imenovanih entiteta, Vikipodaci, NER, NEL
Кључне речи на енглеском (одвојене знаком ", ")
named entity recognition, named entity linking, Wikidata, NER, NEL
Линк
http://dx.doi.org/10.15439/2024F8827
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Пројект у склопу кога је настао рад
TESLA
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат датотеке
.pdf