Skip to main content
Пријава

Collected Item: “Serbian NER&Beyond: The Archaic and the Modern Intertwinned”

Врста публикације

Рад у зборнику

Верзија документа

објављена

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Branislava Šandrih Todorović, undefined undefined, Cvetana Krstev, Ranka Stanković, Milica Ikonić Nešić, undefined undefined, undefined undefined, undefined undefined

Наслов рада (Наслов - поднаслов)

Serbian NER&Beyond: The Archaic and the Modern Intertwinned

Назив конференције (зборника), место и датум одржавања

Proceedings of the Conference Recent Advances in Natural Language Processing - Deep Learning for Natural Language Processing Methods and Applications

Уредник/ци зборника

Galia Angelova, Maria Kunilovskaya, Ruslan Mitkov, Ivelina Nikolova-Koleva

Издавач (Београд : Просвета)

INCOMA Ltd. Shoumen, BULGARIA

Година издавања

2021

Сажетак рада на српском језику

U ovom radu predstavljamo srpski književni korpus koji se razvija pod okriljem COST Akcije „Distant Reading for European Literary History” CA16204. Koristeći ovaj korpus romana napisanih pre više od jednog veka, razvili smo i učinili javno dostupnim Sistem za prepoznavanje imenovanih entiteta (NER) obučen da prepozna 7 različitih tipova imenovanih entiteta, sa konvolucionom neuronskom mrežom (CNN), koja ima F1 rezultat od ≈91% na test skupu podataka. Ovaj model je dalje ocenjen na posebnom skupu podataka za evaluaciju. Završavamo poređenje razvijenog modela sa postojećim, nakon čega sledi diskusija o prednostima i nedostacima oba modela.

Сажетак рада на енглеском језику

In this work, we present a Serbian literary corpus that is being developed under the umbrella of the “Distant Reading for European Literary History” COST Action CA16204. Using this corpus of novels written more than a century ago, we have developed and made publicly available a Named Entity Recognizer (NER) trained to recognize 7 different named entity types, with a Convolutional Neural Network (CNN) architecture, having F1 score of ≈91% on the test dataset. This model has been further assessed on a separate evaluation dataset. We wrap up with comparison of the developed model with the existing one, followed by a discussion of pros and cons of the both models.

Почетна страна рада

1252

Завршна страна рада

1260

DOI број

10.26615/978-954-452-072-4_141

ISBN број изворне публикације

978-954-452-072-4

Линк

http://dx.doi.org/10.26615/978-954-452-072-4_141

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution-Share Alike 4.0 International

Формат датотеке

.pdf
Click here to view the corresponding item.