Collected Item: “Serbian NER&Beyond: The Archaic and the Modern Intertwinned”
Врста публикације
Рад у зборнику
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Branislava Šandrih Todorović, undefined undefined, Cvetana Krstev, Ranka Stanković, Milica Ikonić Nešić, undefined undefined, undefined undefined, undefined undefined
Наслов рада (Наслов - поднаслов)
Serbian NER&Beyond: The Archaic and the Modern Intertwinned
Назив конференције (зборника), место и датум одржавања
Proceedings of the Conference Recent Advances in Natural Language Processing - Deep Learning for Natural Language Processing Methods and Applications
Уредник/ци зборника
Galia Angelova, Maria Kunilovskaya, Ruslan Mitkov, Ivelina Nikolova-Koleva
Издавач (Београд : Просвета)
INCOMA Ltd. Shoumen, BULGARIA
Година издавања
2021
Сажетак рада на српском језику
U ovom radu predstavljamo srpski književni korpus koji se razvija pod okriljem COST Akcije „Distant Reading for European Literary History” CA16204. Koristeći ovaj korpus romana napisanih pre više od jednog veka, razvili smo i učinili javno dostupnim Sistem za prepoznavanje imenovanih entiteta (NER) obučen da prepozna 7 različitih tipova imenovanih entiteta, sa konvolucionom neuronskom mrežom (CNN), koja ima F1 rezultat od ≈91% na test skupu podataka. Ovaj model je dalje ocenjen na posebnom skupu podataka za evaluaciju. Završavamo poređenje razvijenog modela sa postojećim, nakon čega sledi diskusija o prednostima i nedostacima oba modela.
Сажетак рада на енглеском језику
In this work, we present a Serbian literary corpus that is being developed under the umbrella of the “Distant Reading for European Literary History” COST Action CA16204. Using this corpus of novels written more than a century ago, we have developed and made publicly available a Named Entity Recognizer (NER) trained to recognize 7 different named entity types, with a Convolutional Neural Network (CNN) architecture, having F1 score of ≈91% on the test dataset. This model has been further assessed on a separate evaluation dataset. We wrap up with comparison of the developed model with the existing one, followed by a discussion of pros and cons of the both models.
Почетна страна рада
1252
Завршна страна рада
1260
DOI број
10.26615/978-954-452-072-4_141
ISBN број изворне публикације
978-954-452-072-4
Линк
http://dx.doi.org/10.26615/978-954-452-072-4_141
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат датотеке
.pdf