Collected Item: “Parallel Bidirectionally Pretrained Taggers as Feature Generators”
Врста публикације
Рад у часопису
Верзија рада
објављена верзија
Језик рада
енглески
Аутор/и (Милан Марковић, Никола Николић)
Ranka Stanković, Mihailo Škorić, Branislava Šandrih Todorović
Наслов рада (Наслов - поднаслов)
Parallel Bidirectionally Pretrained Taggers as Feature Generators
Наслов часописа
Applied Sciences
Издавач (Београд : Просвета)
MDPI AG
Година издавања
2022
Сажетак на енглеском језику
In a setting where multiple automatic annotation approaches coexist and advance separately but none completely solve a specific problem, the key might be in their combination and integration. This paper outlines a scalable architecture for Part-of-Speech tagging using multiple standalone annotation systems as feature generators for a stacked classifier. It also explores automatic resource expansion via dataset augmentation and bidirectional training in order to increase the number of taggers and to maximize the impact of the composite system, which is especially viable for low-resource languages. We demonstrate the approach on a preannotated dataset for Serbian using nested cross-validation to test and compare standalone and composite taggers. Based on the results, we conclude that given a limited training dataset, there is a payoff from cutting a percentage of the initial training set and using it to fine-tune a machine-learning-based stacked classifier, especially if it is trained bidirectionally. Moreover, we found a measurable impact on the usage of multiple tagsets to scale-up the architecture further through transfer learning methods.
Волумен/том или годиште часописа
12
Број часописа
10
DOI број
10.3390/app12105028
ISSN број часописа
2076-3417
Кључне речи на српском (одвојене знаком ", ")
анотација, обрада природног језика, издвајање обележја, композитне структуре, врста речи
Кључне речи на енглеском (одвојене знаком ", ")
annotation, natural language processing, feature extraction, composite structures, part of speech
Линк
https://www.mdpi.com/2076-3417/12/10/5028/pdf
Шира категорија рада према правилнику МПНТ
M20
Ужа категорија рада према правилнику МПНТ
М22
Степен доступности
Отворени приступ
Лиценца
All rights reserved
Формат дигиталног објекта
.pdf