Skip to main content
Пријава

Collected Item: “Parallel Bidirectionally Pretrained Taggers as Feature Generators”

Врста публикације

Рад у часопису

Верзија рада

објављена верзија

Језик рада

енглески

Аутор/и (Милан Марковић, Никола Николић)

Ranka Stanković, Mihailo Škorić, Branislava Šandrih Todorović

Наслов рада (Наслов - поднаслов)

Parallel Bidirectionally Pretrained Taggers as Feature Generators

Наслов часописа

Applied Sciences

Издавач (Београд : Просвета)

MDPI AG

Година издавања

2022

Сажетак на енглеском језику

In a setting where multiple automatic annotation approaches coexist and advance separately but none completely solve a specific problem, the key might be in their combination and integration. This paper outlines a scalable architecture for Part-of-Speech tagging using multiple standalone annotation systems as feature generators for a stacked classifier. It also explores automatic resource expansion via dataset augmentation and bidirectional training in order to increase the number of taggers and to maximize the impact of the composite system, which is especially viable for low-resource languages. We demonstrate the approach on a preannotated dataset for Serbian using nested cross-validation to test and compare standalone and composite taggers. Based on the results, we conclude that given a limited training dataset, there is a payoff from cutting a percentage of the initial training set and using it to fine-tune a machine-learning-based stacked classifier, especially if it is trained bidirectionally. Moreover, we found a measurable impact on the usage of multiple tagsets to scale-up the architecture further through transfer learning methods.

Волумен/том или годиште часописа

12

Број часописа

10

DOI број

10.3390/app12105028

ISSN број часописа

2076-3417

Кључне речи на српском (одвојене знаком ", ")

анотација, обрада природног језика, издвајање обележја, композитне структуре, врста речи

Кључне речи на енглеском (одвојене знаком ", ")

annotation, natural language processing, feature extraction, composite structures, part of speech

Линк

https://www.mdpi.com/2076-3417/12/10/5028/pdf

Шира категорија рада према правилнику МПНТ

M20

Ужа категорија рада према правилнику МПНТ

М22

Степен доступности

Отворени приступ

Лиценца

All rights reserved

Формат дигиталног објекта

.pdf
Click here to view the corresponding item.