Skip to main content
Пријава

Collected Item: “Part of Speech Tagging for Serbian language using Natural Language Toolkit”

Врста публикације

Рад у зборнику

Верзија документа

објављена

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Ranka Stanković, Boro Milovanović

Наслов рада (Наслов - поднаслов)

Part of Speech Tagging for Serbian language using Natural Language Toolkit

Назив конференције (зборника), место и датум одржавања

7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020

Уредник/ци зборника

Dejan Popović

Издавач (Београд : Просвета)

Academic Mind, Belgrade

Година издавања

2020

Сажетак рада на српском језику

Dok se razvijaju složeni algoritmi za NLP (obrada prirodnog jezika), osnovni zadaci kao što je označavanje ostaju veoma važni i još uvek izazovni. NLTK (Natural Language Toolkit) je moćna Python biblioteka za razvoj programa zasnovanih na NLP-u. Pokušavamo da iskoristimo ovu biblioteku za kreiranje PoS (vrsta reči) oznake za savremeni srpski jezik. Jedanaest različitih modela je kreirano korišćenjem NLTK API-ja za označavanje. Najbolji modeli se transformišu sa Brill tagerom da bi se poboljšala tačnost. Obučili smo modele na označenom skupu podataka koji broji 180.000 tokena. Najbolji rezultati na test skupu od 20.000 tokena su demonstrirani sa Perceptron tagerom: tačnost od 92,52-95,76% za različite skupove oznaka.

Сажетак рада на енглеском језику

While complex algorithms for NLP (Natural language processing) are being developed, base tasks such as tagging remain very important and still challenging. NLTK (Natural Language Toolkit) is a powerful Python library for developing programs based on NLP. We try to leverage this library to create a PoS (Part of Speech) tagger for a contemporary Serbian language. Eleven different models were created by using NLTK tagging API. The best models are transformed with the Brill tagger to improve the accuracy. We trained the models on the tagged dataset counting 180,000 tokens. The best results on the test set of 20,000 tokens were demonstrated with the Perceptron tagger: 92,52-95,76% accuracy for the different tagsets.

Почетна страна рада

AII 1.1.1

Завршна страна рада

AII 1.1.5

Укупан број страна (само уколико стране нису нумерисане)

5

ISBN број изворне публикације

978‐86‐7466‐894‐8

Кључне речи на српском (одвојене знаком ", ")

obrada prirodnog jezika, mašinsko učenje, neuronske mreže

Кључне речи на енглеском (одвојене знаком ", ")

Natural Language Processing, Machine Learning, Neural Network

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution-Share Alike 4.0 International

Формат датотеке

.pdf
Click here to view the corresponding item.