Collected Item: “Part of Speech Tagging for Serbian language using Natural Language Toolkit”
Врста публикације
Рад у зборнику
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Ranka Stanković, Boro Milovanović
Наслов рада (Наслов - поднаслов)
Part of Speech Tagging for Serbian language using Natural Language Toolkit
Назив конференције (зборника), место и датум одржавања
7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020
Уредник/ци зборника
Dejan Popović
Издавач (Београд : Просвета)
Academic Mind, Belgrade
Година издавања
2020
Сажетак рада на српском језику
Dok se razvijaju složeni algoritmi za NLP (obrada prirodnog jezika), osnovni zadaci kao što je označavanje ostaju veoma važni i još uvek izazovni. NLTK (Natural Language Toolkit) je moćna Python biblioteka za razvoj programa zasnovanih na NLP-u. Pokušavamo da iskoristimo ovu biblioteku za kreiranje PoS (vrsta reči) oznake za savremeni srpski jezik. Jedanaest različitih modela je kreirano korišćenjem NLTK API-ja za označavanje. Najbolji modeli se transformišu sa Brill tagerom da bi se poboljšala tačnost. Obučili smo modele na označenom skupu podataka koji broji 180.000 tokena. Najbolji rezultati na test skupu od 20.000 tokena su demonstrirani sa Perceptron tagerom: tačnost od 92,52-95,76% za različite skupove oznaka.
Сажетак рада на енглеском језику
While complex algorithms for NLP (Natural language processing) are being developed, base tasks such as tagging remain very important and still challenging. NLTK (Natural Language Toolkit) is a powerful Python library for developing programs based on NLP. We try to leverage this library to create a PoS (Part of Speech) tagger for a contemporary Serbian language. Eleven different models were created by using NLTK tagging API. The best models are transformed with the Brill tagger to improve the accuracy. We trained the models on the tagged dataset counting 180,000 tokens. The best results on the test set of 20,000 tokens were demonstrated with the Perceptron tagger: 92,52-95,76% accuracy for the different tagsets.
Почетна страна рада
AII 1.1.1
Завршна страна рада
AII 1.1.5
Укупан број страна (само уколико стране нису нумерисане)
5
ISBN број изворне публикације
978‐86‐7466‐894‐8
Кључне речи на српском (одвојене знаком ", ")
obrada prirodnog jezika, mašinsko učenje, neuronske mreže
Кључне речи на енглеском (одвојене знаком ", ")
Natural Language Processing, Machine Learning, Neural Network
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат датотеке
.pdf