Part of Speech Tagging for Serbian language using Natural Language Toolkit ⚒ Радови ⚒ Др РГФ

Part of Speech Tagging for Serbian language using Natural Language Toolkit

Објеката

Тип: Рад у зборнику
Верзија рада: објављена
Језик: енглески
Креатор: Ranka Stanković, Boro Milovanović
Извор: 7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020
Уредник: Dejan Popović
Издавач: Academic Mind, Belgrade
Датум издавања: 2020
Сажетак: Dok se razvijaju složeni algoritmi za NLP (obrada prirodnog jezika), osnovni zadaci kao što je označavanje ostaju veoma važni i još uvek izazovni. NLTK (Natural Language Toolkit) je moćna Python biblioteka za razvoj programa zasnovanih na NLP-u. Pokušavamo da iskoristimo ovu biblioteku za kreiranje PoS (vrsta reči) oznake za savremeni srpski jezik. Jedanaest različitih modela je kreirano korišćenjem NLTK API-ja za označavanje. Najbolji modeli se transformišu sa Brill tagerom da bi se poboljšala tačnost. Obučili smo modele na označenom skupu podataka koji broji 180.000 tokena. Najbolji rezultati na test skupu od 20.000 tokena su demonstrirani sa Perceptron tagerom: tačnost od 92,52-95,76% za različite skupove oznaka.; While complex algorithms for NLP (Natural language processing) are being developed, base tasks such as tagging remain very important and still challenging. NLTK (Natural Language Toolkit) is a powerful Python library for developing programs based on NLP. We try to leverage this library to create a PoS (Part of Speech) tagger for a contemporary Serbian language. Eleven different models were created by using NLTK tagging API. The best models are transformed with the Brill tagger to improve the accuracy. We trained the models on the tagged dataset counting 180,000 tokens. The best results on the test set of 20,000 tokens were demonstrated with the Perceptron tagger: 92,52-95,76% accuracy for the different tagsets.
почетак странице: AII 1.1.1
крај странице: AII 1.1.5
број страница: 5
isbn: 978‐86‐7466‐894‐8
Subject: obrada prirodnog jezika, mašinsko učenje, neuronske mreže; Natural Language Processing, Machine Learning, Neural Network
Шира категорија рада: М30
Ужа категорија рада: М33
Права: Отворени приступ
Лиценца: Creative Commons – Attribution-Share Alike 4.0 International
Формат: .pdf
ORCID: https://orcid.org/0000-0001-5123-6273; https://orcid.org/0000-0001-5123-6273

Скупови објеката: Ранка Станковић; Radovi istraživača

Медија: 001_AII1.1.pdf

Ranka Stanković, Boro Milovanović. "Part of Speech Tagging for Serbian language using Natural Language Toolkit" in 7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020, Academic Mind, Belgrade (2020)

This item was submitted on 23. новембар 2021. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://romeka.rgf.rs/s/repo

Click here to view the collected data.