Skip to main content
Пријава

Collected Item: “SASA Dictionary as the Gold Standard for Good Dictionary Examples for Serbian”

Врста публикације

Рад у зборнику

Верзија документа

објављена

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Ranka Stanković, Branislava Šandrih, Rada Stijović, Cvetana Krstev, Duško Vitas, Aleksandra Marković

Наслов рада (Наслов - поднаслов)

SASA Dictionary as the Gold Standard for Good Dictionary Examples for Serbian

Назив конференције (зборника), место и датум одржавања

Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference

Уредник/ци зборника

Kosem, I et. al.

Издавач (Београд : Просвета)

Lexical Computing CZ, s.r.o.

Година издавања

2019

Сажетак рада на српском језику

У овом раду представљамо модел за избор добрих примера за речник српског језика и развој иницијалних компоненти модела. Метода која се користи заснива се на детаљној анализи различитих лексичких и синтактичких карактеристика у корпусу састављених од примера из пет дигитализованих свезака речника САНУ. Почетни скуп функција био је инспирисан сличним приступом и за друге језике. Дистрибуција карактеристика примера из овог корпуса упоређује се са карактеристиком дистрибуције узорака реченица ексцерпираних из корпуса који садрже различите текстове. Анализа је показала да постоји група карактеристика која су снажни показатељи да се реченица не треба користити као пример. Преостале карактеристике, укључујући детекцију нестандардних и других означених лексика из речника САНУ, користе се за рангирање. Изабрани примери кандидата, представљени као вектори, коришћени су помоћу алата за рангирање за примере српског кандидата и надгледани модел машинског учења за класификацију у стандардне и нестандардне српске лексике, ради даље интеграције у решење за садашње и будуће производне пројекте речника.

Сажетак рада на енглеском језику

In this paper we present a model for selection of good dictionary examples for Serbian and the development of initial model components. The method used is based on a thorough analysis of various lexical and syntactic features in a corpus compiled of examples from the five digitized volumes of the Serbian Academy of Sciences and Arts (SASA) dictionary. The initial set of features was inspired by a similar approach for other languages. The feature distribution of examples from this corpus is compared with the feature distribution of sentence samples extracted from corpora comprising various texts. The analysis showed that there is a group of features which are strong indicators that a sentence should not be used as an example. The remaining features, including detection of non-standard and other marked lexis from the SASA dictionary, are used for ranking. The selected candidate examples, represented as featurevectors, are used with the GDEX ranking tool for Serbian candidate examples and a supervised machine learning model for classification on standard and non-standard Serbian sentences, for further integration into a solution for present and future dictionary production projects.

Почетна страна рада

248

Завршна страна рада

269

Кључне речи на српском (одвојене знаком ", ")

Српски; добри примери из речника; аутоматизација израде речника; издвајање својстава; Машинско учење

Кључне речи на енглеском (одвојене знаком ", ")

Serbian; good dictionary examples; automatization of dictionary-making; feature extraction; machine learning

Линк

https://elex.link/elex2019/wp-content/uploads/2019/09/eLex_2019_14.pdf

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Пројект у склопу кога је настао рад

47003

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution-Share Alike 4.0 International

Формат датотеке

.pdf
Click here to view the corresponding item.