Managing mining project documentation using human language technology
Purpose: This paper aims to develop a system, which would enable efficient management and exploitation of documentation in electronic form, related to mining projects, with information retrieval and information extraction (IE) features, using various language resources and natural language processing. Design/methodology/approach: The system is designed to integrate textual, lexical, semantic and terminological resources, enabling advanced document search and extraction of information. These resources are integrated with a set of Web services and applications, for different user profiles and use-cases. Findings: The ...Digital libraries, Information retrieval, Data mining, Human language technologies, Project documentation
Речник САНУ као база терминолошких речника (на примеру речника кулинарства)
Krstev, Cvetana, Duško Vitas and Gordana Pavlović-Lažetić. „Resources and methods in the morphosyntactic processing of Serbo-Croatian." In Gerhild Zybatow et al. (eds.) Formal Description of Slavic Languages: The Fifth Conference, Leipzig 2003, pp. 3-17. Frankfurt am Main.
... речници користе у истраживањима језика и креирању језичких алата. Морфолошке речнике српског језика развили су проф. др Цветана Крстев и проф. др Душко Витас уз помоћ Групe за језичке технологије Универзитета у Београду. Анализа обрађеног корпуса обухватила је екстракцију речи и фраза засновану на ...
Ranka Stanković, Ivan Obradović, Cvetana Krstev, Duško Vitas, "Production of morphological dictionaries of multi-word units using a multipurpose tool", In: Proceedings of the Computational Linguistics-Ap
Model optimizacije tehno-ekonomskih pokazatelja pri izradi podzemnih prostorija u rudnicima uglja Srbije
Duško N. Đukanović (2004)Duško N. Đukanović. Model optimizacije tehno-ekonomskih pokazatelja pri izradi podzemnih prostorija u rudnicima uglja Srbije, Beograd:Rudarsko-geološki fakultet, 2004
Towards Automatic Definition Extraction for Serbian
U radu su prikazani preliminarni rezultati automatske ekstrakcije kandidata za definicije rečnika iz nestrukturiranih tekstova na srpskom jeziku u cilju ubrzanja razvoja rečnika. Definicije u rečniku Srpske akademije nauka i umetnosti (SANU) korišćene su za modelovanje različitih tipova definicija (opisnih, gramatičkih, referentnih i sinonimskih) koje imaju različite sintaksičke i leksičke karakteristike. Korpus istraživanja sastoji se od 61.213 definicija imenica, koje su analizirane korišćenjem morfoloških e-rečnika i lokalnih gramatika implementiranih kao pretvarači konačnih stanja u paketu za obradu korpusa otvorenog
Krstev, C., Vitas, D. & Stanković, R. (2015). A Lexical Approach to Acronyms and their Definitions. In Proceedings of 7th Language & Technology Conference, November
... extraction in free-and semi-structured text. In Proceedings of the 13th Linguistic Annotation Workshop, 2019, pp. 124–131. Stanković, R., Stijović, R., Vitas, D., Krstev, C. & Sabo O. (2018). The Dictionary of the Serbian Academy: from the Text to the Lexical Database. In: Proceedings of the XVIII EURALEX ...Ranka Stanković, Cvetana Krstev, Rada Stijović, Mirjana Gočanin, Mihailo Škorić. "Towards Automatic Definition Extraction for Serbian" in Proceedings of the XIX EURALEX Congress of the European Assocition for Lexicography: Lexicography for Inclusion (Volume 2). 7-9 September (virtual), Democritus University of Thrace (2021)
An Italian-Serbian Sentence Aligned Parallel Literary Corpus
This article presents the construction and relevance of an Italian-Serbian sentence-aligned parallel corpus, delving into the aligned sentences in order to facilitate effective translation between the two languages. The parallel corpus serves as a valuable resource for language experts, researchers, and language enthusiasts, fostering a deeper understanding of linguistic nuances and cultural expressions. By bridging the gap between Serbian and Italian, this corpus opens new avenues for cross-cultural communication and collaboration, and ultimately contributes to the improvement of language-related
GIS Application Improvement with Multilingual Lexical and Terminological Resources
The HLT Group has been developing various lexical resources over a long period, and they have reached a considerable volume to date (Vitas et al., 2003). They include morphological e-dictionaries and finite state transducers, which offer the possibilities for solving the problem of
... of Geologic information system of Serbia”, Zapisnici Srpskog geološkog društva za 2007. godinu, Srpsko geološko društvo, Beograd, pp. 37-44. Vitas D., G. Pavlović-Lažetić, C. Krstev, Lj. Popović, I. Obradović (2003): „Processing Serbian Written Texts: An Overview of Resources and Basic Tools“ ...
... Language Resources and Tools, Thessaloniki, Greece, November 2003, S. Piperidis, V. Karakaletsis (eds.), pp. 97-104. Krstev C., Stanković R., Vitas D., Obradović I., (2008) "The Usage of Various Lexical Resources and Tools to Improve the Performance of Web Search Engines", in Proceedings of ...Ranka Stanković, Ivan Obradović, Olivera Kitanović. "GIS Application Improvement with Multilingual Lexical and Terminological Resources" in Proceedings of the 5th International Conference on Language Resources and Evaluation, LREC 2010, Valetta, Malta, May 2010, Valetta, Malta : European Language Resources Association (2010)
Глаголи у кухињи и за столом
У раду је приказано истраживање лексике на српском језику кулинарског домена које се заснива на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а и морфолошких речника, и локалних граматика. Приказане су доменске специфичности ових ресурса, како се користе, и међусобно употпуњују. Посебно је приказано како се коришћењем доменског корпуса могу екстраховати глаголи специфични за кулинарски домен и описати начини њиховог коришћења. Дат је попис глагола са основним подацима који је добијен применом представљених метода.аутоматска обрада, коначни трансдуктори, електронски речници, семантичке мреже, локалне граматике, кулинарство
... примене, 43(3), стр. 51- 59, Међународни славистички центар, Београд. 3. ВУЈИЧИЋ СТАНКОВИЋ И ДР. 2014: Staša Vujičić Stanković, Cvetana Krstev, Duško Vitas, “Enriching Serbian WordNet and Electronic Dictionaries with Terms from the Culinary Domain”, In The Proceedings of Seventh Global WordNet ...
... Electronic dictionaries. Belgrade: Faculty of Philology, University of Belgrade. 9. КРСТЕВ И ДР. 2014: Cvetana Krstev, Staša Vujičić Stanković, Duško Vitas, “Approximate Measures in the Culinary Domain: Ontology and Lexical Resources”, in Proceedings of the 9th Language Technologies Conference IS-LT ...Цветана Крстев, Биљана Лазић. "Глаголи у кухињи и за столом" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и преимене, Вол. 44/3, Београд : Међународни славистички центар (2015)
Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса
У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом вебсучеља која поменуте алатке користе
... допуна Српског ворднета свакако један од приоритета када је у питању унапређивање система за семантичко проширивање упита. ИЗВОРИ Корпус 2013: Душко Витас и Милош Утвић, „Корпус савременог српског језика (СрпКор), верзија СрпКор2013”, Група за језичке технологије Универзитета у Београду, http://www ...
... Workbench (CWB 3.4.16), May 2019, http://cwb.sourceforge. net/ files/ CQP_ Tutorial. pdf Крстев и др. 2004: Cvetana Krstev, Gordana Pavlović-Lažetić, Duško Vitas and Ivan Obradović, “Using Textual and Lexical Resources in Developing Ser- bian Wordnet”, Romanian Journal of Information Science and Technology ...Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић. "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане - Vol. 48/3 Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch12
Зборник радова XIV симпозијума из инжењерске геологије и геотехнике са међународним учешћем, Београд, 27. и 28. септембар, 2012.
Sunarić Duško, Jevremović Dragutin (2012)Sunarić Duško, Jevremović Dragutin. Зборник радова XIV симпозијума из инжењерске геологије и геотехнике са међународним учешћем, Београд, 27. и 28. септембар, 2012. 6, Beograd:Društvo geoloških inženjera i tehničara Srbije, Komitet za inženjersku geologiju i geotehniku i Univerzitet u Beogradu, Rudarsko-geološki fakultet, Katedra za geotehniku, 2012: 614
Megaklizišta i odroni u istočnoj Srbiji i ocena rizika na vodoprivredne objekte
Jevremović Dragutin, Sunarić Duško (2010)Jevremović Dragutin, Sunarić Duško. "Megaklizišta i odroni u istočnoj Srbiji i ocena rizika na vodoprivredne objekte" in VI naučnoistraživački skup međunarodnog karaktera ,,Savremena teorija i praksa u graditeljstvu”, Banja Luka 15. i 16. april 2010. Banatski Dvor, Banja Luka, Bosna i Hercegovina:Zavod za izgradnju (2010): 217-226
Karakteristike klizišta i odrona na dolinskim stranama Lima u njegovom toku kroz Srbiju
Sunarić Duško, Jevremović Dragutin (2010)Sunarić Duško, Jevremović Dragutin. "Karakteristike klizišta i odrona na dolinskim stranama Lima u njegovom toku kroz Srbiju" in XV Kongres geologa Srbije, Beograd:Зборник радова 15. конгреса геолога Србије са међународним учешћем, Београд, [26-29 мај] 2010. = Proceedings of the 15th Congress of Geologists of Serbia with International Participation, Belgrade [26 (2010): 489-495
Prikaz različitih poimanja termina inženjerska geologija, geotehnika i geotehnologija
Jevremović Dragutin, Sunarić Duško (2012)Jevremović Dragutin, Sunarić Duško. "Prikaz različitih poimanja termina inženjerska geologija, geotehnika i geotehnologija" in Зборник радова XIV симпозијума из инжењерске геологије и геотехнике са међународним учешћем, Београд, 27. и 28. септембар, 2012., Београд:Друштво геолошких инжењера и техничара Србије (2012): 1-14
Development and Evaluation of Three Named Entity Recognition Systems for Serbian - The Case of Personal Names
In this paper we present a rule- and lexicon-based system for the recognition of Named Entities (NE) in Serbian news paper texts that was used to prepare a gold standard annotated with personal names. It was further used to prepare training sets for four different levels of annota tion, which were further used to train two Named Entity Recognition (NER) sys tems: Stanford and spaCy. All obtained models, together with a rule- and lexicon based system were evaluated on
... Serbian Daily Press]. Knjižen- stvo - časopis za studije književnosti, roda i kulture V. https://doi.org/10.18485/knjiz.2015.1.24. Cvetana Krstev, Duško Vitas, and Sandra Gucul. 2005. Recognition of Personal Names in Serbian Texts. In International Conference Recent Advances in Natu- ral Language Processing ...
... and Juníchi Tsu- jii. 2012. BRAT: a Web-based Tool for NLP- Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012. Duško Vitas and Cvetana Krstev. 2012. Processing of Corpora of Serbian using Electronic Dictionaries. Prace Filologiczne LXIII:279–292. ...Branislava Šandrih, Cvetana Krstev, Ranka Stanković. "Development and Evaluation of Three Named Entity Recognition Systems for Serbian - The Case of Personal Names" in Proceedings - Natural Language Processing in a Deep Learning World, Incoma Ltd., Shoumen, Bulgaria (2019). https://doi.org/10.26615/978-954-452-056-4_122
Development of Open Educational Resources (OER) for Natural Language Processing
In this paper we present the development of an online course at the edX BAEKTEL platform named "Lexical Recognition in the Natural Language Processing (NLP)". It is based on the course of the same name for PhD studies at the University of Belgrade, Faculty of Philology. There are not many courses in Computational Linguistics (CL) on OER platforms, and there is none in Serbian either for CL or NLP. We have developed this course in order to improve this
... intelligence. Mind, 1950. LIX(236): p. 433-460. [5] White Paper Series, H. Uszkoreit and G. Rehm, Editors. 2012, Springer: Berlin Heidelberg. [6] Vitas, D., et al., Language Technology Support for Serbian, in The Serbian Language in the Digital Age, G. Rehm and H. Uszkoreit, Editors. 2012, Springer ...
... Dictionaries and Automata in Computational Linguistics, M. Gross and D. Perrin, Editors. 1989, Springer Berlin Heidelberg. p. 34-50. [13] Vitas, D. and C. Krstev, Processing of Corpora of Serbian Using Electronic Dictionaries. Prace Filologiczne, 2012. LXIII: p. 279-292. [14] Utvić, M ...Cvetana Krstev, Biljana Lazić, Ranka Stanković, Giovanni Schiuma, Miladin Kotorčević. "Development of Open Educational Resources (OER) for Natural Language Processing" in The Sixth International Conference on e-Learning (eLearning-2015), September 2015, Belgrade, Serbia, Belgrade : Belgrade Metropolitan Univesity (2015)
Part of Speech Tagging for Serbian language using Natural Language Toolkit
Dok se razvijaju složeni algoritmi za NLP (obrada prirodnog jezika), osnovni zadaci kao što je označavanje ostaju veoma važni i još uvek izazovni. NLTK (Natural Language Toolkit) je moćna Python biblioteka za razvoj programa zasnovanih na NLP-u. Pokušavamo da iskoristimo ovu biblioteku za kreiranje PoS (vrsta reči) oznake za savremeni srpski jezik. Jedanaest različitih modela je kreirano korišćenjem NLTK API-ja za označavanje. Najbolji modeli se transformišu sa Brill tagerom da bi se poboljšala tačnost. Obučili smo modele na označenom
... Proc. 10th International Conference on Language Resources and Evaluation (LREC’16) pp. 4264-4270, Portorož, Slovenia, May 2016 [9] C. Krstev, D. Vitas, and T. Erjavec, “MorphoSyntactic Descriptions in MULTEXT-East | the Case of Serbian,” Informatica, vol. 28 no. 4 pp. 431–436, Dec. 2004. [10] M ...
... typology,” Proc. Ninth International Conference on Language Resources and Evaluation (LREC'14), Reykjavik, Iceland, May 2014 [14] C. Krstev and D. Vitas, “Serbian Morphological Dictionary – SMD,” University of Belgrade, HLT Group and Jerteh, Lexical resource, 2.0, 2015 [15] A. Balvet, D. Stošić, ...Ranka Stanković, Boro Milovanović. "Part of Speech Tagging for Serbian language using Natural Language Toolkit" in 7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020, Academic Mind, Belgrade (2020)
Using English Baits to Catch Serbian Multi-Word Terminology
In this paper we present the first results in bilingual terminology extraction. The hypothesis of our approach is that if for a source language domain terminology exists as well as a domain aligned corpus for a source and a target language, then it is possible to extract the terminology for a target language. Our approach relies on several resources and tools: aligned domain texts, domain terminology for a source language, a terminology extractor for a target language, and a ...aligned texts, word alignment, terminology extraction, electronic dictionaries, morphological inflection
... Hans Uszkoreit (Series Editors). Springer. Available online at http://www.meta-net.eu/whitepapers. 8. Language Resource References Cvetana Krstev, Duško Vitas. (2015). Serbian Morpho- logical Dictionary - SMD. University of Belgrade, HLT Group and Jerteh, Lexical resource, 2.0. Cvetana Krstev. (2013) ...
... obtained grades 4.5–6 for all seven criteria, avail- ability rated as excellent (the highest grade 6). To the contrary, the similar survey for Serbian (Vitas et al., 2012) showed that lexical resources are much less de- veloped – they were rated 1–2.5. 2. Terminology consists mainly of Multi-Word Terms (MWT) ...Cvetana Krstev, Branislava Šandrih, Ranka Stanković. "Using English Baits to Catch Serbian Multi-Word Terminology" in Proceedings of the 11th International Conference on Language Resources and Evaluation, LREC 2018, Miyazaki, Japan, May 7-12, 2018, European Language Resources Association (ELRA) (2018)
Softverski alati za korišćenje resursa za srpski jezik
Morphological dictionaries of simple and compound words for Serbian have been devel- oped within the Group by C. Krstev and D. Vitas for many years (Krstev et al., 2008). The scope of the morphological dictionary of simple words is already significant, but it is nevertheless be-
... Morphological dictionaries Morphological dictionaries of simple and compound words for Serbian have been devel- oped within the Group by C. Krstev and D. Vitas for many years (Krstev et al., 2008). The scope of the morphological dictionary of simple words is already significant, but it is nevertheless be- ...
... Technology Group developed several aligned corpora, among them the largest one being the French-Serbian corpus which contains more than a million words (Vitas and Krstev, 2005). 3 WS4LR – a tool for maintenance and integrated use of lexical resources With the growth of the number of resources as well ...Ivan Obradović, Ranka Stanković. "Softverski alati za korišćenje resursa za srpski jezik" in INFOteka: časopis za informatiku i bibliotekarstvo, Belgrade, Serbia : Zajednica biblioteka univerziteta u Srbiji (2008)
OntoLex Publication Made Easy: A Dataset of Verbal Aspectual Pairs for Bosnian, Croatian and Serbian
Ovaj rad predstavlja novi jezički resurs za pretraživanje i istraživanje verbalnih aspektnih parova u BCS (bosanskom, hrvatskom i srpskom), kreiran korišćenjem principa Lingvističkih Povezanih Otvorenih Podataka (LLOD). Pošto ne postoji resurs koji bi pomogao učenicima bosanskog, hrvatskog i srpskog kao stranih jezika da prepoznaju aspekt glagola ili njegove parove, kreirali smo novi resurs koji će korisnicima pružiti informacije o aspektu, kao i link ka aspektnim parovima glagola. Ovaj resurs takođe sadrži spoljne linkove ka monolingvalnim rečnicima, Wordnetu i BabelNetu.
Integracija heterogenih tekstualnih resursa
U radu je opisan pristup integraciji heterogenih tekstualnih resursa za srpski jezik uz pomoć jednog kompleksnog softverskog alata, razvijenog specijalno za ove potrebe. Opisani su struktura i osnovne komponente razvijenog sistema. Iznete su i mogućnosti unapređivanja resursa međusobnom razmenom informacija, koje pruža razvijeno integrisano okruženje. Konačno, opisana je i mogućnost primene integrisanih heterogenih resursa za proširenje upita, kao i pretraživanje tekstova uopšte, a naznačeni su i neki od pravaca daljeg razvoja.
... XAlign: l’aligneur de Langue & Dialogue (http://www.loria.fr outils/ALIGN/align.html). l Conference on Language Silberz ti: Publishing house Vitas e d Basic Tools. In: Piperidis, S./Karakaletsis, V. Ranka S Integration of heterogeneous textual resources for Serbian developed within the ...
... 2004): Special Issue on BalkaNet Project. Romanian Journal on Information Science and Technology. Bucureş of the Romanian academy. t al. 2003 – Vitas, D. et al. (2003): Processing Serbian Written Texts: An Overview of Resources an (Hg.): Proceedings of the International Workshop on Balkan Language ...Ranka Stanković, Ivan Obradović. "Integracija heterogenih tekstualnih resursa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
Keyword Extraction from Parallel Abstracts of Scientific Publications
... Stanković, R., Krstev, C., Vitas, D., Vulović, N., Kitanović, O.: Keyword-based search on bilingual digital libraries. In: Calì, A., Gorgan, D., Ugarte, M. (eds.) KEYSTONE 2016. LNCS, vol. 10151, pp. 112–123. Springer, Cham (2017). https://doi.org/10.1007/978-3-319-53640-8_10 17. Vitas, D., Popović, L., Krstev ...
... White Paper Series. Springer, Heidelberg (2012). https://doi.org/10.1007/978-3-642-30755-3. Rehm, G., Uszkoreit, H. (Series eds.) 18. Krstev, C., Vitas, D., Stanković, R.: A lexical approach to acronyms and their definitions. In: Mariani, Z.V.J. (ed.) Proceedings of the 7th Language & Technol- ogy ...Slobodan Beliga, Olivera Kitanović, Ranka Stanković, Sanda Martinčić-Ipšić . "Keyword Extraction from Parallel Abstracts of Scientific Publications" in Sematic Keyword-Based Search on Structured Data Sources - Third International KEYSTONE Conference, IKC 2017 Gdańsk, Poland, September 11–12, 2017 Revised Selected Papers and COST Action IC1302 Reports, Springer (2017)