Corpus-based bilingual terminology extraction in the power engineering domain ⚒ Радови ⚒ Др РГФ

Corpus-based bilingual terminology extraction in the power engineering domain

Објеката

Тип: Рад у часопису
Верзија рада: коригована верзија
Језик: енглески
Креатор: Tanja Ivanović, Ranka Stanković, Branislava Šandrih Todorović, Cvetana Krstev
Извор: Terminology
Издавач: John Benjamins Publishing Company
Датум издавања: 2022
Сажетак: Ovaj rad predstavlja resurse i alate koji se koriste za ekstrkciju i evaluaciju dvojezične, englesko-srpske terminologije u domenu energetike. Resursi se sastoje od postojeće opšte i domenske leksike i domenskog paralelnog korpusa; alati uključuju ekstraktore termina za oba jezika i alat za poravnavanje segmenata koji pripadaju korpusnim rečenicama. Sistem je testiran variranjem funkcije podudaranja koja utvrđuje prisustvo ekstrahovanog termina u poravnatom segmentu (odsečak), u rasponu od veoma labavog do strogog. Procena rezultata je pokazala da je preciznost izdvajanja termina na engleskom bila 92%, na srpskom jeziku 86%, dok je preciznost izdvajanja dvojezičnog para 72% na osnovu funkcije najstrožeg podudaranja. Rezultat izdvajanja je bio 2.684 ispravna dvojezična para koji su poboljšali terminološku bazu podataka i koji se dalje mogu koristiti za podršku pretraživanju zbirke usklađene sa elektroenergetikom koja je uskladištena u digitalnoj biblioteci.; This paper presents the resources and tools used to extract and evaluate bilingual, English-Serbian terminology in the power engineering domain. The resources consist of existing general and domain lexica, and a domain parallel corpus; tools include term extractors for both languages and a tool for aligning the segments belonging to corpus sentences. The system was tested by varying a match function that establishes the presence of an extracted term in an aligned segment (a chunk), ranging from very loose to strict. The evaluation of results showed that the precision of English term extraction was 92%, Serbian term extraction 86%, while the precision of bilingual pair extraction was 72% based on the strictest match function. The result of extraction was 2,684 correct bilingual pairs that enhanced the terminology database and can further be used to support the search of the power engineering aligned collection stored in a digital library.
том: 2
Број: 28
крај странице: 36
doi: 10.1075/term.20038.iva
issn: 0929-9971
Subject: Library and Information Sciences, Communication, Language and Linguistics
uri: http://www.jbe-platform.com/deliver/fulltext/10.1075/term.20038.iva/term.20038.iva.pdf
Шира категорија рада: M20
Ужа категорија рада: М23
Права: Затворени приступ
Лиценца: All rights reserved
Формат: .pdf
ORCID: https://orcid.org/0000-0001-5123-6273; https://orcid.org/0000-0001-5123-6273

Скупови објеката: Ранка Станковић; Radovi istraživača

Tanja Ivanović, Ranka Stanković, Branislava Šandrih Todorović, Cvetana Krstev. "Corpus-based bilingual terminology extraction in the power engineering domain" in Terminology, John Benjamins Publishing Company (2022). https://doi.org/10.1075/term.20038.iva М23

This item was submitted on 8. април 2022. by [anonymous user] using the form “Рад у часопису” on the site “Радови”: http://romeka.rgf.rs/s/repo

Click here to view the collected data.