Collected Item: “Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking”
Врста публикације
Рад у зборнику
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Ranka Stanković, Milica Ikonić Nešić, Olja Perisic, Mihailo Škorić, Olivera Kitanović
Наслов рада (Наслов - поднаслов)
Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking
Назив конференције (зборника), место и датум одржавања
Proceedings of the 9th Workshop on Linked Data in Linguistics @ LREC-COLING 2024
Уредник/ци зборника
Christian Chiarcos, Katerina Gkirtzou, Maxim Ionov, Fahad Khan, John P. McCrae, Elena Montiel Ponsoda, Patricia Martín Chozas
Издавач (Београд : Просвета)
ELRA and ICCL
Година издавања
2024
Сажетак рада на српском језику
U radu se prikazuju rezultati istraživanja vezanih za pripremu paralelnih korpusa, fokusirajući se na transformaciju u RDF grafove koristeći NLP Interchange Format (NIF) za lingvističku anotaciju. Pružamo pregled paralelnog korpusa koji je korišćen u ovom studijskom slučaju, kao i proces označavanja delova govora, lematizacije i prepoznavanja imenovanih entiteta (NER).
Zatim opisujemo povezivanje imenovanih entiteta (NEL), konverziju podataka u RDF, i uključivanje NIF anotacija. Proizvedene NIF datoteke su evaluirane kroz istraživanje triplestore-a korišćenjem SPARQL upita. Na kraju, razmatra se povezivanje Linked Data i istraživanja digitalne humanistike, kao i neki nedostaci vezani za opsežnost transformacije. Koncept semantičke interoperabilnosti u kontekstu povezanih podataka i paralelnih korpusa osigurava da podaci razmenjeni između sistema nose deljena i dobro definisana značenja, omogućavajući efikasnu komunikaciju i razumevanje.
Zatim opisujemo povezivanje imenovanih entiteta (NEL), konverziju podataka u RDF, i uključivanje NIF anotacija. Proizvedene NIF datoteke su evaluirane kroz istraživanje triplestore-a korišćenjem SPARQL upita. Na kraju, razmatra se povezivanje Linked Data i istraživanja digitalne humanistike, kao i neki nedostaci vezani za opsežnost transformacije. Koncept semantičke interoperabilnosti u kontekstu povezanih podataka i paralelnih korpusa osigurava da podaci razmenjeni između sistema nose deljena i dobro definisana značenja, omogućavajući efikasnu komunikaciju i razumevanje.
Сажетак рада на енглеском језику
The paper presents the results of the research related to the preparation of parallel corpora, focusing on transformation into RDF graphs using NLP Interchange Format (NIF) for linguistic annotation. We give an overview of the parallel corpus that was used in this case study, as well as the process of POS tagging, lemmatization, and named entity recognition (NER).
Next, we describe the named entity linking (NEL), data conversion to RDF, and incorporation of NIF annotations. Produced NIF files were evaluated through the exploration of triplestore using SPARQL queries. Finally, the bridging of Linked Data and Digital Humanities research is discussed, as well as some drawbacks related to the verbosity of transformation. Semantic interoperability concept in the context of linked data and parallel corpora ensures that data exchanged between systems carries shared and well-defined meanings, enabling effective communication and understanding.
Next, we describe the named entity linking (NEL), data conversion to RDF, and incorporation of NIF annotations. Produced NIF files were evaluated through the exploration of triplestore using SPARQL queries. Finally, the bridging of Linked Data and Digital Humanities research is discussed, as well as some drawbacks related to the verbosity of transformation. Semantic interoperability concept in the context of linked data and parallel corpora ensures that data exchanged between systems carries shared and well-defined meanings, enabling effective communication and understanding.
Почетна страна рада
115
Завршна страна рада
125
Кључне речи на српском (одвојене знаком ", ")
paralelni korpusi, povezivanje imenovanih entiteta, prepoznavanje imenovanih entiteta, NER, NEL, povezani podaci, NIF, Vikipodaci
Кључне речи на енглеском (одвојене знаком ", ")
parallel corpora, named entity linking, named entity recognition, NER, NEL, linked data, NIF, Wikidata
Линк
https://aclanthology.org/2024.ldl-1.15
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Пројект у склопу кога је настао рад
TESLA
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат датотеке
.pdf