Collected Item: “Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis”
Врста публикације
Рад у зборнику
Верзија документа
рецензирана
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Dalibor Vorkapić, Aleksandra Tomašević, Miljana Mladenović, Ranka Stanković, Nikola Vulović
Наслов рада (Наслов - поднаслов)
Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis
Назив конференције (зборника), место и датум одржавања
International Scientific Conference “Archibald Reiss Days” Thematic Conference Proceedings Of International Significance, Belgrade, 7-9 November 2017
Издавач (Београд : Просвета)
Academy Of Criminalistic And Police Studies Belgrade
Година издавања
2017
Сажетак рада на српском језику
U ovom radu predstavljen je model koji omogućava prikupljanje, pripremu, opis metapodataka, upravljanje i eksploataciju, uključujući pretragu punog teksta dokumenata iz domena kriminalistike napisanih na srpskom jeziku. Predloženi pristup primenjuje se na veb portalu koji sakuplja različite tekstove nastale iz časopisa Akademije za kriminalistiku i policijske studije, Krivičnog zakona Srbije, konferencija „Tara“ i „Reiss“, kao i iz nekih doktorskih disertacija vezanih za ovu oblast istraživanje. Nakon obrade teksta, korpus koji sadrži preko 5500 stranica običnog teksta, kreiran je i pripremljen za publikaciju kao mrežni resurs za pretragu punog teksta korišćenjem Omeka, sistema za upravljanje sadržajem otvorenog koda za razvoj digitalne biblioteke u mreži. Mogućnosti pretraživanja, i pretraživanje punog teksta i metapodataka, prilagođavaju se i poboljšavaju proširenjem upita putem veb servisa koji se prenosi na morfološkom rečniku Srbije i srpskoj semantičkoj mreži VordNet za pružanje morfološkog i semantičkog proširenja pretraživanja teksta. U radu su navedene mogućnosti za dalju upotrebu i analizu digitalne biblioteke kao korpusa, anotiranje, tagovane, klasifikaciju dokumenata i klasteroovanja, kao i analize osećanja sa prvim rezultatima u tom smeru.
Сажетак рада на енглеском језику
This paper presents a model that provides harvesting, preparation, metadata description, management and exploitation including full text search over documents from a domain of criminalistics written in Serbian. Proposed approach is applied in a web portal that collects various texts derived from journals of The Academy of Criminalistics and Police Studies, Criminal code of Serbia, the “Tara” and “Reiss” conferences, and from some of PhD dissertations related to this field of research. After text processing, a corpus containing over 5500 pages of plain text is created and prepared for publication as an online resource for full text search using Omeka, an open source content management system for on line digital library development. Search capabilities, both full text and metadata search are customized and improved by query expansion via web service relaying on the Serbian morphological dictionary and the Serbian WordNet semantic network for providing morphological and semantic text search expansion. The paper outlines possibilities for further use and analysis on a digital library as a corpus, annotation, tagging, document classification and clustering, as well as sentiment analysis with first results in that direction.
Почетна страна рада
169
Завршна страна рада
180
ISBN број изворне публикације
ISBN 978-86-7020-387-7
Кључне речи на српском (одвојене знаком ", ")
Omeka, Wordnet, pretraga punog teksta, morfološka i semantička pretraga teksta, proširenje upita
Кључне речи на енглеском (одвојене знаком ", ")
Omeka, WordNet, full text search, morphological and semantic text search, query expansion
Линк
http://www.nsar.org.rs/sites/default/files/docs/Rajs_2017_Tom_3_1.pdf
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат датотеке
.pdf