• Title/Summary/Keyword: 의미론 검색

Search Result 117, Processing Time 0.031 seconds

XML-based Modeling for Semantic Retrieval of Syslog Data (Syslog 데이터의 의미론적 검색을 위한 XML 기반의 모델링)

  • Lee Seok-Joon;Shin Dong-Cheon;Park Sei-Kwon
    • The KIPS Transactions:PartD
    • /
    • v.13D no.2 s.105
    • /
    • pp.147-156
    • /
    • 2006
  • Event logging plays increasingly an important role in system and network management, and syslog is a de-facto standard for logging system events. However, due to the semi-structured features of Common Log Format data most studies on log analysis focus on the frequent patterns. The extensible Markup Language can provide a nice representation scheme for structure and search of formatted data found in syslog messages. However, previous XML-formatted schemes and applications for system logging are not suitable for semantic approach such as ranking based search or similarity measurement for log data. In this paper, based on ranked keyword search techniques over XML document, we propose an XML tree structure through a new data modeling approach for syslog data. Finally, we show suitability of proposed structure for semantic retrieval.

Semantic Extention Search for Documents Using the Word2vec (Word2vec을 활용한 문서의 의미 확장 검색방법)

  • Kim, Woo-ju;Kim, Dong-he;Jang, Hee-won
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.687-692
    • /
    • 2016
  • Conventional way to search documents is keyword-based queries using vector space model, like tf-idf. Searching process of documents which is based on keywords can make some problems. it cannot recogize the difference of lexically different but semantically same words. This paper studies a scheme of document search based on document queries. In particular, it uses centrality vectors, instead of tf-idf vectors, to represent query documents, combined with the Word2vec method to capture the semantic similarity in contained words. This scheme improves the performance of document search and provides a way to find documents not only lexically, but semantically close to a query document.

Improved fascicle based semantic compression (개선된 파시클 기반 의미론적 압축 기법)

  • Park, Hyoung-Min;Shim, Kyu-Seok;Chang, Won-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.134-138
    • /
    • 2006
  • 실제 데이터들은 압축이 필요할 정도로 큰 경우가 종종 있다. 일반적인 구조론적 데이터 압축 방법은 테이블을 긴 바이트 스트링으로 취급하여 바이트 레벨에서 압축을 시도한다. 이런 경우에 보통 압축의 효율과 검색의 용이성(특정 레코드의 애프리뷰트 값을 찾아내기 위해 압축을 풀어야 하는 부분의 크기)사이에 교환관계가 발생한다. 이런 점에서 검색을 위해 압축을 풀 필요가 없는 의미론적 압축 방법이 주목을 받고 있다. 이 논문에서는 기존의 파시클(fascicle) 알고리즘을 개선하는 새로운 의미론적 알고리즘을 제시하고 실험을 통하여 제안된 알고리즘의 우수성을 입증한다.

  • PDF

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Improving passage retrieval via negative sampling from semantic feature space (의미론적 feature 공간상에서의 negative sampling을 통한 검색 성능 개선)

  • Jeong-Doo Lee;Beomseok Hong;Wonseok Choi;Youngsub Han;Byoung-Ki Jeon;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.146-149
    • /
    • 2022
  • 최근 검색 태스크에서는 좋은 negative sample을 얻는 방법론들이 적용되어 큰 성능 향상을 이뤘다. 하지만 좋은 negative sample 대부분의 방법들은 큰 계산 비용이 든다. 따라서 본 논문에서는 계산 비용이 적고 효과적인 negative sample을 얻기 위해 Mixed Gaussian Recurrent Chain (MGRC) sampling을 사용하여 feature 공간상에서 의미론적으로 유사한 feature를 얻고 이를 negative sample로 활용하여 기존 baseline 모델보다 좋은 성능을 얻었다.

  • PDF

Design and Implementation of Topic Map Generation System based Tag (태그 기반 토픽맵 생성 시스템의 설계 및 구현)

  • Lee, Si-Hwa;Lee, Man-Hyoung;Hwang, Dae-Hoon
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.5
    • /
    • pp.730-739
    • /
    • 2010
  • One of core technology in Web 2.0 is tagging, which is applied to multimedia data such as web document of blog, image and video etc widely. But unlike expectation that the tags will be reused in information retrieval and then maximize the retrieval efficiency, unacceptable retrieval results appear owing to toot limitation of tag. In this paper, in the base of preceding research about image retrieval through tag clustering, we design and implement a topic map generation system which is a semantic knowledge system. Finally, tag information in cluster were generated automatically with topics of topic map. The generated topics of topic map are endowed with mean relationship by use of WordNet. Also the topics are endowed with occurrence information suitable for topic pair, and then a topic map with semantic knowledge system can be generated. As the result, the topic map preposed in this paper can be used in not only user's information retrieval demand with semantic navigation but alse convenient and abundant information service.

Design of Efficient Storage Structure and Indexing Model of XML Document (XML 문서의 효율적인 저장구조와 색인 모델의 설계)

  • 김은정
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.301-303
    • /
    • 2002
  • XML 문서는 문서의 내용뿐 아니라, 의미를 가지는 구조 정보, 그리고 다양한 의미를 부과할 수 있는 링크 정보를 가지고 있다. 본 논문에서는 XML 문서를 보다 효율적으로 관리하기 위하여 DTD와 XML 문서에 대한 새로운 저장 방법과 이를 이용한 색인 모델을 제안한다. 이를 위해 하나의 XML 문서를 저장함에 있어, 엘리먼트 구조 정보, 애트리뷰트 정보, 링크 정보의 구성 방법을 제시하고, 이를 바탕으로 링크 정보론 이용한 내용 검색 색인 모델과 구조 검색, 애트리뷰트 검색을 위한 색인 모델을 설계한다. 또한 제안된 모델에서의 사용자들의 다양한 질의 유형의 처리 과정을 설명한다.

  • PDF

Research of Methodology to Compare Movie Stories (등장인물 기반의 영화의 스토리 비교 방법론 연구)

  • Park, Seung-Bo;Kim, Hyun Sik;You, Eun-Soon
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2015.05a
    • /
    • pp.41-42
    • /
    • 2015
  • 사람이 영화를 이해하는 주된 내용은 스토리이다. 따라서 영화를 검색하거나 추천하기 위해서는 스토리 차원의 영화 분석이 선행되어야 한다. 더욱이 영화 추천이나 검색을 위해서는 영화간의 스토리차원의 비교를 수행할 수 있는 방법론에 대한 연구가 필요하다. 이를 위해 본 논문에서는 등장인물 기반으로 하는 영화 정규화 방법론을 소개하고 군집화를 통해 그 의미를 고찰한다.

  • PDF

A Design of Semantic Contents Search System for Multimedia Ontology (멀티미디어 온톨로지 기반의 의미론적 콘텐츠 검색 시스템 설계)

  • Hwang, Chi-Gon;Moon, Seok-Jae;Lee, Daesung;Yoon, Chang-Pyo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.05a
    • /
    • pp.245-248
    • /
    • 2013
  • With the development of multimedia and network technology, the production of multimedia contents is rapidly increasing. Meanwhile, the technology to search and use the contents is still insufficient. There are standards for multimedia contents to address the problem, but they cannot fully support diverse multimedia data types or ensure their interoperability. In this paper, an ontology-based content search system is proposed to ensure the interoperability of multimedia contents. The ontology is configured by presenting the rules for it using the schema structure of the multimedia description scheme (MDS) of MPEG-7. Based on this ontology, the association of the multimedia data is expanded to design an access system that allows semantic search.

  • PDF

The Multimedia Contents Search System based on Ontology (온톨로지 기반의 멀티미디어 콘텐츠 검색 시스템)

  • Hwang, Chi-Gon;Moon, Seok-Jae;Lee, Daesung;Yoon, Chang-Pyo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.6
    • /
    • pp.1354-1359
    • /
    • 2013
  • With the development of multimedia and network technology, the production of multimedia contents is rapidly increasing. Meanwhile, the technology to search and use the contents is still insufficient. There are standards for multimedia contents to address the problem, but they cannot fully support diverse multimedia data types or ensure their interoperability. In this paper, an ontology-based content search system is proposed to ensure the interoperability of multimedia contents. The ontology is configured by presenting the rules for it using the schema structure of the multimedia description scheme (MDS) of MPEG-7. Based on this ontology, This paper extend multimedia relationship based on ontology, thus established the semantic retrieval system.