• Title/Summary/Keyword: 의미 기반 정보 추출

Search Result 676, Processing Time 0.03 seconds

Semantic Query Expansion based on a Question Category Concept List in QA system (질의 응답 시스템에서 질의 카테고리별 개념리스트 구축에 기반한 의미적 질의 확장)

  • 김혜정;강보영;박성배;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.178-180
    • /
    • 2004
  • 질의 응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer tyype) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서의 정답문장에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 혹은 다른 문법적 정보를 가진 카테고리로 등장하여 정답 추출에 어려움이 따른다. 따라서, 본 논문은 질의별 카테고리 개념 리스트를 구축하여 효과적인 의미적 질의 확장 방법론을 제안한다. 제안된 방법은 먼저 질문 문장의 패턴 린 질의 정보 유형을 파악하여 질의 카테고리 및 카테고리별 개념 리스트를 구축한다. 그런 후 구축된 질의 개념 카테고리 및 리스트를 활용하여 질의 유형을 학습하고, 새로운 질의가 입력되면 해당 개념 카테고리로 분류한 후, 개념 리스트를 기반으로 개념별 질의 확장을 수행한다. 제안된 시스템의 성능 명가를 위하여, TREC-9의 질의와 TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건을 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

  • PDF

The method for extraction of meaningful places based on behavior information of user (실생활 정보를 이용한 사용자의 의미 있는 장소 추출 방법)

  • Lee, Seung-Hoon;Kim, Bo-Keong;Yoon, Tae-Bok;Lee, Jee-Hyong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.20 no.4
    • /
    • pp.503-508
    • /
    • 2010
  • Recently, the advance of mobile devices has made various services possible beyond simple communication. One of services is the predicting the future path of users and providing the most suitable location based service based on the prediction results. Almost of these prediction methods are based on previous path data. Thus, calculating similarities between current location information and the previous trajectories for path prediction is an important operation. The collected trajectory data have a huge amount of location information generally. These information needs the high computational cost for calculating similarities. For reducing computational cost, the meaningful location based trajectory model approaches are proposed. However, most of the previous researches are considering only the physical information such as stay time and the distance for extracting the meaningful locations. Thus, they will probably ignore the characteristics of users for meaningful location extraction. In this paper, we suggest a meaningful location extracting and trajectory simplification approach considering the stay time, distance, and additionally interaction information of user. The method collects the location information using GPS device and interaction information between the user and the others. Using these data, the proposed method defines the proximity of the people who are related with the user. The system extracts the meaningful locations based on the calculated proximities, stay time and distance. Using the selected meaningful locations the trajectories are simplified. For verifying the usability of the proposed method, we collect the behavioral data of smart phone users. Using these data, we measure the suitability of meaningful location extraction method, and the accuracy of prediction approach based on simplified trajectories. Following these result, we confirmed the usability of proposed method.

Korean Space Event Relation Extraction Using Case-frame (격틀 정보를 이용한 한국어 공간 사건 관계 추출)

  • Kwak, Sujeong;Kim, Bogyum;Park, Yongmin;Lee, Jae Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.798-801
    • /
    • 2014
  • 문서에서 공간 개체와 사건을 찾아내고, 이들 간의 위상적 관계나 의미적 관계를 찾아내는 것을 공간정보 추출이라고 한다. 본 논문에서는 언어분석 결과와 세종사전을 활용해 자연언어 문서에서 동작(motion) 사건 관계 중심의 공간 정보를 추출하는 규칙 기반 시스템을 제안하였다. 수동으로 구축한 20문장의 평가 집합에 대해 사건 관계 추출은 27.45%의 F-measure 성능을 보였다. 공간보다 비교적 많은 연구가 진행된 시간 관계 추출에 대한 최신 연구의 성능이 30~35% 수준[1]인 것을 고려하여 볼 때, 본 연구는 공간 사건 관계 추출의 기초 연구로 의미가 있다.

Pattern extraction method using SVDD-based weighted (SVDD 기반 가중치를 이용한 패턴 추출 방법)

  • Yoon, Tae-Bok;Lee, Jee-Hyong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.323-324
    • /
    • 2011
  • 데이터 마이닝은 주어진 데이터로부터 의미 있는 정보를 찾기 위한 방법으로 주로 사용된다. 하지만, 분석을 위한 데이터에 의미 없는 정보가 포함되어 있다면 분석 결과를 신뢰 할 수 없을 것이다. 이를 위해서 의미 없는 데이터를 제거하기 위한 연구 사례가 있으나, 정상적인 데이터도 함께 제거될 수 있다는 단점이 있다. 본 논문은 패턴 추출을 위한 분석 데이터를 SVDD 방법을 이용하여 의미 있는 데이터와 의미 없는 데이터 간에 가중치를 구한다. 생성된 가중치는 의사결정나무 생성에 반영하였고, 실험을 통하여 유효성을 확인하였다.

Text Assocation Pattern Extraction using NFP-tree Algorithm (NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출)

  • Yu, Soo-Kung;Kim, Kio-chung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

Terminological Paraphrase Extraction with Ranking Combination (랭킹 결합에 의한 기술용어 패러프레이즈 추출)

  • Choi, Sung-Pil;Cho, Min-Hee;Jung, Hanmin;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.175-180
    • /
    • 2012
  • 기술용어 패러프레이즈 (Terminological Paraphrase, TP)는 학술 문헌 내에서 기술 용어의 개념 및 정의를 다른 형태로 풀어서 알기 쉽게 서술적 문구 (descriptive expression) 를 의미한다. 이러한 TP들에 대한 효율적인 식별과 추출은 학술 정보에 대한 개념적 접근이나 학술 정보 검색의 재현율 향상에 매우 중요하다. 본 논문은 생명 공학 분야의 논문에 나타나는 다양한 형태의 TP들을 효율적으로 추출하기 위한 정보 검색 기반의 추출 방법론을 제시하고 총 여섯 가지의 추출 랭킹 모델을 기반으로 이를 결합함으로써 TP추출의 확장 가능성에 대한 실험적 연구를 수행한다. 실험 결과, 활용된 랭킹 모델이 서로 상호 보완적인 관계에 있음을 알 수 있었으며, 랭킹 결합에 의한 성능 개선 효과를 얻을 수 있었다.

  • PDF

Web Document-based Associate Knowledge Extraction Method : Applying to Bioinformatics (웹 도큐먼트 기반 연관 지식 추출 기법 : 생명정보분야에의 적용)

  • 문현정;김교정
    • Journal of Internet Computing and Services
    • /
    • v.2 no.5
    • /
    • pp.9-19
    • /
    • 2001
  • In this paper. we develop associate knowledge extraction method for finding and expanding user preference knowledge automatically from web document database. To reflect user interest or preferences, agent explores and extracts relevant information to central term involving the intent of users from the example documents. To do so, we apply association rule exploration data-mining method to the extraction of the relevant objects in the web documents. Also, to give the weighted-value to the extracted and relevant information, we present associate tag block-based weighting method. We applied to bioinformatics above associate knowledge extraction method to find related keywords.

  • PDF

Text Categorization Based on Terminology and Information Extraction (전문용어 및 정보추출에 기반한 문서분류시스템)

  • Lee, Kyung-Soon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

Domain-specific Korean Relation Extraction system using Prompt with Meta-Information (메타 정보를 활용한 프롬프트 기반 도메인 특화 한국어 관계 추출)

  • Jinsung Kim;Gyeongmin Kim;Junyoung Son;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.369-373
    • /
    • 2022
  • 기존의 관계 추출 태스크에서의 많은 연구들은 사전학습 언어모델을 파인튜닝하여 뛰어난 성능을 달성해왔다. 하지만, 파인튜닝은 사전학습 시의 학습 기법과의 간극으로 인해 일반화 능력을 저해한다. 본 연구는 다운스트림 태스크를 사전학습의 Masked Language Modeling (MLM) 기법을 통해 해결하는 프롬프트 기반의 학습 기법을 활용하여, 특정 한국어 도메인에서의 관계 추출을 위한 프롬프트 기반 파인튜닝 방법론을 제안한다. 실험의 경우, 도메인의 특성이 뚜렷한 전통문화유산 말뭉치를 대상으로 실험을 진행하여 본 방법론의 도메인 적응력을 보이며, 메타 정보 즉, 개체 유형 및 관계 유형의 의미론적 정보를 일종의 지식 정보로 활용하여 프롬프트 기반 지식 주입의 효과성을 검증한다. 프롬프트에의 메타 정보의 주입과 함께 프롬프트 기반으로 파인튜닝된 모델은 오직 MLM 기법만을 이용하여 태스크를 수행하여 기존 파인튜닝 방법론 대비 파라미터 수가 적음에도, 성능 면에서 대부분 소폭 상승하는 경향을 보여줌으로써 그 효과성 및 효율성을 보인다.

  • PDF

A Semantics-based Video Retrieval System using Annotation and Feature (주석 및 특징을 이용한 의미기반 비디오 검색 시스템)

  • 이종희
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.41 no.4
    • /
    • pp.95-102
    • /
    • 2004
  • In order to process video data effectively, it is required that the content information of video data is loaded in database and semantic-based retrieval method can be available for various query of users. Currently existent contents-based video retrieval systems search by single method such as annotation-based or feature-based retrieval, and show low search efficiency md requires many efforts of system administrator or annotator because of imperfect automatic processing. In this paper, we propose semantics-based video retrieval system which support semantic retrieval of various users by feature-based retrieval and annotation-based retrieval of massive video data. By user's fundamental query and selection of image for key frame that extracted from query, the agent gives the detail shape for annotation of extracted key frame. Also, key frame selected by user become query image and searches the most similar key frame through feature based retrieval method and optimized comparison area extracting that propose. Therefore, we propose the system that can heighten retrieval efficiency of video data through semantics-based retrieval.