• Title/Summary/Keyword: 의미 자질

Search Result 213, Processing Time 0.025 seconds

Named-entity Recognition Using Bidirectional LSTM CRFs (Bidirectional LSTM CRFs를 이용한 한국어 개체명 인식)

  • Song, Chi-Yun;Yang, Sung-Min;Kang, Sangwoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.321-323
    • /
    • 2017
  • 개체명 인식은 문서 내에서 고유한 의미를 갖는 인명, 기관명, 지명, 시간, 날짜 등을 추출하여 그 종류를 결정하는 것을 의미한다. Bidirectional LSTM CRFs 모델은 연속성을 갖는 데이터에 가장 적합한 RNN기반의 심층 학습모델로서 개체명 인식 연구에 가장 우수한 성능을 보여준다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs 모델을 사용하고, 입력 자질로 단어뿐만 아니라 품사 임베딩 모델과, 개체명 사전을 활용하여 입력 자질을 구성한다. 또한 입력 자질에 대한 벡터의 크기를 최적화 하여 기본 모델보다 성능이 향상되었음을 증명하였다.

  • PDF

Evaluation of the Feature Selection function of Latent Semantic Indexing(LSI) Using a kNN Classifier (잠재의미색인(LSI) 기법을 이용한 kNN 분류기의 자질 선정에 관한 연구)

  • Park, Boo-Young;Chung, Young-Mee
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2004.08a
    • /
    • pp.163-166
    • /
    • 2004
  • 텍스트 범주화에 관한 선행연구에서 자주 사용되면서 좋은 성능을 보인 자질 선정 기법은 문헌빈도와 카이제곱 통계량 등이다. 그러나 이들은 단어 자체가 갖고 있는 모호성은 제거하지 못한다는 단점이 있다. 본 연구에서는 kNN 분류기를 이용한 범주화 실험에서 단어간의 상호 관련성이 자동적으로 유도됨으로써 단어 자체 보다는 단어의 개념을 분석하는 잠재의미색인 기법을 자질 선정 방법으로 제안한다.

  • PDF

Ontology Alignment based on Parse Tree Kernel usig Structural and Semantic Information (구조 및 의미 정보를 활용한 파스 트리 커널 기반의 온톨로지 정렬 방법)

  • Son, Jeong-Woo;Park, Seong-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.4
    • /
    • pp.329-334
    • /
    • 2009
  • The ontology alignment has two kinds of major problems. First, the features used for ontology alignment are usually defined by experts, but it is highly possible for some critical features to be excluded from the feature set. Second, the semantic and the structural similarities are usually computed independently, and then they are combined in an ad-hoc way where the weights are determined heuristically. This paper proposes the modified parse tree kernel (MPTK) for ontology alignment. In order to compute the similarity between entities in the ontologies, a tree is adopted as a representation of an ontology. After transforming an ontology into a set of trees, their similarity is computed using MPTK without explicit enumeration of features. In computing the similarity between trees, the approximate string matching is adopted to naturally reflect not only the structural information but also the semantic information. According to a series of experiments with a standard data set, the kernel method outperforms other structural similarities such as GMO. In addition, the proposed method shows the state-of-the-art performance in the ontology alignment.

Automatic Text Categorization Model by Synonym Dictionary (유사어 사전을 이용한 자동범주화 모델 개발)

  • Kim, Qu-Hwan;Lee, Too-Young
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2004.08a
    • /
    • pp.167-172
    • /
    • 2004
  • 기존의 문서분류는 학습문서에 출현하는 자질에 대해 가중치를 계산하여 그 순위에 따라 상위 자질로 구성된 지식베이스를 사용하였다. 그리고 새로운 문서가 들어왔을 때 자질 지식베이스를 근거로 새 문서를 색인하였다. 결국 자질 지식베이스와 정확히 일치하지 않는 키워드는 색인대상에서 제외되는 문제가 있었다. 본 고에서는 이 문제를 해결하기 위하여 분류될 문서의 특징을 나타내는 범주별 자질과 유사한의미를 가지나 형태가 변형되어 기술된 단어에 대하여 유사어 사전을 구축하였으며 이를 통해 새로운 문서가 범주에 할당될 가능성을 높여 자동 문서 범주화 시스템의 성능을 향상시키고자 한다.

  • PDF

Enhancement of Word Clustering through Feature Extension (자질 확장에 따른 용어 클러스터링의 성능 향상)

  • Park Eun-Jin;Kim Jae-Hoon;Ock Cheol-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.529-531
    • /
    • 2005
  • 이 논문에서는 용어 클러스터링의 성능에 직접적인 영향을 주는 자질 확장에 따른 시스템의 성능 변화를 보았다. 객관적인 성능 비교를 위하여 용어 클러스터링 결과와 한국어 의미 계층망에서 추출한 클러스터를 비교하였다. 실험 결과, 용어의 뜻 풀이말을 자질로 사용한 경우보다 자질을 확장한 방법(Bigram, Case)이 성능이 좋게 나왔으며, 자질확장 시에 사용되는 말뭉치의 추출방법에 따라 다른 성능을 보였는데, 단순히 Bigram 정보를 사용하여 확장한 것 보다는 동사의 격 관계(Case)정보를 이용한 것이 성능이 좋게 나왔다.

  • PDF

Text Categorization Based on Terminology and Information Extraction (전문용어 및 정보추출에 기반한 문서분류시스템)

  • Lee, Kyung-Soon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

Semantic Classification of Web Pages using Ontology Concept Structure (온톨로지의 개념구조에 의한 웹페이지의 의미적 분류)

  • Song, Mu-Hee;Lim, Soo-Yeon;Park, Seong-Bae;Kang, Dong-Jin;Lee, Sang-Jo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.487-489
    • /
    • 2005
  • 본 논문에서는 온톨로지의 개념구조를 이용한 웹페이지의 의미적 분류방법을 제안한다. 웹 문서들이 가지는 용어 정보들과 어휘들 간의 개념 구조를 파악하여 온톨로지를 확장시키면서 이를 문서분류에 적용하여 의미적 분류가 이루어지게 한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하여 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 온톨로지와 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

Implementation of Feature-based Dialog System in Restaurant domain (레스토랑 영역에서의 자질기반 대화시스템 구현)

  • Yang, Hyeon-Seok;Kim, Dong-Joo;Seol, Yong-Soo;Jung, Sung-Hun;Kim, Han-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.425-428
    • /
    • 2011
  • 서비스 로봇과 펫 로봇 등 사람과 직접 상호작용하는 로봇기술의 필요성이 증가하고 있다. 대화시스템은 자연언어처리 기술을 활용하여 음성인식 기술과의 결합을 통해 현재 로봇에서 주로 사용되고 있는 버튼과 터치스크린 위주의 HRI(Human-Robot Interface)보다 자연스러운 HRI를 제공한다. 이러한 자연스러운 HRI를 수행할 수 있는 로봇을 구성하기 위해서는 로봇이 서비스를 제공할 실제 영역에 맞는 대화시스템의 연구가 필요하다. 본 논문에서는 자질사전, 단일화 문법(unification grammar), 대화 흐름도(dialogue flow diagram)를 사용한 레스토랑 영역의 자질기반(feature-based) 대화시스템을 제시한다. 자질 정보는 형태소, 시제, 어휘의 의미구조 등을 나타내며 화행(speech act) 결정에 사용하고 문장 자질과 구문 자질을 파서에서 활용한다. 자질기반 대화시스템을 통하여 레스토랑 영역에서 사용자 화행 이해 및 주문, 안내 등의 서비스를 성공적으로 수행할 수 있음을 보인다.

A Word Embedding used Word Sense and Feature Mirror Model (단어 의미와 자질 거울 모델을 이용한 단어 임베딩)

  • Lee, JuSang;Shin, JoonChoul;Ock, CheolYoung
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.4
    • /
    • pp.226-231
    • /
    • 2017
  • Word representation, an important area in natural language processing(NLP) used machine learning, is a method that represents a word not by text but by distinguishable symbol. Existing word embedding employed a large number of corpora to ensure that words are positioned nearby within text. However corpus-based word embedding needs several corpora because of the frequency of word occurrence and increased number of words. In this paper word embedding is done using dictionary definitions and semantic relationship information(hypernyms and antonyms). Words are trained using the feature mirror model(FMM), a modified Skip-Gram(Word2Vec). Sense similar words have similar vector. Furthermore, it was possible to distinguish vectors of antonym words.