• Title/Summary/Keyword: 의미 태깅

Search Result 109, Processing Time 0.036 seconds

A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus (대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템)

  • Park, Junhyeok;Lee, Songwook;Lim, Yoonseob;Choi, Jongsuk
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.5
    • /
    • pp.213-222
    • /
    • 2019
  • Determining the meaning of a keyword in a speech dialogue system is an important technology for the future implementation of an intelligent speech dialogue interface. After extracting keywords to grasp intention from user's utterance, the intention of utterance is determined by using the semantic mark of keyword. One keyword can have several semantic marks, and we regard the task of attaching the correct semantic mark to the user's intentions on these keyword as a problem of word sense disambiguation. In this study, about 23% of all keywords in the corpus is manually tagged to build a semantic mark dictionary, a synonym dictionary, and a context vector dictionary, and then the remaining 77% of all keywords is automatically tagged. The semantic mark of a keyword is determined by calculating the context vector similarity from the context vector dictionary. For an unregistered keyword, the semantic mark of the most similar keyword is attached using a synonym dictionary. We compare the performance of the system with manually constructed training set and semi-automatically expanded training set by selecting 3 high-frequency keywords and 3 low-frequency keywords in the corpus. In experiments, we obtained accuracy of 54.4% with manually constructed training set and 50.0% with semi-automatically expanded training set.

Automatic Ontology Construction for Semantic Relevance in Question Answering System (질의응답 시스템에서 의미 연관성 참조를 위한 온톨로지의 자동 구축)

  • 김혜정;강보영;황선욱;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.109-111
    • /
    • 2003
  • 본 논문에서는 질의응답 시스템에서 질의에 포함된 언어 정보와 검색 대상 문장 사이의 의미 연관성을 참조하여 정확한 결과를 추출 가능하도록 하는 온톨로지의 자동 구축 방법을 제시한다. 검색 대상 문장은 웹에서의 활용과 표준화를 위하여 단어 태그, 품사 정보 및 파싱 구조를 갖는 XML 문서로 변환하고, 이 구조를 이용한 연관성 분석을 위해 의미망을 갖는 온톨로지를 자동으로 생성할 수 있도록 하였다. 온톨로지에서 의미 연관성을 결정하는데 중요하게 활용되는 개념으로써는 동사의 행위, 명사절 그룹 매치, 복합명사 선별, 고유명사 매치, 품사 태깅 등이 있다. 제안한 방법의 성능은 NIST TREC-10의 질의 응답문을 사용해서 단어 패턴 매치 방법과 비교 분석하였으며, 본 논문에서 제안한 방식이 재현율과 정확율 측면에서 우수한 성능을 나타냄을 입증하였다.

  • PDF

Construct ion of Keyword Index and Improved Search Methods for e-Catalogs Eased on Semantic Relationship (의미적 연결 관계에 기반한 전자 카탈로그에서의 확장된 어휘 인덱스 구축 및 이를 이용한 검색 성능 향상 기법)

  • Lee Dongjoo;Lee Taehee;Lee Sang-goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.67-69
    • /
    • 2005
  • 본 논문에서는 기 구축된 전자 카탈로그를 의미적 연결 관계에 기초한 확장된 전자 카탈로그로 변환하는 방법을 제안한다. 이를 통해 구축된 확장된 전자 카탈로그에서 의미적 태깅에 의한 확장된 어휘 인덱스 구축 방안과, 이를 이용한 검색 성능 향상 기법을 제안한다. 기존의 전자 카탈로그는 상품 정보가 분류별로 생성된 테이블에 저장되고 저장된 테이블로부터 생성된 키워드 인덱스로부터 검색이 이루어 졌다. 이러한 검색은 상품이 가지는 정보를 데이터베이스에 구축된 테이블에만 한정하게 되어 전자 카탈로그에 포함된 상품이나 분류간의 의미적 연결 관계들을 충분히 이용하지 못하였다 전자 카탈로그에 내재된 의미적 요소를 충분히 활용하기 위해서는 전자 카탈로그를 의미적 연결 관계에 기초한 모델로 구성할 필요가 있다. 본 논문에서는 의미적 모델 기반 전자 카탈로그 시스템으로의 전환 과정을 XML형태의 명세를 이용해 반자동적으로 전환할 수 있는 툴을 구현하며, 단순 키워드 어휘 인덱스 구축이 아닌, 어휘 인덱스의 의미적 확장을 제안하고, 이를 위한 태그 요소로써 어휘에 대한 형태소 분석 결과, 수치 환산 및 확장 요소, 속성간의 도메인 정보 등을 제시하였다. 이를 기반으로 최적의 검색 결과를 얻어 내도록 하는 인접도 평가 함수에 적용하는 방법을 제시한다.

  • PDF

Design and Implementation of Topic Map Generation System based Tag (태그 기반 토픽맵 생성 시스템의 설계 및 구현)

  • Lee, Si-Hwa;Lee, Man-Hyoung;Hwang, Dae-Hoon
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.5
    • /
    • pp.730-739
    • /
    • 2010
  • One of core technology in Web 2.0 is tagging, which is applied to multimedia data such as web document of blog, image and video etc widely. But unlike expectation that the tags will be reused in information retrieval and then maximize the retrieval efficiency, unacceptable retrieval results appear owing to toot limitation of tag. In this paper, in the base of preceding research about image retrieval through tag clustering, we design and implement a topic map generation system which is a semantic knowledge system. Finally, tag information in cluster were generated automatically with topics of topic map. The generated topics of topic map are endowed with mean relationship by use of WordNet. Also the topics are endowed with occurrence information suitable for topic pair, and then a topic map with semantic knowledge system can be generated. As the result, the topic map preposed in this paper can be used in not only user's information retrieval demand with semantic navigation but alse convenient and abundant information service.

Word Sense Disambiguation Based on Local Syntactic Relations and Sense Co-occurrence Information (국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소)

  • Kim, Young-Kil;Hong, Mun-Pyo;Kim, Chang-Hyun;Seo, Young-Ae;Yang, Seong-Il;Ryu, Chul;Huang, Yin-Xia;Choi, Sung-Kwon;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.184-188
    • /
    • 2002
  • 본 논문에서는 단순히 주변에 위치하는 어휘들간의 문맥 공기 정보를 이용하는 방식과는 달리 국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소 방안을 제안한다. 기존의 WSD 방법은 구조 분석의 어려움으로 인하여 문장의 구문 관계를 충분히 고려하지 못하고 주변 어휘들과의 공기 관계로 그 의미를 파악하려 했다. 그러나 본 논문에서는 동사구의 논항 의미 관계뿐만 아니라 명사구내에서의 의미 관계도 고려한 국소 구문관계를 고려한 명사 의미 모호성 해소 방법을 제안한다. 이 때, 명사들의 의미는 자동번역 시스템의 목적에 맞게 공기(co-occurrence)하는 동사들에 따라 분류하였다. 그리고 한중 자동 번역 지식으로 사용되는 명사 의미 코드가 부착된 74,880 의미 격틀의 의미 공기정보를 이용하였으며 형태소 태깅된 말뭉치로부터 의미모호성이 발생하지 않게 의미 공기정보 및 명사구 의미 공기 정보를 자동으로 추출하였다. 실험 결과, 의미 모호성이 발생하는 명사들에 대해서 83.9%의 의미 모호성 해소 정확률을 보였다.

  • PDF

Sentence Classification for Korean Dialog Engine (한국어 대화 엔진에서의 문장 분류)

  • Choi, DongHyun;Park, IlNam;Lim, Jae-Soo;Baek, SeulYe;Lee, MiOk;Shin, Myeongcheol;Kim, EungGyun;Shin, Dong Ryeol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.210-214
    • /
    • 2018
  • 본 논문에서는 한국어 대화 엔진에서의 문장 분류 방법에 대해서 소개한다. 문장 분류시 말뭉치에서 관찰되지 않은 표현들을 포함한 입력 발화를 처리하기 위하여, 태깅되지 않은 뉴스 데이터로부터 일반적인 단어 의미 벡터들이 훈련 및 성능 평가되었고, 이를 문장 분류기에 적용하였다. 또한, 실 서비스에 적용 가능한 빠른 분류 속도를 유지함과 동시에 문제에 특화된 의미 벡터들을 학습하기 위하여, 기존에 사용되던 캐릭터 기반 의미 벡터 대신 도메인 특화 단어 의미 벡터의 사용이 제안되었다. 실험 결과, 자체 구축된 테스트 말뭉치에 대하여 본 논문에서 제안된 시스템은 문장 단위 정확률 96.88, 문장당 평균 실행 시간 12.68 msec을 기록하였다.

  • PDF

Two-Level Clausal Segmentation Algorithm using Sense Information (의미 정보를 이용한 이단계 단문 분할 알고리즘)

  • Park, Hyun-Jae;Lee, Su-Seon;Woo, Yo-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.237-241
    • /
    • 1999
  • 단문 분할은 한 문장에 중심어인 용언이 복수개인 경우 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 효율적인 결과를 얻을 수 있으나 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해 구문 정보의 단문 분할이 아닌 의미 정보를 활용하여 복잡한 문장을 효율적으로 단문으로 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 문장의 구조적 애매성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문 분할이 필요하다. 본 논문에서는 의미 영역에서 단문 분할의 할 경우 기존의 방법들의 애매성을 해소할 수 있다는 점을 보인다. 이를 위해, 먼저 하위범주화 사전과 시소러스의 의미 정보를 이용하여 용언과 보어 성분간의 의존구조를 1차적으로 작성하고 이후 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문 분할 알고리즘을 제안한다. 제안된 이단계 단문 분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 20,000문장을 반 자동적인 방법으로 술어와 보어 성분간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행한다.

  • PDF

FolksoViz: A Subsumption-based Folksonomy Visualization Using the Wikipedia (FolksoViz: Wikipedia 본문을 이용한 상하위 관계 기반 폭소노미 시각화 기법)

  • Lee, Kang-Pyo;Kim, Hyun-Woo;Jang, Chung-Su;Kim, Hyoung-Joo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.4
    • /
    • pp.401-411
    • /
    • 2008
  • Folksonomy, which is created through the collaborative tagging from many users, is one of the driving factors of Web 2.0. Tags are said to be the web metadata describing a web document. If we are able to find the semantic subsumption relationships between tags created through the collaborative tagging, it can help users understand the metadata more intuitively. In this paper, targeting del.icio.us tag data, we propose a method named FolksoViz for deriving subsumption relationships between tags by using Wikipedia texts. For this purpose, we propose a statistical model for deriving subsumption relationships based on the frequency of each tag on the Wikipedia texts, and TSD(Tag Sense Disambiguation) method for mapping each tag to a corresponding Wikipedia text. The derived subsumption pairs are visualized effectively on the screen. The experiment shows that our proposed algorithm managed to find the correct subsumption pairs with high accuracy.

A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation (영한 기계 번역을 위한 혼합형 N-best 품사 태거)

  • Lim, Heui-Seok;Kwon, Cheol-Joong;Lee, Jae-Won;Oh, Ki-Eun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

Tag Based Web Resource Recommendation System (태그의 문맥 정보를 이용한 웹 자원 추천 시스템)

  • Song, Je-In;Jeong, Ok-Ran
    • Journal of Internet Computing and Services
    • /
    • v.17 no.6
    • /
    • pp.133-141
    • /
    • 2016
  • Recent web services provide tagging function to users, and let them express the topic of the contents of their articles. Moreover, we can extract context information like emotion of the writer efficiently by using tags attached to the articles or images. And we are able to better understand article than traditional algorithm. (eg. TF-IDF) Therefore, if we use tags in recommendation system, we can recommend high quality resources to the users. This study proposes a recommendation method that provide web resources (articles, users) through simple algorithm based on related tag set extracted from the article. Through the experiments, we show that the result was satisfactory, and we measure the satisfaction of users.