• Title/Summary/Keyword: 자연 언어 처리

Search Result 429, Processing Time 0.019 seconds

Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary (기계가독사전을 이용한 한국어 시소러스 구축)

  • Lee, Ju-Ho;Un, Koaung-Hi;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF

Korean-English Sentence Alignment Based on Sentence Length and Word Alignment (문장 길이와 단어 정렬에 기반한 한-영 문장 정렬)

  • Lim, Jae-Soo;Seo, Hee-Cheol;Lee, Sang-Zoo;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.302-309
    • /
    • 2001
  • 말뭉치를 통한 통계적인 자연 언어 처리에 관한 연구가 다국어 처리 분야에서도 활발히 진행되고 있는 가운데, 본 논문에서는 병렬 말뭉치 구축 및 활용의 기본이 되는 문장 정렬을 위한 효과적인 방법을 제안한다. 먼저, 기존의 문장 길이를 이용한 방법을 한-영 문장 정렬에 적용해 보고, 길이 정보만을 이용했을 때의 한계점을 지적한다. 그리고, 사전과 품사 대응 확률을 이용한 단어 정렬을 통하여, 길이 기반의 정렬 방식이 갖는 문제점을 보완할 수 있는 방법을 제시한다. 실험을 통하여 제안한 방법이 길이에 기반한 방법에 비하여 높은 성능을 나타냄을 알 수 있었다. 또한 한-영 문장 정렬에의 어휘 정보 활용에 있어서 문제가 될 수 있는 요소가 어떤 것들이 있는지 알아본다.

  • PDF

말뭉치를 이용한 형태소 분석 단계에서의 중의성 해결에 관한 연구

  • Kim, Gyeong-Seo;Kim, Dae-Cheol;Jeong, Gang-Seok;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.36-43
    • /
    • 1991
  • 자연 언어 처리의 효율성은 대량의 정보를 담고 있는 사전을 잘 구성하는 데 있다. 사전을 잘 이용하기 위해서는 입력 어절에 대한 정확한 표제어(원형)를 효과적으로 찾아야한다. 입력 어절에 대한 표제어를 찾는 역할을 하는 형태소 분석기는 한 어절의 정보만 이용하기 때문에 입력 어절을 두 가지 이상의 표제어로 해석할 수 있다. 연세 대학교 사전편찬실이 갖고 있는 연세 말뭉치 I 에 대해 10% 이상의 어절이 두가지 이상으로 분석되는 중의성을 가진다. 이렇게 중의성을 가지는 어절이 그대로 구문 구조 분석기에 전달되면 중의성올 해결하기 위해 구운 구조 분석기의 처리 과정이 복잡해진다. 본 논문은 표제어의 중의성을 보이는 어절을 구문 구조 분석기에게 전달하기 전에 형태소 분석기와 구문 구조 분석기 사이에서 정확한 표제어를 찾는 방법을 제안한다.

  • PDF

Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model (은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델)

  • Oh, Jong-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF

A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary (반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템)

  • Myung, Jaeseok;Lee, Dongjoo;Lee, Sang-Goo
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.68-75
    • /
    • 2007
  • 웹 2.0 시대에 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치있는 데이터이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하는 상품평 분석 시스템을 설계하고 구현하였다. 각 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동으로 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘에 대한 처리 방법에 대해서도 논의한다. 실험은 2개 상품 분류의 63개 실제 리뷰를 대상으로 수행하였으며 결과로 평균 88.94%의 정확률, 47.92%의 재현율을 나타냈다.

  • PDF

Unicode and Code Conversion for Sejong 21 Raw Corpus (21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.262-265
    • /
    • 2009
  • 21세기 세종계획은 국어정보화를 위한 범국가적 사업으로서 국어 기초 자원을 구축하는데 매우 큰 기여를 하였으며, 그 주요 결과물로 배포된 세종 말뭉치는 많은 연구자들에게 꼭 필요한 가치있는 결과물이다. 이처럼 소중한 국어 자원을 실제 연구자들이 활용하고자 할 때 불편함을 느끼는 경우가 있는데 그 이유는 균형 말뭉치의 구축이라는 말뭉치의 특성 및 원문 자료의 내용을 최대한 보존하기 위한 노력의 일환으로 사용자 정의 영역에 정의된 문자들이 다수 포함되어 있기 때문이다. 본 논문에서는 자연언어 처리, 정보검색 분야 연구자들이 세종계획 최종 결과물 중에서 원시 말뭉치를 활용하는데 있어서 말뭉치에 사용된 문자코드의 유형을 중심으로 코드 변환 문제점과 그 해결 방안을 모색하고자 한다.

  • PDF

Development of the Simulation Method of the Natural Phenomenon in Virtual World by Using Script (스크립트를 이용한 가상세게에서의 자연현상 처리방법의 개발)

  • 우영욱;지세진;황원택;박정용;박종희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.430-432
    • /
    • 2001
  • 기존의 언어교육시스템을 위한 가상환경에 대한 연구는 주로 피교육자에게 줄 수 있는 시각적인 효과에 초점을 두고 있다. 그러나, 환경의 논리적인 변화를 얼마나 효율적으로 표현으로 피교육자에게 전달할 수 있는가하는 연구는 아직 취약하다. 논리적인 모순이 존재하는 가상환경은 피교육자에 대한 흥미유발을 반감시킬 수 있으므로, 가상환경의 논리적인 모델링 기술의 개발이 필요하다. 논리적인 모델링이 된 가상환경에서 자연현상은 가상세계 전반에 걸쳐서 광범위하게 영향을 미치며, 피교육자에게 가장 큰 영향을 미치게 되므로 그 구현은 특히 중요하다. 또한, 논리적인 모델링이 된 가상환경에 접속한 피교육자의 입장에서 볼 때, 피교육자의 행동이 가상환경에 아무런 영향을 주지 못하거나 혹은 가상환경의 변화가 피교육자에게 영향을 주지 못한다면, 학습의 흥미나 몰입감이 떨어질 수 밖에 없으므로, 가상환경과 내부의 물리적객체의 상호작용의 처리 또한 중요한 문제이다. 본 논문에서는 가상환경과 그 내부의 물리적객체들간의 상호작용의 처리를 견지에 두고, 지식표현방법의 하나인 스크립트를 이용하여 가상환경에서의 자연현상 처리방법을 개발하도록 한다.

  • PDF

Implementation of Iconic Language for the Language Support System of the Language Disorders (언어 장애인의 언어보조 시스템을 위한 아이콘 언어의 구현)

  • Choo Kyo-Nam;Woo Yo-Seob;Min Hong-Ki
    • The KIPS Transactions:PartB
    • /
    • v.13B no.4 s.107
    • /
    • pp.479-488
    • /
    • 2006
  • The iconic language interlace is designed to provide more convenient environments for communication to the target system than the keyboard-based interface. For this work, tendencies and features of vocabulary are analyzed in conversation corpora constructed from the corresponding domains with high degree of utilization, and the meaning and vocabulary system of iconic language are constructed through application of natural language processing methodologies such as morphological, syntactic and semantic analyses. The part of speech and grammatical rules of iconic language are defined in order to make the situation corresponding the icon to the vocabulary and meaning of the Korean language and to communicate through icon sequence. For linguistic ambiguity resolution which may occur in the iconic language and for effective semantic processing, semantic data focused on situation of the iconic language are constructed from the general purpose Korean semantic dictionary and subcategorization dictionary. Based on them, the Korean language generation from the iconic interface in semantic domain is suggested.

Building a Corpus for Korean Tutoring Chatbot (한국어 튜터링 챗봇을 위한 말뭉치 구축)

  • Kim, Hansaem;Choi, Kyung-Ho;Han, Ji-Yoon;Jung, Hae-Young;Kwak, Yong-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

A Study on the Generation of Semantic Structure of Korean using Sentence Pattern Information based on Predicates (술어 기반 문형 정보를 이용한 한국어의 의미 구조 생성에 관한 연구)

  • Park, In-Cheol;Bae, Woo-Jeong;An, Dong-Un;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.43-49
    • /
    • 1995
  • 대부분 자연 언어 이해 시스템이나 중간 언어 방식을 이용한 기계 번역 시스템에서 자연 언어 문장을 이해하고 번역하기 위해서는 대량의 지식을 이용한 의미 구조의 생성이 요구된다. 따라서 개념 그래프를 이용하여 한국어 문장의 내부 의미 구조를 생성하기 위해서는 각 단어에 해당하는 개념과 개념들 사이의 개념적 관계를 나타내는 지식들이 요구된다. 그러나 이를 위한 의미 구조 생성 방법과 요구되는 지식 베이스를 정확하게 구축하는 것은 어렵고 응용 도메인에 종속한다는 문제가 있다. 본 논문에서 우리는 문형 이론을 도입하여 문형을 중심으로 의미 구조 생성을 위한 변환 규칙을 설계하고 이를 이용하여 방대한 지식 베이스의 구축없이 의미 구조를 생성할 수 있는 방법에 논의한다. 또한 본 논문에서 문형을 이용하면 몇 가지 모호성 문제를 해결할 수 있음을 보이고 문형의 한계에 대해서도 살펴본다.

  • PDF