• Title/Summary/Keyword: Processing Language

Search Result 2,692, Processing Time 0.024 seconds

Lattice-based discriminative approach for Korean morphological analysis and POS tagging (래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅)

  • Na, Seung-Hoon;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.3-8
    • /
    • 2013
  • 본 논문에서는 래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅을 수행하는 방법을 제안한다. 제안하는 방법은 입력문이 주어질 때 어휘 사전을 참조하여, 형태소를 노드로 취하고 인접형태 소간의 에지를 갖도록 래티스를 구성하며, 구성된 래티스상 가장 점수가 높은 경로상에 있는 형태소들을 분석 결과로 제시하는 방법이다. 실험 결과, ETRI 품사 부착 코퍼스에서 기존의 1차 linear-chain CRF에 기반한 방법보다 높은 어절 정확률 그리고 문장 정확률을 얻었다.

  • PDF

A Question Type Classifier Using a Decision Tree and Lexico-syntactic Patterns (Lexico-syntactic 패턴과 결정트리를 이용한 질의 유형 분류기)

  • Kim, Hark-Soo;An, Young-Hun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.189-196
    • /
    • 2002
  • 질의응답 시스템이 올바른 답변을 제시하기 위해서는 사용자의 의도를 정확하고 강건하게 파악하는 것이 매우 중요하다. 이러한 요구 사항을 만족시키기 위해서 본 논문에서는 실용적 질의응답 시스템을 위한 질의 유형 분류기를 제안한다. 제안된 질의 유형 분류기는 규칙 기반의 방법과 통계 기반의 방법을 접목시킨 하이브리드 방법을 사용한다. 제안된 방법을 사용함으로써 수동으로 규칙을 작성하는 시간을 줄일 수 있었고 정확률을 향상시킬 수 있었으며 안정성을 보장받을 수 있었다. 제안된 방법에 대한 실험에서 질의 유형을 분류하는데 86%의 정확률을 얻었다.

  • PDF

A Predictive Answer Indexing Method Using Local and Global Information (지역, 전역 정보를 이용한 정답 후보 색인 방법)

  • Kim, Hark-Soo;Kim, Kyung-Sun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.267-274
    • /
    • 2002
  • 본 논문은 2-패스에 걸쳐 지역, 전역 정보를 추출하고 이 정보들을 이용하여 효과적으로 정답 후보들을 색인하는 방법을 제안한다. 제안한 정답 후보 색인 방법은 다음과 같다. 먼저, 대상 문서에 포함된 모든 정답 후보들을 추출한다. 그리고, 지역 정보(한 문서 내에서 정답 후보와 주변 내용어 사이의 관계)를 이용하여 각 내용어에 점수를 부여한다. 다음으로 전역 정보(모든 문서를 대상으로 하여 정답 후보와 공기 (co-occurrence)하는 내용어 사이의 관계)를 이용하여 각 내용어에 이미 할당되어 있는 점수를 변경한다. 마지막으로 데이터베이스에 각 정답 후보와 점수가 부여된 내용어들을 역파일 형태로 저장한다. 이러한 색인 방법은 빠른 응답 시간과 비교적 높은 정확률을 필요로 하는 실용적 질의 응답 시스템에 적합하다.

  • PDF

Integrated Sentence Preprocessing System for Web Indexing (웹 인덱싱을 위한 통합 전처리 시스템의 개발)

  • Shim, Jun-Hyuk;Cha, Jong-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

A Study of Methodology for Automatic Construction of OWL Ontologies from Sejong Electronic Dictionary (대용량 OWL 온톨로지 자동구축을 위한 세종전자사전 활용 방법론 연구)

  • Song Do Gyu
    • Language and Information
    • /
    • v.9 no.1
    • /
    • pp.19-34
    • /
    • 2005
  • Ontology is an indispensable component in intelligent and semantic processing of knowledge and information, such as in semantic web. However, ontology construction requires vast amount of data collection and arduous efforts in processing these un-structured data. This study proposed a methodology to automatically construct and generate ontologies from Sejong Electronic Dictionary. As Sejong Electronic Dictionary is structured in XML format, it can be processed automatically by computer programmed tools into an OWL(Web Ontology Language)-based ontologies as specified in W3C . This paper presents the process and concrete application of this methodology.

  • PDF

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

Korean Semantic Role of subcategorization (한국어 서술어와 논항들 사이의 의미역)

  • Kim, Yun-Jeong;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.143-148
    • /
    • 2014
  • 본 논문은 한국어 문장의 서술어와 공기관계에 있는 논항들의 의미관계를 결정하는 데에 목적이 있다. 본 논문에서는 의미역을 결정하기 위해 기존에 구축된 세종구구조말뭉치를 모단위로 하여 표준국어대사전의 문형을 적용하였다. 또한 의미역을 결정하기 위해 기존 언어학 이론에서의 의미역을 정리하여 광범위한 의미역 판별기준을 세우고 이를 실제 말뭉치에 적용함으로써 자연언어적 처리가 가능하도록 정리하였다.

  • PDF

A multilingual grammar model of honorification: using the HPSG and MRS formalism

  • Song, Sanghoun
    • Language and Information
    • /
    • v.20 no.1
    • /
    • pp.25-49
    • /
    • 2016
  • Honorific forms express the speaker's social attitude to others and also indicate the social ranks and level of intimacy of the participants in the discourse. In a cross-linguistic perspective of grammar engineering, modelling honorification has been regarded as a key strategy for improving language processing applications. Using the HPSG and MRS formalism, this article provides a multilingual grammar model of honorification. The present study incorporates the honorific information into the Meaning Representation System (MRS) via Individual Constraints (ICONS), and then conducts an evaluation to see if the model contributes to semantics-based language processing.

  • PDF

Korean Semantic Role Labeling using Case Frame and Subcategory of Predicate (한국어 격틀 사전과 용언의 하위 범주 정보를 사용한 한국어 의미역 결정)

  • Kim, Wansu;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.198-201
    • /
    • 2015
  • 의미역 결정은 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제이다. 본 논문에서는 UPropBank 격틀 사전과 UWordMap의 용언의 하위 범주 정보를 이용하여 의미역을 부착하였다. 실험 결과 80.125%의 정확률로 의미역을 부착하는 성능을 보였다.

  • PDF