• Title/Summary/Keyword: 21세기 세종계획

Search Result 25, Processing Time 0.02 seconds

Word Sense Disambiguation of Predicate using Sejong Electronic Dictionary and KorLex (세종 전자사전과 한국어 어휘의미망을 이용한 용언의 어의 중의성 해소)

  • Kang, Sangwook;Kim, Minho;Kwon, Hyuk-chul;Jeon, SungKyu;Oh, Juhyun
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.7
    • /
    • pp.500-505
    • /
    • 2015
  • The Sejong Electronic(machine readable) Dictionary, which was developed by the 21 century Sejong Plan, contains a systematic of immanence information of Korean words. It helps in solving the problem of electronical presentation of a general text dictionary commonly used. Word sense disambiguation problems can also be solved using the specific information available in the Sejong Electronic Dictionary. However, the Sejong Electronic Dictionary has a limitation of suggesting structure of sentences and selection-restricted nouns. In this paper, we discuss limitations of word sense disambiguation by using subcategorization information as suggested by the Sejong Electronic Dictionary and generalize selection-restricted noun of argument using Korean Lexico-semantic network.

Design and Implementation of Frame Pattern Analyzer in Korean (한국어 문형 패턴 조사기의 설계 및 구현)

  • Song, Yusuck;Lee, Samuel Sangkon;Lee, In-Hong
    • Annual Conference of KIPS
    • /
    • 2010.04a
    • /
    • pp.409-412
    • /
    • 2010
  • 본 논문에서는 한국어에서 출현하는 일반적인 형태의 문장 패턴을 조사하여 제2 외국어로서 한국어를 배우는 외국인들에게 우선적으로 가르쳐야 할 한국어의 문장 패턴을 검색하는 프로그램을 개발하였다. 이를 위해 지난 10년 동안 조사 구축된 21세기 세종 계획의 결과물에 출현하는 한국어에 적합한 문장 패턴을 조사하는 프로그램을 설계하였다.

KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database (꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구)

  • Lee, Dong-Joo;Yeon, Jong-Heum;Hwang, In-Beom;Lee, Sang-Goo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.11
    • /
    • pp.1046-1050
    • /
    • 2010
  • Corpus is widely used as a fundamental resource for various purposes in linguistic studies. There are several large corpora such as Sejong corpus in Korea. However, it is hard to find a tool utilizing such large corpora. In this paper, we propose a method of utilizing Sejong corpus based on the relational database. We designed the relational database scheme to store corpus and implemented a Web-based application so that many researchers can easily access and utilize the Sejong corpus.

Development of Broad-Coverage Korean Dependency Parser BCD-KL-Parser (한국어 구문분석 시스템 BCD-KL-Parser의 개발)

  • Kim, Minho;Kim, Seongtae;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.3-7
    • /
    • 2018
  • 본 연구진은 모든 형태소 분석 후보에 적절한 의존관계를 부여하여 구문분석 트리 후보를 순위화하여 제시하는 한국어 구문 분석 시스템 BCD-KL-Parser를 개발하고 있다. 이 시스템의 최종목표는 형태소 분석후보와 구문분석 트리 후보를 줄여나감으로써, 구문분석의 정확도와 실행 속도를 높이는 것이다. 본 논문에서 소개하는 BCD-KL-Parser에서는 형태적 중의성 해소규칙을 정의하여 형태소 분석후보의 수를 줄이고, 용언의 하위범주화 정보와 선택제약 정보 그리고 의존관계 제약규칙을 정의하여 구문분석 트리 후보의 수를 최소화할 수 있었다. 그 결과 '21세기 세종계획 구문분석 말뭉치'에서 무작위로 추출한 2,167문장에 대하여 UAS 92.27%를 달성할 수 있었다.

  • PDF

Universal POS Tagset for Korean (Universal POS 태그셋의 한국어 적용)

  • Park, Hye-Jin;Oh, Tae-Hwan;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.417-421
    • /
    • 2018
  • The Universal Dependencies 프로젝트는 현재 71개 언어, 122개 Treebank로 이루어져 있으며, 병렬 언어 처리를 위해 여러 언어에 적용할 수 있는 형태적, 구문론적 특성을 찾는 것을 목표로 한다. 본고는 UD의 형태 태그셋인 Universal POS를 살펴보고, 한국어의 기존 형태 태그셋을 UPOS로 자동 변환하여 적용하는 방안을 제안한다. 영어와 같은 굴절어를 중심으로 구축된 UPOS 체계를 교착어에 속하는 한국어에 적용하기 위해서는 UPOS의 개별 표지와 21세기 세종계획 형태 주석 표지 결합체 간의 일대다 사상을 시도해야 한다.

  • PDF

The result of hanminjokeoneojeongbohwa project (한민족언어정보화 사업의 성과)

  • Lee, Tae-Yeong
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.332-339
    • /
    • 2007
  • 이 논문은 21세기 세종계획 중 1998년부터 2007년까지 한민족언어정보화 분과 사업의 성과와 그 활용을 제시한 것이다. 이 사업에서는 국어 어문규정 검색 프로그램, 남북한 언어 비교사전, 한국 방언 검색 프로그램, 국어의 어휘 역사 검색 프로그램, 문학작품에 나타난 방언 검색 프로그램, 한국 전통문화 어휘 검색 프로그램, 남북한 정서법 변환 프로그램 등을 만들어 활용하였다. 국어 어휘와 관련된 정보화 작업을 시행하여, 국어를 다양하게 정보화하는 인력을 양성하고, 국어 어휘의 종합적 연구와 국어 발전에 크게 기여하였고, 국민들이 어문규정을 손쉽게 검색하여 국어생활에 큰 도움이 되도록 하였다. 특히 남북한 어휘 연구를 통하여 언어 통일 문제를 다루었고, 국어의 역사적 연구, 각 지역 방언 및 문학작품에 나타난 방언의 연구 및 이해에 큰 도움이 되도록 하였다.

  • PDF

Principles, methods, and some problems in compiling a Korean treebank (구문 분석 말뭉치 구축을 위한 분석의 원칙, 방법, 문제)

  • Kim, Ui-Su;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.155-162
    • /
    • 2002
  • 본고는 21세기 세종계획의 일환으로 현재 구축 중인 구문 분석 말뭉치의 분석 방안에 대한 연구이다 논의하고자 하는 내용은 첫째, 구문 분석에서의 기본 원칙과 표지의 종류 및 세부 원칙에 대한 것이다. 둘째, 이러한 구문 분석 방안을 마련하는 데 있어 심각하게 고려된 몇 가지 유형의 문제들에 관한 논의이다. 특히 이 문제들은 자연언어처리에서뿐만 아니라 이론적인 국어학의 연구에서도 매우 중요하다. 화자의 직관에 의해서라기보다는 실제 말뭉치 구축 작업을 통해서 그 실체가 확연하게 드러나는 문제들이라는 점에서 이들은 우리의 관심을 끌기에 충분하다. 본고에서는 이러한 문제들이 실제 구문 분석에서 어떻게 발생하고 어떻게 해결될 수 있는지를 보일 것이다.

  • PDF

Corpus-Linguistical Analysis of Newspaper Articles (신문 기사의 코퍼스 언어학적 분석)

  • Song, Kyung-Hwa;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.7-14
    • /
    • 2006
  • 본 연구에서는 신문 기사에 대한 실증적 언어 분석을 목적으로 하여, <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 다양한 각도로 계량화하여 분석한다. 신문 기사를 표제, 전문, 본문의 구성으로 나누고 각 구성의 특징에 따라 형태 분석 말뭉치, 형태의미 분석 말뭉치, 구문 분석 말뭉치를 이용하여 분석한다. 본 연구는 대량의 신문 기사 말뭉치를 이용한 계량적 방법이라는데 의의가 있다 이러한 연구 방법을 통하여 기존의 직관을 이용한 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있을 것이다.

  • PDF

Construction and application of semantic classes of Korean nouns (한국어 명사 의미 부류 체계의 구축과 활용)

  • Kang, Beom-Mo;Pak, Dong-Ho;Lee, Seong-Heon;Park, Jin-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.247-251
    • /
    • 2001
  • 명사 의미 부류 체계는 언어 처리의 다양한 분야에서 그 필요성이 부각되고 있다. 예를 들어, 기계 번역에 있어서의 단어 의미의 중의성 해소(word sense disambiguation), 정보검색 시스템에서도 재현율과 정확률의 향상, 추론 시스템 등을 위하여 명사 의미 부류는 중요한 역할을 한다. 명사 의미 부류 체계의 이러한 중요성 때문에 여러 온톨로지(ontology)가 기존에 구축되어 있다. 그런데 이러한 온톨로지들은 대개 순수한 개념적 기준에 입각한 것이며 단어의 통사적 특성을 별로 고려하고 있지 않다. 정보검색 시스템이나 추론 시스템의 경우에는 통사적 고려가 별로 중요하지 않을 수 있으나 기계번역의 경우 통사적 특성에 대한 고려가 매우 중요하다. 이러한 점에 주목하여 21세기 세종계획 전자사전 분과에서는 개념적 기준과 통사적 기준을 모두 고려하여 명사 의미 부류 체계를 구축하고 있다. 즉, 해당 부류에 속하는 명사들이 결합할 수 있는 술어(적정 술어) 등의 통사적 요인을 중요시하여 명사들을 분류하고 있는 것이다. 이에 따라 세종 체언 사전의 모든 명사들에 대해 의미부류 정보가 주어지고, 용언 사전의 용언의 각 논항에 대한 선택제약 정보도 이 명사 의미부류 체계를 이용하여 제시되고 있다. 이러한 정보들은 한국어 처리에 중요한 자료로 이용될 것이다.

  • PDF

Improving Part-of-speech Tagging by using Resolution Information for Individual Ambiguous Word (어절별 중의성 해소 정보를 이용한 품사 태깅의 성능 향상)

  • Park, Hee-Geun;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.134-139
    • /
    • 2007
  • 품사 태깅 시스템에서 규칙 정보와 통계 정보는 상호보완적으로 사용되어 품사 태깅의 성능을 향상시킨다. 하지만, 두 가지 정보로는 품사 태깅의 성능을 향상시키기에는 한계가 있다. 이에 본 논문에서는 어절별 중의성 해소 정보를 이용하여 품사 태깅 시스템의 정확률을 향상시키는 방법에 대해서 기술한다. 통계 정보는 21세기 세종계획의 천만 어절 균형 말뭉치와 태그 부착 말뭉치에서 추출한 trigram 형태의 중의성 어절 및 품사 태그열 출현 빈도 정보를 이용하여 구축하였고, 규칙 정보는 보조용언, 숙어, 관용적 표현 등을 이용하여 구축하였다. 어절별 중의성 해소 정보는 세종 천만 어절 균형 말뭉치의 중의성 어절에서 고빈도 상위 50%에 해당하는 어절을 대상으로 해당 어절의 의미정보와 문맥정보를 고려하여 구축되었고, 이것은 통계 정보를 이용한 품사 태깅 전에 적용되어 분석 후보를 줄여준다. 또한, 학습을 통하여 어절별 중의성 해소 정보를 수정 및 보강하여 잘못된 품사 태깅 결과를 보정해준다. 이와 같이 통계 정보와 규칙 정보를 이용한 품사 태깅 시스템에 고빈도 중의성 어절에 대한 어절별 중의성 해소 정보를 이용함으로써 품사 태깅의 성능을 향상시킬 수 있었다.

  • PDF