• Title/Summary/Keyword: 국어 정보처리

Search Result 237, Processing Time 0.027 seconds

Extraction of the Training Data for Building Case Frames from a Corpus (말뭉치로부터 격틀 구축에 필요한 학습 데이터 추출)

  • Yang, Dan-Hee;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.287-292
    • /
    • 1998
  • 실용적인 격틀(Case frame) 정보를 말뭉치로부터 자동구축하기 위해서는 대량의 홀문장이 필요하다. 그리고 국어 문장 형식은 영어와 많은 차이점이 있다. 또한 기존의 격틀 구축 연구에서 전제했던 광범위한 학습 데이터와 언어학적 지식은 국어에 대해 현재 존재하지 않는다. 그러므로 본 연구는 그러한 문제점들을 밝히고 현실적인 접근 방법을 제시한다. 그리고 겹문장을 홑문장 형태의 문장들로 바꾸기 위한 알고리즘을 제시한다.

  • PDF

Design and Implementation of Korean Language Regulation Retrieval System (어문 규정 검색 통합 시스템의 설계 및 구현)

  • Choi, Yoo-Kyung;Hwang, Ho-Jeon;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.1117-1120
    • /
    • 2001
  • 본 논문에서는 한국어를 사용하는 사람들에게 올바른 국어 지식을 보급하여 올바른 국어 생활을 영위하도록 하고, 국어 정보화에 기여하고자 '어문 규정 검색 통합 시스템'을 설계하고 구현한다. '어문 규정 검색 통합 시스템'은 '한글 맞춤법 검색 시스템', '표준어 규정 검색 시스템', 외래어 표기법 검색 시스템'으로 구성되어 있다. '어문 규정 검색 통합 시스템'은 실생활에서 사용되고 있는 단어들이 맞춤법이나 표준어 규정, 외래어 표기법에 맞는지를 확인할 수 있도록 하며, 틀린 경우에 올바른 단어와 그에 해당하는 어문 규정을 알 수 있도록 하였다. '어문 규정 검색 통합 시스템'은 세부 검색 시스템들을 하나의 인터페이스에서 접근할 수 있도록 통합하였으며 '규정', 검색', '전체 검색', '게임', '통계'의 세부 메뉴로 구성되어 있다. 한국 어문 규정은 폴더 형식으로 장과 절을 체계적으로 검색할 수 있도록 구현하였다. 검색에서는 하나의 단어 입력으로 동시에 여러 세부 시스템에서 검색 결과를 찾도록 하였다.

  • PDF

An Optimization of Hangul Input in Multilingual Input Method (다국어 입력기에서 한글 입력의 최적화 방안)

  • Yoo, Jeong-Won;Byun, Jeong-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.677-680
    • /
    • 2005
  • 다국어 입력기에서 한글 입력의 최적화를 위하여 문자별 보편성과 개별성을 밝혀내어서 어떤 문자의 개별성이 다른 문자의 보편성을 헤치지 않도록 충돌 요인을 최대한 낮추어야 한다. 특히 한글은 표음 문자로서 음절 및 음소문자의 특성을 가지고 있고, 한글전용을 하고 있다. 반면에 일본어와 중국어는 음절문자에 해당하며 가나 또는 병음을 입력하여 마지막에는 한자로 바꾸어야 한다. 여기서 훈민정음창제원리를 기본으로 삼아 최적화에 적용하고자 한다.

  • PDF

The Proposal and Implementation of The Internationalized Email Address applying Punycode in Application Layer (애플리케이션 기반에서 Punycode 를 적용한 다국어 이메일 주소 제안 및 구현)

  • Park, Min-Su;Lee, Hee-Chan;Song, Kwan-Ho;Shin, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.944-947
    • /
    • 2010
  • 새로 제정된 이메일 프로토콜 표준에 따라 사용자는 이메일 주소에 한글과 같은 다국어를 포함할 수 있다. 다국어 이메일 주소를 사용하여 송수신자가 메일을 전송하기 위해서는 양측 메일 서버가 모든 문자를 표현할 수 있는 UTF-8 인코딩 방식을 지원하도록 정의하고 있지만 현재의 네트워크 상에는 UTF-8 인코딩 방식을 지원하는 메일 서버와 지원하지 않는 메일 서버 모두가 존재하고 있다. 이는 곧 메일이 정상적으로 수신자에게 전송이 되지 못하는 결과를 발생시킨다. 본 논문에서는 UTF-8 을 지원하는 서버와 지원하지 않는 서버의 기존 상태를 유지하면서 메일을 정상적으로 송수신을 하기 위해 애플리케이션에서 퓨니코드 변환을 적용시킨 전달 기법을 제안하였으며 직접 구현하여 정상적으로 작동하는 것을 확인 하였다.

2018 Korean Information Processing System Competition: Korean Dependency Parsing (2018 국어 정보 처리 시스템 경진 대회: 한국어 의존 구문 분석)

  • Lee, Changki;Bae, Jangseong;Park, Cheoneum;Hong, Hyejin;Lee, Seung-Jae
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.675-677
    • /
    • 2018
  • 의존 구문 분석은 문장 구조를 중심어와 수식어로 이루어진 의존 관계로 표현하는 방법이다. 표현 방식이 간단하고 자유 어순에 적합하기 때문에 한국어와 같이 어순이 자유롭고 문장 성분의 생략이 빈번한 언어에 적합한 것으로 알려져 있다. 본 논문에서는 한국어 의존 구문 분석 연구를 활성화하기 위해 개최된 2018 국어 정보 처리 시스템 경진대회에서 사용된 학습 및 평가 데이터를 간략히 소개하고, 각 참가자들이 제출한 시스템의 결과를 요약한다.

  • PDF

Multilanguage data input in Korean environments using XML (한국어 환경에서 XML을 이용한 다국어정보 입력)

  • Jeong, Hwi-Woong;Yoon, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.213-218
    • /
    • 2001
  • 최근 인터넷의 보급은 사용자들에게 많은 다국어 정보를 제공하게 되었다. 그러나 정작 각 국가의 언어를 입력하기 위해서는 자주 자판세트를 변경해야만 하며, 각 국가별 자판 세트가 다르기 때문에 많은 입력 오류를 감수해야 한다. 이를 위해 본 연구진에서는 과거 한국어 환경에서 다국어 지원을 위한 많은 보조 환경을 구축하였으나, 언어 코드의 특성으로 인해 상세한 환경 설정은 전산 전문가의 도움을 통해야 했고, 언어 환경 구축 및 자판 세트 교정에 많은 어려움을 겪었다. 이러한 문제점을 해결하기 위해 본 연구에서는 XML을 이용하여 일반 윈도우기반 컨트롤에서 다국어 정보를 손쉽게 입력할 수 있는 XML DTD와 입력 보조 클래스를 개발하였다. 본 연구결과물을 이용할 경우 일반 언어전문가들이 자신만의 자판 입력세트를 손쉽게 구성할 수 있으며, 이를 운영하는 시스템의 크기도 매우 줄어들어, 전체적인 컴퓨터 운영 효율성을 상승시키는 효과를 거둘 수 있다.

  • PDF

Statistical Information of Korean Dictionary to Construct an Enormous Electronic Dictionary (대용량 전자사전 구축을 위한 국어 대사전의 통계 정보)

  • Kim, Cheol-Su;Kim, Yang-Beom
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.6
    • /
    • pp.60-68
    • /
    • 2007
  • There are various application areas of Language information processing such as information retrieval, morphological analysis, spell checker, voice recognition, character recognition, etc. In these language information processing areas, an electronic dictionary is essential. This thesis made researches on basic statistical information on the Korean dictionary and on the construction of electronic dictionary. The targets of analysis were the number of registered word in Korea dictionary, the entry number of registered word in electronic dictionary, the number of used syllables, the number of different syllables, the average length of entry, the distribution of part of speech and the number of used nodes to construct electronic dictionary using Trie, except for words including a archaic word or incomplete syllables. Total entry number of electronic dictionary is 361,980, the number of used syllables is 1,289,659, the average length of entries is 3.56 and the number of different syllables is 2,463. Theses informations would play a beneficial role in constructing an electronic dictionary and in processing Korean information.

Multilingual Named Entity Recognition with Limited Language Resources (제한된 언어 자원 환경에서의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-min;Noh, Kyung-Mok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

The Structure and Processing of the Korean functional category (한국어 기능범주의 정보처리)

  • 황유미;문영선;박혜성;남기춘
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.273-278
    • /
    • 2000
  • 본 연구는 한국어 기능 범주(functional category)의 처리를 살펴보기 위하여 실문법증 환자를 대상으로 실시되었다. 일반적으로 수형도에서 기능 범주는 보문소구(Complementizer Phrase), 시제구(Tenxe Phrase), 일치소구(Agreement Phrase)의 순으로 구성되어 있다. 본 실험은 Grodzinsky(1997)의 수형도 가지치기 가설과 실문법증의 엄밀성 척도를 바탕으로 한국어 기능 범주의 처리에 있어서도 두 가지 가설의 적용이 타당한지 여부를 검증하기 위해 실시되었다. 실험 1은 일치소(Agr)의 처리를 살펴보기 위하여 실시되었는데, 국어의 존칭 선어말 어미를 중심으로 살펴보았다. 국어의 존칭선어말 어미는 크게 '-시-'삽입에 의한 존칭과 다른 어휘로 대체하는 보충법에 의한 존칭으로 구분된다. '-시-'삽입에 의한 존칭은 AgrP의 범주로 보충법에 의한 존칭은 동사구(Verb Phrase)의 범주로 설정하여 문법에 어려움을 보이는 실문법증의 경우 어휘부에 혹하는 보충법에 의한 존칭을 문법범주에 속하는 '-시-'삽입의 존칭보다 더 잘 할 것으로 가정하였다. 실험 2는 AgrP의 범주인 '-시-'선택의 장애가 TPqja주인 시제 선택에 역시 영향을 미칠 것이라는 가정아래 설계되었다. 수형도 상에서 '-시-'는 일치소(Agr)로서 시제(TP)의 아래에 위치하므로 실험 3은 '-시-'삽입 존칭과 시제에서 어려움이 보문소(CP)의 선택에 역시 영향을 미칠 것이라는 가정하에서 실시되었다. 실험 1의 결과 '-시-'삽입에 의한 존칭을 처리하는데 보충법에 의한 존칭보다 어려움을 보였다. 실험 2의 결과 '-시-'삽입 존칭에 어려움을 보인 환자는 시제 선어말 어미를 선택하는데도 어려움을 보임이 확인되었다. 실험 3 역시 실험 1과 실험2에서와 동일하게 처리의 어려움을 보였다. 이러한 실험 결과들은 국어의 존칭과 시제 선어말 어미가 통사부에서 구(XP)와 결합하여 새로운 구를 형성하는 통사적 접사로 해석할 수 있으며 Grodzinsky의 가설을 지지하는 결과를 보여 줌으로서 국어에서도 AgrP, TP, CP 사이의 통사적 위계가 있음을 뒷받침하는 증거가 된다.

  • PDF