• Title/Summary/Keyword: 21세기 세종계획

Search Result 25, Processing Time 0.021 seconds

Unicode and Code Conversion for Sejong 21 Raw Corpus (21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.262-265
    • /
    • 2009
  • 21세기 세종계획은 국어정보화를 위한 범국가적 사업으로서 국어 기초 자원을 구축하는데 매우 큰 기여를 하였으며, 그 주요 결과물로 배포된 세종 말뭉치는 많은 연구자들에게 꼭 필요한 가치있는 결과물이다. 이처럼 소중한 국어 자원을 실제 연구자들이 활용하고자 할 때 불편함을 느끼는 경우가 있는데 그 이유는 균형 말뭉치의 구축이라는 말뭉치의 특성 및 원문 자료의 내용을 최대한 보존하기 위한 노력의 일환으로 사용자 정의 영역에 정의된 문자들이 다수 포함되어 있기 때문이다. 본 논문에서는 자연언어 처리, 정보검색 분야 연구자들이 세종계획 최종 결과물 중에서 원시 말뭉치를 활용하는데 있어서 말뭉치에 사용된 문자코드의 유형을 중심으로 코드 변환 문제점과 그 해결 방안을 모색하고자 한다.

  • PDF

21st Century Sejong Modern Korean Corpora: Results and Expectations (21세기 세종계획 현대국어 기초말뭉치: 성과와 전망)

  • Kim, Hung-Gyu;Kang, Beom-Mo;Hong, Jungha
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.311-316
    • /
    • 2007
  • 현대국어 기초말뭉치는 방법론 및 표준화 연구, 그리고 소프트웨어 개발과 더불어 21세기 세종계획 국어기초자료 구축 사업의 일환으로 개발되었다. 현대국어 기초말뭉치 개발에서는 세종말뭉치 통합분 12,000만 어절을 후처리하고, 원시말뭉치 6,200만 어절, 형태분석 말뭉치 1,500만 어절, 형태의미분석 말뭉치 1,250만 어절, 구문분석 말뭉치 80만 어절을 신규 구축 완료하였으며, 이 중 일부 말뭉치에 대한 정제 작업이 2007년 말까지 완료될 예정이다. 방법론 및 표준화 연구에서는 말뭉치 구축 방법론과 분석표지 표준화, 말뭉치 활용 연구가 진행되었고, 이 밖에도 소프트웨어 개발 사업에서는 말뭉치 구축 및 활용에 필요한 도구를 개발하였다. 이 논문은 21세기 세종계획 국어기초자료 구축 사업의 연구 성과를 현대 국어 기초말뭉치를 중심으로 소개하고 향후 전망을 논의하는 것이 목적이다.

  • PDF

The $21^{st}$ Century Sejong Project Special Corpus Construction (1998~2007) (21세기 세종 계획 특수자료 구축 분과의 성과 (1998~2007))

  • Seo, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.317-322
    • /
    • 2007
  • 이 발표는, <21세기 세종 계획>(문화관광부/국립국어원의 지원, 1998~2007)의 일환으로 이루어진, 특수자료 구축 분과의 지난 10년간의 성과를 소개하고자 하는 데에 목적이 있다. 특수자료 구축 분과에서는 구어, 병렬, 역사 자료, 북한 및 해외 말뭉치와 같은 특수 말뭉치의 구축을 담당하고 있다. 여기서는 특수자료 구축 소분과의 개요와 과제의 구성, 각 세부 과제별 말뭉치 구축 성과 및 각 말뭉치의 가치와 특성을 밝히고자 한다.

  • PDF

Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary (세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소)

  • Kang, Sangwook;Kim, Minho;Kwon, Hyuk-chul;Oh, Jyhyun
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.2
    • /
    • pp.107-112
    • /
    • 2016
  • The Sejong Electronic(machine-readable) Dictionary, developed by the 21st century Sejong Plan, contains systematically organized information on Korean words. It helps to solve problems encountered in the electronic formatting of the still-commonly-used hard-copy dictionary. The Sejong Electronic Dictionary, however has a limitation relate to sentence structure and selection-restricted nouns. This paper discuses the limitations of word-sense disambiguation(WSD) that uses subcategorization information suggested by the Sejong Electronic Dictionary and generalized selection-restricted nouns from the Korean Lexico-semantic network. An alternative method that utilized semi-supervised learning, the chi-square test and some other means to make WSD decisions is presented herein.

Development of Korean Language Regulation Retrieval System (국어 어문 규정 검색 프로그램 개발)

  • 오형진;이신원;두길수;정성종;안동언
    • Proceedings of the IEEK Conference
    • /
    • 2002.06c
    • /
    • pp.103-106
    • /
    • 2002
  • 국어 어문 규정 검색 프로그램은 21세기 세종계획 프로젝트의 한민족 언어 정보화 분과에서 개발한 것으로, 한글 맞춤법, 표준어 규정, 외래어 표기법, 국어의 로마자 표기법 등의 어문 규정과 검색어에 대한 어문 규정 설명을 HTML 문서로 보여준다. 본 논문에서는 국어 어문 규정을 검색하기 위한 데이터베이스의 구조와 국민 어문 규정 검색 프로그램의 검색 방법에 대해서 논한다.

  • PDF

Implementation of Korean dialect Retrieval Program (한국 방언 검색 프로그램 개발)

  • 이동광;안동언;정성종;두길수;김호영
    • Proceedings of the IEEK Conference
    • /
    • 2002.06c
    • /
    • pp.95-98
    • /
    • 2002
  • 한국 방언 검색 프로그램은 21세기 세종계획 프로젝트의 한민족 언어 정보화 분과에서 개발한 것으로 남한의 방언과 북한의 방언 및 해외 동포가 살고 있는 지역에서 사용되고 있는 한국어 방언을 컴퓨터로 검색 할 수 있도록 한 것이다. 한국 방언 검색 프로그램은 검색된 방언들의 정보를 HTML 문서로 화면에 표시할 수 있도록 되어 있으며, 방언의 각 지역별 사용 분포를 지도를 통해 확인할 수 있도록 되어 있다. 본 논문에서는 한국 방언 검색 프로그램의 기능과 방언 지도의 도시를 위한 지도 도시 알고리즘에 대해서 논한다.

  • PDF

On the development of a computational lexical database of idiomatic expressions in the frmework of 21st Sejong Project (21세기 세종계획 관용표현 전자사전 구축에 대하여)

  • Pak, Man-Ghyu;Yi, Sun-Woong;Na, Yun-Hee;Lee, Kwang-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.334-340
    • /
    • 2001
  • 본고는 올해 처음 시도하는 세종계획 관용표현 전자사전 구축에 관한 글이다. 본 전자사전이 완성되면 관용표현의 총체적 정보(형태, 통사, 의미, 화용 정보)를 수록하는 최초의 업적이 될 뿐만 아니라 실제 언어 자료에서 흔히 볼 수 있는 관습적 표현까지 모두 포괄하는 4만 표제어의 대규모 사전이 될 것이다. 본 사전에서는 관용표현의 형태 통사적 구성과 그 분포적 속성뿐 아니라, 관용표현이 가지는 논항의 존재 유무, 구조, 조사 통합 양상, 그리고 고정명사에 대한 수식어 제약, 어휘적 통사적 변형 양상, 선어말어미 제약, 어말어미 제약, 문장 유형 제약 등이 수록된다. 또한 각 논항의 의미역과 선택제약에 관한 정보, 그 외 다양한 의미 화용 정보 어원 표기 정보 등도 담기게 된다. 본고에서는 그러한 정보의 표기 양식을 하나하나 명시적으로 설명할 것이다.

  • PDF

A Study of the Research Direction and Trend in the Use of Corpus - Focusing on the Case of Japan - (말뭉치 구축·활용의 흐름과 현재의 동향 - 일본의 사례를 중심으로 -)

  • 윤영민
    • Language Facts and Perspectives
    • /
    • v.45
    • /
    • pp.35-59
    • /
    • 2018
  • In this paper, as a proposal to an effective corpus construction and utilization scheme, there is a purpose to explore the present situation of Japanese corpus construction, concrete content and current trend. In Japan, dependence on google is remarkable, there has been a steady effort to develop high-quality corpus and development tool. On the other hand, the Japanese corpus should clearly grasp the location and information from those created by individual researchers to their own purpose to those created mainly by universities, research institutes, national policy institutions, etc. It is difficult. In this survey, it was possible to distinguish by "media corpus", "literary·magazine·web and balanced corpus", "spoken language corpus", "learner corpus", "historical material corpus" etc. by field and type. In addition, there were not many tools developed for corpus efficient use and secondary processing such as "example search", "morphological analysis", "machine translation", etc. for tool corpus only. The current trend in Japanese corpus construction spurred preparations for Seed data which can be utilized in linguistic research and various fields of the fourth industry, including national policy and research institutes such as NINJAL, JPO, NICT, ALAGIN and companies such as RAKUTEN ing.

Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora (공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법)

  • Han, Gyeong-Eun;Baek, Seul-Ye;Lim, Jae-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora (공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법)

  • Han, Gyeong-Eun;Baek, Seul-Ye;Lim, Jae-Soo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF