• 제목/요약/키워드: 말뭉치 분석

검색결과 328건 처리시간 0.023초

언어학자를 위한 말뭉치 분석기 (Corpus Analyzer for Linguists)

  • 정석팔;임성현;전진형;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-98
    • /
    • 2012
  • 말뭉치는 언어를 연구하기 위한 중요한 재료이다. 본 논문에서는 말뭉치에서 나타나는 언어 현상을 보다 효율적으로 분석하기 위한 언어학자를 위한 말뭉치 분석기를 제안하고 그 구현 방법을 설명한다. 제안하는 말뭉치 분석기는 기본적인 통계 정보와 함께, 형태소 분석된 파일을 대상으로 위치 색인을 포함하는 역파일 색인을 구성하여 빠른 형태소 검색과 다앙한 수준의 연어 검색을 제공한다. 분석기는 세종말뭉치를 기본 말뭉치로 하며, 다앙한 말뭉치에 대한 통계자료와 검색 기능을 제공하기 위해 사용자 말뭉치 파일에 대한 처리도 지원한다. 시스템은 사용자가 업로드한 말뭉치 파일에 대하여 자동 형태소 분석을 제공하며 형태소 분석 결과 수정을 가능하게 하여 다앙한 말뭉치에서 언어학자들의 우리말 연구를 지원한다.

  • PDF

메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점 (Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues)

  • 황은하;안진산;남길임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF

21세기 세종계획 현대국어 기초말뭉치: 성과와 전망 (21st Century Sejong Modern Korean Corpora: Results and Expectations)

  • 김흥규;강범모;홍정하
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.311-316
    • /
    • 2007
  • 현대국어 기초말뭉치는 방법론 및 표준화 연구, 그리고 소프트웨어 개발과 더불어 21세기 세종계획 국어기초자료 구축 사업의 일환으로 개발되었다. 현대국어 기초말뭉치 개발에서는 세종말뭉치 통합분 12,000만 어절을 후처리하고, 원시말뭉치 6,200만 어절, 형태분석 말뭉치 1,500만 어절, 형태의미분석 말뭉치 1,250만 어절, 구문분석 말뭉치 80만 어절을 신규 구축 완료하였으며, 이 중 일부 말뭉치에 대한 정제 작업이 2007년 말까지 완료될 예정이다. 방법론 및 표준화 연구에서는 말뭉치 구축 방법론과 분석표지 표준화, 말뭉치 활용 연구가 진행되었고, 이 밖에도 소프트웨어 개발 사업에서는 말뭉치 구축 및 활용에 필요한 도구를 개발하였다. 이 논문은 21세기 세종계획 국어기초자료 구축 사업의 연구 성과를 현대 국어 기초말뭉치를 중심으로 소개하고 향후 전망을 논의하는 것이 목적이다.

  • PDF

Kane: 의미정보 말뭉치 구축 도구 (Kane: Knowledge Annotation Tool for Semantic Information)

  • 배원식;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-125
    • /
    • 2009
  • 본 논문에서는 의미정보 말뭉치 구축 도구인 Kane에 대해 설명한다. 형태소 분석기나 구문 분석기, 개체명 인식기 등 자연어처리를 위한 기본이 되는 시스템에는 말뭉치가 필요하며, 말뭉치의 구축에는 많은 비용이 든다. 일반적으로 말뭉치 구축 작업은 전용 구축 도구가 없이 문서 편집기를 사용하여 이루어지는 경우가 많아 말뭉치 구축 작업 효율이 떨어지고, 자연스럽게 구축되는 말뭉치의 품질도 낮아진다. 문서 편집기를 사용할 때 발생하는 대표적인 문제는 키보드를 이용한 기계적인 작업이 반복된다는 것이며, 키보드 입력에 따른 오타 문제 또한 발생한다. Kane에서는 기계적인 작업 및 키보드 입력을 간편한 인터페이스를 통해 최소화하였으며, 마우스 조작으로도 쉽게 말뭉치를 구축할 수 있다. 또한 사전을 이용한 이전 작업 내용 참조 기능을 지원하여 작업의 효율성 및 일관성 문제를 개선하고자 하였다.

  • PDF

신경망을 이용한 반자동 구문분석 말뭉치 구축도구 (Semi-Automatic Tree Annotating Workbench Using Neural-Networks)

  • 임준호;곽용재;박소영;임해창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.483-485
    • /
    • 2003
  • 구문분석 말뭉치는 통계적 구문분석 분야의 필수적인 항목으로 많은 유용성을 가지지만, 말뭉치를 구축할 때 막대한 시간과 비용이 요구되기 때문에 구축자의 수작업을 감소시키는 방법에 대한 연구가 필요하다. 본 논문에서는 대량의 신뢰도 있는 구문분석 말뭉치를 구축하기 위해 신경망을 사용하는 반자동 구문 분석 말뭉치 구축도구에 대해서 설명한다. 개발된 도구는 구문패턴 추골, 신경망 학습, 반자동 구축의 세 단계로 구성된다. 구문패턴 추출 단계에서는 사용자가 정의한 자질집합을 사용하여 기존에 구축된 말뭉치에서 구문패턴들을 추출하고, 신경망 학습의 단계에서는 추출된 구문패턴들을 사용하여 신경망을 학습한다. 그리고, 반자동 구축 단계에서는 학습된 신경망을 사용하여 반자동으로 구문분석 말뭉치를 구축한다. 본 논문에서 제안하는 방법은 다양한 자질집합을 조합하여 사용할 수 있고, 학습을 사용하기 때문에 학습 집합에 나타나지 않은 경우에 대해서도 합리적인 결정을 내릴 수 있다. 소량의 구문분석 말뭉치를 대상으로 실험한 결과, 본 논문에서 제안하는 방법이 약 42.5%의 수작업 횟수 감소율을 보였음을 알 수 있었다.

  • PDF

다국어 말뭉치 분석기의 한국어 처리 구현에 관한 연구 (A Study on Implementation of treatment of Korean in multi-Language Corpus Analyzer)

  • 허현규;정혜명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.118-121
    • /
    • 2009
  • 말뭉치 분석기는 언어 연구에 필요한 도구로써 망뭉치 분석을 통한 언어 정보의 추출, 적용 및 확인용으로 사용할 수 있다. 본 논문에서는 언어 기술을 국부 문법에 의한 그래픽적인 기술방법으로 처리하는 말뭉치 분석기를 이용하여 한국어 텍스트를 연구하기 위하여 기존의 굴절어 중심으로 구현되어진 다국어 말뭉치 분석기에 한국어와 같은 교착어들의 텍스트 처리를 위한 기능을 구현한다.

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

  • 한경은;백슬예;임재수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

  • 한경은;백슬예;임재수
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

한국어 Universal Dependency 말뭉치 구축 방안 연구: 구문 관계를 중심으로 (Study of Building Korean Universal Dependency Corpus focused on Syntactic Relations)

  • 원혜진;류법모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-333
    • /
    • 2018
  • Universal Dependency 프로젝트는 여러 언어에 공통으로 적용할 수 있는 형태소 패턴과 구문 관계를 찾기 위한 연구를 진행하고 있으며, 점진적으로 많은 언어들이 참여하여 UD 가이드라인에 따라 말뭉치를 구축하고 시스템을 개발하고 있다. 한국어 UD 말뭉치도 구축되어서 공유되고 있지만 구축을 위한 상세한 가이드라인은 제공되지 않고 있다. 본 논문에서는 UD를 기반으로 한국어 구문분석 말뭉치를 구축할 때 논의되어야 할 요소들을 나열하고 예제를 통해서 설명하였다. 본 연구를 기반으로 한국어 구문분석 말뭉치 구축, 구문분석 시스템 개발에서 UD 가이드라인을 적용하는 논의가 시작되기를 기대한다.

  • PDF

의존 구문분석을 위한 한국어 의존관계 가이드라인 및 엑소브레인 언어분석 말뭉치 (Korean Dependency Guidelines for Dependency Parsing and Exo-Brain Language Analysis Corpus)

  • 임준호;배용진;김현기;김윤정;이규철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.234-239
    • /
    • 2015
  • 2000년대 중반 세종 구구조 구문분석 말뭉치가 배포된 이후 의존 구문분석이 구문분석 연구의 주요 흐름으로 자리 잡으면서 많은 연구자들이 구구조 구문분석 말뭉치를 개별적으로 의존구조로 변환하여 구문분석 연구를 수행하였다. 하지만 한국어 문장의 의존구조 표현에 대한 논의가 부족하여 서로 다른 의존구조로 변환 후 구문분석을 연구함으로써 연구 효율성이 저하되는 문제가 발생하였다 본 연구에서는 이와 같은 문제에 접근하기 위하여 한국어 문장에 대한 의존관계 가이드라인을 제안한다. 그리고 제안하는 가이드라인을 기반으로 구축한 엑소브레인 언어분석 말뭉치(725 문장)에 대해 소개한다.

  • PDF