• 제목/요약/키워드: 어절

검색결과 471건 처리시간 0.028초

언어자료 검색을 위한 계층구조형 형태소 분석 프로그램 (The Layered Structural Tagging Program for Seaching)

  • 강용희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-96
    • /
    • 2001
  • 1999년 제1회 형태소 분석기 및 품사태거 평가 워크숍 이후 표준안에 대한 새로운 대안이나 문제제기등을 제시한 논문은 전무하다. 본 연구에서는 평가대회 참가 이후 표준안을 수정한 새로운 유형의 형태소 분석 프로그램을 제작하여 그 실용성과 앞으로의 발전 가능성과 문제점을 밝혀, 계층구조형의 형태소분석 시스템을 채택하고 있는 일본의 JUMAN을 참조 새로운 유형의 형태소 분석형식을 제시한다. 본 연구는 일본방송협회 방송기술연구소(이하 NHK기술 연구소)의 의뢰에 인한 것이며 어절단위의 표준안과 다른 형태소 단위를 기본요소로 삼고 있으며 활용형을 갖고 있는 용언에 대해서는 활용형의 전개를 하고 있다. 어절단위로 탈피한 이유는 형태소 분석의 기본요소로써 어절단위 보다는 형태소 단위를 기준으로 삼는 것이 생산성이 높다고 생각된다. 어절정보와 문장정보는 XML(extensible makrup language)등의 별도의 정보를 주는 방법을 채택했다. 음절말음이 자음인지 모음인지의 음운 정보에 따라 활용형을 차별했으며 표준안과 달리 명사의 종류와 개념을 세분화했다. 아울러 조사와 어미등의 검색어와 함께 음절을 형성하고 있는 비검색어 대상은 배제하는 프로그램과 표준안의 어절방식으로 출력하는 3가지 프로그램을 작성했다. 본 연구에서는 계층구조의 형태소분석 프로그램의 가능성과 한국어의 특성을 고려한 출력항목등을 고찰하는 것을 목적으로 한다.

  • PDF

21세기 세종계획 현대국어 기초말뭉치: 성과와 전망 (21st Century Sejong Modern Korean Corpora: Results and Expectations)

  • 김흥규;강범모;홍정하
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.311-316
    • /
    • 2007
  • 현대국어 기초말뭉치는 방법론 및 표준화 연구, 그리고 소프트웨어 개발과 더불어 21세기 세종계획 국어기초자료 구축 사업의 일환으로 개발되었다. 현대국어 기초말뭉치 개발에서는 세종말뭉치 통합분 12,000만 어절을 후처리하고, 원시말뭉치 6,200만 어절, 형태분석 말뭉치 1,500만 어절, 형태의미분석 말뭉치 1,250만 어절, 구문분석 말뭉치 80만 어절을 신규 구축 완료하였으며, 이 중 일부 말뭉치에 대한 정제 작업이 2007년 말까지 완료될 예정이다. 방법론 및 표준화 연구에서는 말뭉치 구축 방법론과 분석표지 표준화, 말뭉치 활용 연구가 진행되었고, 이 밖에도 소프트웨어 개발 사업에서는 말뭉치 구축 및 활용에 필요한 도구를 개발하였다. 이 논문은 21세기 세종계획 국어기초자료 구축 사업의 연구 성과를 현대 국어 기초말뭉치를 중심으로 소개하고 향후 전망을 논의하는 것이 목적이다.

  • PDF

음성 인식 후처리를 위한 연속 음절 문장의 키워드 추출 알고리즘 (Keyword Spotting Algorithm within a Continuous Syllable Sentence for the Post-Processing of Speech Recognition)

  • 조시원;이동욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.170-171
    • /
    • 2008
  • 연속적인 음성 인식 결과는 띄어쓰기를 하지 않은 연속 음절 문장들로 이루어져 있다. 본 논문은 음성 인식 후처리 단계에서 연속 음절 문장을 조사/어미 사전을 이용한 어절 생성 과정과 형태소 분석기를 이용하여 어절을 생성한 후 키워드를 추출한다. 실험 결과, 어절 생성기만 적용한 방식보다 제안된 알고리즘의 인식률이 향상되는 것을 확인하였다.

  • PDF

효율적인 문서처리를 위한 띄어쓰기 교정 기법 개선 (Improving Word Spacing Correction Methods for Efficient Text Processing)

  • 강미영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.486-488
    • /
    • 2003
  • 한국어 문서에서 가장 많이 나타나는 띄어쓰기 오류는 의미적이고 통사적인 중의성이나 오류를 야기한다. 이 논문은 부산대 인공지능 연구실에서 개발한 부분 문장 분석을 기반으로 하는 한국어 걸자 및 운법 검사기(2.2)에 구현되어 있는 어절 내 한 번 띄어쓰기 오류 교정 기법 및 어절 간 띄어쓰기 오류 교점 기법을 확장하고 개선하며 어절 내 여러 번 띄어쓰기 기법을 개발함을 목표로 한다.

  • PDF

심성어휘집내의 어절 표상 구조 (Eojeol Representation in Mental Lexicon)

  • 임희석;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.46-50
    • /
    • 2002
  • 인간의 지식 표상 규명에 대한 연구는 인간을 대상으로 연구하는 심리학에서뿐만 아니라 인간의 지능을 컴퓨터를 이용하여 구현하고자 하는 인공지능 학문에서도 오래 전부터 매우 중요한 화두가 되고 있다. 특히 인간의 지식 중 언어 지식에 대한 연구는 인간의 언어처리 과정 및 현상을 규명하고 이해하고자 하는 심리언어학에서뿐만 아니라 인간의 언어를 컴퓨터를 이용하여 처리하고자 하는 전산언어학 연구에 있어서도 매우 중요하다. 본 논문은 피험자를 대상으로 한 어절 재인 시 관찰되었던 언어 현상을 설명할 수 있는 시뮬레이션 모델과 이에 근거한 심성어휘집내에서의 한국어 어절의 표상 구조를 제안한다.

  • PDF

북한 문화어 형태소 분석기(NKMA)의 어절 구조 (The Word Structure of the North Korean Morphological Analyzer)

  • 최운호;정회선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.49-55
    • /
    • 1998
  • 분단 이후 북한은 우리와는 다른 언어정책을 추진해 왔고, 그 결과로 지금은 남북한 언어 정책에서 많은 차이를 드러내게 되었다. 본 논문은 북한 문화어 형태소 분석 시스템(NKMA)의 구축을 위한 어절 구조를 제시한다. 북한 문화어의 형태소 분절 및 분석을 위해 사용된 어절 구조는 대체로 말토막 단위와 일치하므로, 음성언어의 인식을 위한 분절 방법에 응용될 수도 있으리라 기대한다.

  • PDF

의사형태소 단위 대어휘 연속 음성 인식기 개발 (Development of a Pseudomorpheme-Based Large Vocabulary Continuous Speech Recognizer)

  • 권오욱
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.320-327
    • /
    • 1998
  • 대어휘 연속음성인식을 목표로 개발한 의사형태소 단위의 인식기를 기술하였다. 먼저 의상형태소를 정의하고, 의사형태소 태거를 간단히 기술하며, 의사형태소의 병합에 의한 인식단위 결정방법, 의사형태소 단위 인식기에서 특히 고려되어야 할 음향모델링, 품사 정보를 이용한 언어모델 및 어절규칙의 적용 방안, 의사형태소 단위 인식을 위한 새로운 탐색기 구조를 기술한다. 약 5,500 어절의 인식어휘를 갖는 여행계획 영역의 대화체 연속음성 데이터베이스를 이용하여 초벌 인식실험을 한 결과, 의사형태소 단위의 인식기의 단어인식률은 66.4%, 어절인식률은 60.0%를 나타내었다.

  • PDF

Structural SVM을 이용한 한국어 자동 띄어쓰기 (Automatic Korean Word Spacing using Structural SVM)

  • 이창기;김현기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.270-272
    • /
    • 2012
  • 본 논문에서는 띄어쓰기가 완전히 무시된 한국어 문장의 띄어쓰기 문제를 위해 structural SVM을 이용한 한국어 띄어쓰기 방법을 제안한다. Structural SVM은 기존의 이진 분류 SVM을 sequence labeling 등의 문제에 적용할 수 있도록 확장된 것으로, 이 분야에 띄어난 성능을 보이는 것으로 알려진 CRF와 비슷하거나 더 높은 성능을 보이고 있다. 본 논문에서는 약 2,600만 어절의 세종 코퍼스 원문을 학습 데이터로 사용하고, 약 29만 어절의 ETRI 품사 부착 코퍼스를 평가 데이터로 사용하였다. 평가 결과 음절단위의 정확도는 99.01%, 어절단위의 정확도는 95.47%를 보였다.

어절간 주품사 정보와 제약 규칙을 이용한 한국어 품사 태깅 시스템 (Korean Part-of-Speech Tagging using Constrained-Rule and Main POS Information among Words)

  • 강유환;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-437
    • /
    • 1999
  • 본 논문에서는 품사 태깅을 위한 방법으로 어절간 품사 패턴 정보를 이용하는 방법을 제안한다. 품사 태깅을 위하여 여러 어절들 간의 품사 패턴 정보를 통계 정보로 구축하고 품사 태깅시에 품사 패턴 정보를 이용하여 품사 태깅을 수행한다. 이때 품사 패턴 적용시 몇가지 제약 규칙을 둠으로써 품사 태깅의 정확률을 높이는 방법을 연구하였다.

  • PDF

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템 (Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information)

  • 최성자;강미영;허희근;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF