• 제목/요약/키워드: 어절 분석

검색결과 280건 처리시간 0.022초

형태소 분석 결과의 인코딩 기법과 어절 사전 구축 (Encoding of Morphological Analysis Result and Eojeol Dictionary Construction)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.112-117
    • /
    • 2004
  • 형태소 분석에서 사용되는 사전은 형태소와 품사 정보를 수록하고 있다. 단어가 한 개의 형태소로 구성되는 굴절어는 대부분의 단어가 어휘형태소의 기본형과 일치되기 때문에 형태소 분석 알고리즘은 사전 탐색과 형태론적 변형을 통해 입력 단어와 어휘형태소를 일치시키는 과정으로 기술된다. 이에 비해, 교착어는 입력 어절이 형태소 사전의 어휘형태소와 일치하지 않기 때문에 어절 자체가 형태소 사전에 포함되지 않아서 굴절어에 비해 상대적으로 형태소 분석 알고리즘의 복잡도가 높고 분석 시간이 오래 걸리는 단점이 있다. 본 논문에서는 고빈도 어절에 대한 기분석 어절 사전을 구축하여 형태소 분석 속도를 개선하고, 사용자가 어절 사전에 새로운 어절을 추가하거나 어절 사전에 수록된 분석 결과를 수정할 수 있는 어절 사전에 의한 형태소 분석 방법을 제안한다. 구체적인 방법론으로써 형태소 분석 결과를 저장하는 기분석 어절 사전의 크기를 최소화하기 위해 분석 결과를 생성하는데 필요한 최소한의 정보만을 인코딩하는 방법을 사용한다.

  • PDF

확장 정의된 유사어절의 분석에 근거한 실시간 미등록어 인식 (Real Time Recognition of Unknown Words based on the Analysis of Similar Words with an Extended Definition)

  • 박봉래;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.222-228
    • /
    • 1996
  • 기존의 미등록어 추정 방법은 대부분 단일 어절 접근 방법으로 단일 어절에서 추출할 수 있는 추정 정보가 부족하여 과분석과 오분석의 가능성이 높았다. 그래서 동일 미등록어를 가진 어절들을 동시에 분석하는 유사 어절 접근 방법이 제시되었다. 그러나 이 방법도 유사 어절의 범위를 조사나 어미만 다른 어절로 정의함으로써 수집될 수 있는 유사 어절의 수가 제한되어 대략의 텍스트에서만 적용이 가능하였다. 이에 본 논문은 유사어절을 동일 음절열을 공유하는 어절들로 확장 정의하여 작은 크기 N의 텍스트 윈도우에서 유사 어절의 발견 가능성을 높임으로써 실시간으로 미등록어를 추정할 수 있게 하는 방법을 제시한다. N을 100으로 한 실험결과는 미등록어 추정 정확도가 99.3%였고 재현율은 약 32%였다.

  • PDF

말뭉치를 이용한 형태소 분석 단계에서의 중의성 해결에 관한 연구

  • 김경서;김대철;정강석;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.36-43
    • /
    • 1991
  • 자연 언어 처리의 효율성은 대량의 정보를 담고 있는 사전을 잘 구성하는 데 있다. 사전을 잘 이용하기 위해서는 입력 어절에 대한 정확한 표제어(원형)를 효과적으로 찾아야한다. 입력 어절에 대한 표제어를 찾는 역할을 하는 형태소 분석기는 한 어절의 정보만 이용하기 때문에 입력 어절을 두 가지 이상의 표제어로 해석할 수 있다. 연세 대학교 사전편찬실이 갖고 있는 연세 말뭉치 I 에 대해 10% 이상의 어절이 두가지 이상으로 분석되는 중의성을 가진다. 이렇게 중의성을 가지는 어절이 그대로 구문 구조 분석기에 전달되면 중의성올 해결하기 위해 구운 구조 분석기의 처리 과정이 복잡해진다. 본 논문은 표제어의 중의성을 보이는 어절을 구문 구조 분석기에게 전달하기 전에 형태소 분석기와 구문 구조 분석기 사이에서 정확한 표제어를 찾는 방법을 제안한다.

  • PDF

어절 빈도 조사에 의한 최적의 고빈도 어절 집합 추출 (Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-88
    • /
    • 2001
  • 1500만, 700만, 10만 어절 크기의 세 가지 원시 말뭉치로부터 한국어 어절 빈도를 조사하였다. 각 말뭉치에 대한 어절 빈도 결과를 비교-분석하여 활용가치가 높은 고빈도 어절 집합을 구하였다. 고빈도 어절 집합의 효용성을 검증하기 위해 일반문서에 대한 어절 적중률을 실험하였다. 그 결과로 고빈도 563 어절이 24.5%, 9484 어절이 51.5%, 184246 어절이 81.6%의 어절 적중률을 보였다.

  • PDF

어절 생성 사전을 이용한 한국어 철자 교정 (Spelling Correction in Korean Using the `Eojeol` generation Dictionary)

  • 이영신;박영자;송만석
    • 정보처리학회논문지B
    • /
    • 제8B권1호
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF

전문(全文) 분석을 통한 파생명사 및 합성명사의 분석 (Analysis of Derived Nouns and Compound Nouns by Examining Full Text)

  • 박봉래;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.122-128
    • /
    • 1997
  • 대부분의 한국어 형태소 분석기는 파생명사나 합성명사가 포함된 어절을 오분석 또는 과분석하는 경향이 있다. 이는 하나의 어절에서 오분석이나 과분석을 방지하기 위하여 획득할 수 있는 정보가 제한적이기 때문이다. 이에 본 논문은 파생명사나 합성명사 후보가 포함된 어절뿐만 아니라 주변 및 전문에서 분석에 필요한 정보를 수집하여 이용하는 방법을 제시한다. 제안한 방법은 오분석된 파생명사나 합성명사에만 나타나는 저빈도 단어를 제거하고, 파생명사나 합성명사 후보의 주변 어휘들을 실마리로 이용하며, 문서 전역에서 동일한 파생명사나 합성명사 후보가 포함된 둘 이상의 어절을 비교분석하여 파생명사 및 합성명사 후보가 포함된 어절을 처리한다. 실험 결과 제안한 방법은 99.8%의 정확도와 95.3%의 재현율로 파생명사나 합성명사 후보가 포함된 어절을 올바르게 분석할 수 있었다.

  • PDF

어절 분석 기반 형태소 분석 시스템 개발에 관한 연구 (A Study on the Development of a Practical Morphological Analysis System Based on Word Analysis)

  • 조현양;최성필;최재황
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.105-124
    • /
    • 2001
  • 본 연구에서는 정보검색시스템의 성능향상을 위하여 기존에 연구되었던 다양한 어절 분석 기법들을 바탕으로 어절 분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화 그리고 형태소의 정확한 분석을 위한 한국어 어절 분석 시스템을 개발하였다. 본 연구에서 개발된 시스템은 어절 분석 속도를 높일 수 있는 최적의 알고리즘을 구현하였으며, 모듈화된 하부 시스템의 유기적이고 효율적인 결합에 중점을 두로 각 모듈별 성능 및 속도 검증이 가능하도록 하였다. 또한, 재귀적 복협명사 분석을 탈피하여 시스템 부하를 줄이고 다층적 수사 패턴 인식에 기반한 수사 형태소 분석 시스템을 개발하였다. 개발된 어절 분석 시스템을 이용하여 색인 시스템을 구성하고 이를 기반으로 실험을 하였다.

  • PDF

말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석 (Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

음절 특성을 이용한 한국어 불규칙 활용 어절의 형태소 분석 방법 (Analysis of Korean Irregular Verbs Using Syllable Characteristics)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.385-394
    • /
    • 1993
  • 한국어 형태소 분석 시스템은 형태소를 분리하거나 원형을 복원하는 후보 생성 과정에서 많은 후보를 생성하고 이에 대한 사전의 검색이 요구되는 부담이 있다. 특히, 불규칙 활용 어절을 분석하려면 불규칙 활용 어절뿐만 아니라 체언 어절이나 불규칙 활용이 일어나지 않은 모든 어절에 대해서도 불규칙 어절일 가능성을 검사하고, 원형을 복원하기 위해 원형의 후보들을 역으로 추정한 후에, 각 후보에 대해 사전을 검색하는 과정을 거치게 된다. 이 때 불규칙 활용 가능성으로 인한 후보들의 과다한 생성은 사전 검색 횟수의 증가를 유발하여 시스템의 성능을 저하시키는 요인이 되어 왔다. 본 논문에서는 한글의 음절 특성을 이용하여 불규칙 활용이 일어난 후보 어절의 수를 줄임으로써 사전의 검색 횟수를 적게 하고 형태소 분석 시스템의 성능을 향상시키는 방법을 제안한다.

  • PDF

문자 인식기의 특성과 말뭉치의 통계 정보를 이용한 문자 인식 결과의 후처리 (The Postprocessing of a Korean OCR using the Output of the Word Recognition and the Statistical Information from a Corpus)

  • 손훈석;최성필;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.188-193
    • /
    • 1997
  • 한국어 문자 인식 후처리는 인식기가 제공하는 후보 음절을 바탕으로 후처리를 하였다. 이 논문은 문자 인식기가 제공하는 후보 음절 대신에 인식기의 인식 결과를 분석하여 인식기의 오인식 통계 정보에 따라 인식 결과 음절의 후보 음절을 생성한다. 여기서 생성된 후보 어절을 각 음절의 확률 값을 이용하여 확률이 가장 놓은 어절을 선택한다. 이때 한국어 대용량 말뭉치에서 추출한 어절의 통계정보를 이용하여 그 어절의 확률 값을 구한다. 이 기법의 장점은 후보 음절의 조합으로 생성된 어절의 확률 값과 그 어절의 말뭉치상의 확률 값을 이용한 결과 말뭉치에 포함된 미등록어 정보에 따라 형태소 분석이 되지 않는 미등록어 처리가 가능하다. 또한 후보 어절 중 형태소 분석이 성공하는 어절이 두개 이상 있을 경우 실제 거의 쓰이지는 않지만 단지 음절의 확률 값이 높아 우선으로 선택되는 경우를 방지하였다. 실험은 약 1,000page 분량의 실험을 통해 오인식 결과를 수집하고, 4000만 원시 말뭉치에서 구한 어절의 통계정보를 이용하였다. 그 결과 문자 인식기의 98.05%의 어절 인식률을 후처리 결과 99.52%로 향상시켰다.

  • PDF