• 제목/요약/키워드: 음절 복원

검색결과 26건 처리시간 0.025초

한국어 음가의 표기 복원을 위한 표기 후보 생성 및 감소에 관한 연구 (A Study On Generation and Reduction of the Notation Candidate for the Notation Restoration of Korean Phonetic Value)

  • 이상범;박성현
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.99-106
    • /
    • 2004
  • 음절 복원은 음성 인식 장치에서 인식된 음가열을 발성 이전의 표기 형태로 복원하는 과정이다. 본 논문에서는 음절 복원 과정을 위하여 표준 발음법을 기반으로 음절 복원 규칙을 작성하였다. 음절 복원 규칙을 이용하여 표기 후보 집합의 생성 방법을 연구하였다. 또한 생성된 표기후보의 수를 감소시키기 위하여, 비 표기 음절을 포함한 표기 후보 감소, 비 어휘 음절을 포함한 표기 후보 감소, 비어간 음절을 포함한 표기 후보 감소의 3단계 감소 과정을 제안하였다. 제안된 방법을 통하여 실험한 결과 평균 74%의 표기 후보 감소율을 나타내었다.

연속음성인식 후처리를 위한 음절 복원 rule-base시스템 (The syllable recovery rule-base system for the post-processing of a continuous speech recognition)

  • 박미성;김미진;이문희;최재혁;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.379-385
    • /
    • 1998
  • 한국어가 연속적으로 발음될 때 여러 가지 음운 변동현상이 일어난다. 이것은 한국어 연속음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문은 음운변동현상이 반영된 음성 인식 문자열을 규칙에 의거하여 text 기반 문자열로 다시 복원시키고 복원 결과 후보들을 형태소 분석하여 유용한 문자열만을 최종 결과로 생성하게 하는 시스템을 구성하였다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule, 끝음절 중성 복원 rule, 한 음절처리 rule에 따라 이루어진다. 규칙 적용 과정중에 효과적인 복원을 위해 x-clustering정보를 정의 하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제한하기 위해 postfix음절 빈도정보를 구하여 사용한다.

  • PDF

음절 복원 후보 집합의 생성과 후보 감소에 관한 연구 (A Study on a Generation of a Syllable Restoration Candidate Set and a Candidate Decrease)

  • 김규식;김경징;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권12호
    • /
    • pp.1679-1690
    • /
    • 2002
  • 본 논문에서는 음성 인식의 후처리를 위한 음절 복원 규칙의 생성과 복원 후보의 감소에 관한 연구를 수행하였다. 대화체 연속 음성 인식의 성능 향상을 위하여 음절 단위를 인식하는 음성인식 시스템의 후처리를 통하여 인식된 로 발음되는 복원 후보를 생성하는 음절 복원 규칙을 생성하였다. 또한 복원 집합의 후보수를 줄이기 위한 방안으로 복원 규칙에서 실생활에서 사용되지 않는 표기를 생성하는 규칙을 제거하는 방안을 제시하였다. 음절 복원 규칙이 올바른 복원 후보 집합을 생성함을 보이기 위하여 복원 후보 집합 생성기를 설계 구현하고, 표준 발음법 예제와 발음법 사전에서 무작위로 추출된 단어에 대하여 실험한 결과 발성 이전의 표기가 포함된 올바른 표기 집합이 생성됨을 입증하였다.

  • PDF

연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용 (The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition)

  • 박미성;김미진;김계성;최재혁;이상조
    • 전자공학회논문지C
    • /
    • 제36C권3호
    • /
    • pp.47-56
    • /
    • 1999
  • 한국어를 연속적으로 발음할 때 여러 가지 음은변동이 일어난다. 이러한 음운변동은 한국어 연속 음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문에서는 음운변동이 반영된 음성 인식 문자열을 규칙에 의하여 text 기반 문자열로 다시 복원시키는 rule-based 시스템을 제안한다. 그리고 복원 결과들은 형태소 분석되어 올바른 문자열만 생성된다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule,끝음절 종성 복원 rule, 한 음절 처리 rule에 의거하여 이루어진다. 규칙 적용 과정 중에 효과적인 복원을 위해 x-clustering정보를 정의하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제안하기 위해 postfix음절 빈도정보를 구하여 사용한다. 본 시스템은 규칙기반 시스템이므로 대용량의 발음열 사전이나 음소열 사전을 필요로 하지 않고 문서 기반 형태소 분석기를 그대로 이용할 수 있다는 이점이 있다.

  • PDF

음절 복원 규칙과 형태소 분석을 이용한 음성인식 후처리 (Post-Processing of Voice Recognition Using Phonologic Rules and Morphologic analysis)

  • 서상현;김재홍;김해진;김미진;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.495-499
    • /
    • 1997
  • 컴퓨터의 사용이 보편화됨에 따라 컴퓨터와 사용자 사이의 쉽고 자연스러운 의사 소통을 위한 자연어 인터페이스에 대한 연구가 활발히 진행되고 있다. 이 중에서 특히, 음성인식 분야는 음성명령, 받아쓰기 시스템 등 일반적인 컴퓨터 사용자의 요구를 충족시켜 줄 수 있는 분야로 주목을 받고 있다. 그러나 음성인식은 인식 자체만으로는 인식률에 한계가 있으며, 인식 결과를 향상시키기 위해서는 후처리 단계가 필요하다. 본 논문에서는 음성 인식의 성능을 향상시키기 위해 음성 인식의 결과로 들어온 연속된 한국어 음성을 올바른 음절로 복원시켜 주는 시스템을 구현하였다. 이 시스템에서는 어절단위의 연속된 한국어 음성을 입력으로 받아 한국어 발음 규칙을 역으로 적용하여 원래의 음절로 복원시키고, 형태소 분석기를 이용하여 복원된 음절이 올바른지를 확인하고 수정한다. 초등학교 교과서에 나오는 문장을 대상으로 본 시스템의 성능을 실험한 결과, 90.42%의 복원율을 나타내었다. 현재 정확하게 복원이 되지 않는 것 중에는 동음이의어가 차지하는 비중이 크며, 이 문제는 구문분석이나 의미분석을 이용하여 어느 정도 개선할 수 있을 것으로 보인다.

  • PDF

한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원 (Automatic Word-Segmentation at Line-Breaks for Korean Text Processing)

  • 정영미;이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.21-24
    • /
    • 1999
  • 한국어 텍스트의 줄 경계에서의 띄어쓰기 복원을 위해 음절쌍 통계를 이용한 복원 기법을 설계하고 신문기사를 대상으로 통계 정보원과 음절쌍 위치에 따른 가중치를 달리하는 실험을 수행하였다. 실험 결과 처리 대상 기사를 포함하는 1개월 분 기사를 통계 정보원으로 하고 가중치는 균등하게 할 때 가장 높은 성공률을 얻었다. 이 결과는 디지털 원문을 텍스트 방식으로 소급하여 구축하는 경우에 적용될 수 있을 것이다.

  • PDF

음절 복원 알고리즘을 이용한 핵심어 오류 보정 시스템 (Key-word Error Correction System using Syllable Restoration Algorithm)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권10호
    • /
    • pp.165-172
    • /
    • 2010
  • 어휘 인식 시스템의 오류 보정방법으로는 오류 패턴매칭 기반 방법과 어휘의미 패턴 기반방법이있으며, 이들 방법에서는 오류 보정을 위해 핵심어를 의미적으로 분석하지 못하는 문제점을 가지고 있다. 이를 개선하기 위해 본 논문에서는 음절 복원 알고리즘을 이용한 핵심어 오류 보정 시스템을 제안한다. 인식된 음소 열을 의미 분석 과정을 거쳐 음소가 갖는 의미를 파악하고 음절 복원 알고리즘을 통해 음운 변동이 적용되기 이전의 문자열로 복원하므로 핵심어를 명확히 분석하고 오인식을 줄일 수 있다. 시스템 분석을 위해 음소 유사율과 신뢰도를 이용하여 오류 보정율을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러 패턴 학습을 이용한 방법과 오류 패턴 매칭 기반 방법, 어휘 의미 패턴 기반 방법의 성능 평가 결과 3.0%의 인식 향상율을 보였다.

한국어 형태소 분석을 위한 음절 단위 확률 모델 (Syllable-based Probabilistic Models for Korean Morphological Analysis)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.642-651
    • /
    • 2014
  • 본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

음절 특성을 이용한 한국어 불규칙 활용 어절의 형태소 분석 방법 (Analysis of Korean Irregular Verbs Using Syllable Characteristics)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.385-394
    • /
    • 1993
  • 한국어 형태소 분석 시스템은 형태소를 분리하거나 원형을 복원하는 후보 생성 과정에서 많은 후보를 생성하고 이에 대한 사전의 검색이 요구되는 부담이 있다. 특히, 불규칙 활용 어절을 분석하려면 불규칙 활용 어절뿐만 아니라 체언 어절이나 불규칙 활용이 일어나지 않은 모든 어절에 대해서도 불규칙 어절일 가능성을 검사하고, 원형을 복원하기 위해 원형의 후보들을 역으로 추정한 후에, 각 후보에 대해 사전을 검색하는 과정을 거치게 된다. 이 때 불규칙 활용 가능성으로 인한 후보들의 과다한 생성은 사전 검색 횟수의 증가를 유발하여 시스템의 성능을 저하시키는 요인이 되어 왔다. 본 논문에서는 한글의 음절 특성을 이용하여 불규칙 활용이 일어난 후보 어절의 수를 줄임으로써 사전의 검색 횟수를 적게 하고 형태소 분석 시스템의 성능을 향상시키는 방법을 제안한다.

  • PDF