• 제목/요약/키워드: Vocabulary System

검색결과 288건 처리시간 0.026초

어휘 인식 시스템의 인식률 향상을 위한 어휘 유사율 처리 지원 (Vocabulary Likelihood rate Process support for Recognition rate Improvement of Vocabulary Recognition System)

  • 김규호;오상엽
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.359-363
    • /
    • 2012
  • 어휘 인식 모델에서는 정확하지 않은 어휘로 부터 특징을 추출하기 때문에 어휘가 실제 어휘와 유사한 어휘로 인식되거나 인식이 되지 않는 현상이 나타난다. 이를 위해 본 논문에서는 효율적인 형상 형성을 지원하는 시스템을 모델링하고 구현하였으며, 형상 형성 정보를 효율적으로 처리하고 어휘 유사율 관리를 최적화하기 위해 데이터베이스 검색에서 facet 방법을 응용하였다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 95.31%, 어휘 독립 인식률은 97.38%의 인식률을 나타내었다.

VCOR를 이용한 효율적인 어휘 최적화 관리 (Efficient Vocabulary Optimization Management using VCOR)

  • 오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권10호
    • /
    • pp.1436-1443
    • /
    • 2010
  • 어휘 인식 시스템에서는 처리되는 어휘가 나타나지 않는 미 출현 트라이 폰이 존재하는 단점이 있으며 이에 따른 신뢰도의 분포를 가지고 있지 않기 때문에 정규화를 수행할 수 없다. 따라서 이를 개선하기 위하여 미등록어 거절 알고리즘에서 사용되는 어휘 관리를 최적화하고 음소 단위로 데이터 탐색을 지원하는 VCOR 시스템을 제안한다. 또한 VCOR에서는 어휘 정보를 효율적으로 제공하기 위해 확장 facet 분류를 이용하여 사용자에게 어휘 단위의 정보를 제공하고, 어휘에 대한 향상된 추적 관리 가능을 제공하여 어휘에 대한 인식의 정확성을 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 97.56%, 어휘 독립 인식률은 96.23%의 인식률을 나타내었다.

MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템 (Vocabulary Recognition Retrieval Optimized System using MLHF Model)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.217-223
    • /
    • 2009
  • 모바일 단말기의 어휘 인식 시스템에서는 통계적 방법에 의한 어휘인식을 수행하고 N-gram을 이용한 통계적 문법 인식 시스템을 사용한다. 인식 대상이 되는 어휘의 수가 증가하면 어휘 인식 알고리즘이 복잡해지고 대규모의 탐색공간을 필요로 하게 되며 처리시간이 길어지므로 제한된 연산처리 능력과 메모리로는 처리하기가 불가능하다. 따라서 본 논문에서는 이러한 단점을 개선하고 어휘 인식을 최적화하기 위하여 MLHF 시스템을 제안한다. MLHF는 FLaVoR의 구조를 이용하여 음향학적 탐색과 언어적 탐색을 분리하여 음향학적 탐색에서는 HMM을 사용하고 언어적 탐색 단계에서는 Levenshtein distance 알고리즘을 사용한다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타냈으며 인식속도는 1.61초로 나타내었다.

Subject Searching Using Controlled Vocabulary Versus Uncontrolled Vocaburary in Online Catalog System: Focusing on Multilingual Environment

  • 최희윤
    • 정보관리연구
    • /
    • 제26권2호
    • /
    • pp.61-79
    • /
    • 1995
  • 정보검색의 성공여부는 적절한 검색어의 선정에 달려있다고 해도 과언이 아니다. 특히 CD-ROM이나 온라인목록시스템에서 주제검색시 분류표, 주제명과 같은 통제어와 자연어 등 비통제어의 비교 우위 문제는 아직도 논란이 되고 있다. 본고는 두 시스템의 검색효율성을 비교하기 위하여 특히 다언어 환경하에서의 검색어 사용에 중점을 두고 다양한 형태의 검색어휘를 조사 분석하였다.

  • PDF

한국어 방송 뉴스 인식 시스템을 위한 OOV update module (Korean broadcast news transcription system with out-of-vocabulary(OOV) update module)

  • 정의정;윤승
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.33-36
    • /
    • 2002
  • We implemented a robust Korean broadcast news transcription system for out-of-vocabulary (OOV), tested its performance. The occurrence of OOV words in the input speech is inevitable in large vocabulary continuous speech recognition (LVCSR). The known vocabulary will never be complete due to the existence of for instance neologisms, proper names, and compounds in some languages. The fixed vocabulary and language model of LVCSR system directly face with these OOV words. Therefore our Broadcast news recognition system has an offline OOV update module of language model and vocabulary to solve OOV problem and selects morpheme-based recognition unit (so called, pseudo-morpheme) for OOV robustness.

  • PDF

연속 어휘 인식 시스템에서 어휘 클러스터링 모델의 성능 지원을 위한 검색 시스템 (Retrieve System for Performance support of Vocabulary Clustering Model In Continuous Vocabulary Recognition System)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제10권9호
    • /
    • pp.339-344
    • /
    • 2012
  • 기존의 연속 어휘 인식 시스템에서는 의사 결정 트리 기반 공유 모델링 방법을 사용하여 인식률 향상 시킬 수 있었으나 이들 음소 데이타에 대한 검색을 지원할 수 없는 문제로 인해 시스템 모델의 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 연속 어휘 클러스터링 모델에서 음소 단위로 확률 모델을 검색할 수 있는 시스템을 모델링하였다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 95.88%의 인식률을 나타내었다.

음소 유사율 오류 보정을 이용한 어휘 인식 후처리 시스템 (Vocabulary Recognition Post-Processing System using Phoneme Similarity Error Correction)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.83-90
    • /
    • 2010
  • 어휘 인식 시스템에서 인식률 저하의 요인으로는 유사한 음소 인식과 부정확한 어휘 제공으로 인해 오인식 오류가 존재한다. 부정확한 어휘의 입력으로 특징을 추출하여 인식할 경우 오인식의 결과가 나타나거나 유사한 음소로 인식되며 특징 추출이 제대로 이루어지지 않으면 음소 인식 시 유사한 음소로 인식하게 된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 음소 유사율을 이용한 어휘 인식 후처리에서의 오류 보정 후처리 시스템을 제안하였다. 음소 유사율은 모노폰으로 훈련시킨 훈련 데이터를 각각의 음소에 MFCC와 LPC 특징 추출 방법을 이용하여 구하였다. 유사한 음소는 정확한 음소로 인식할 수 있도록 유도하여 부정확한 어휘 제공으로 인하여 오인식되는 오류를 최소화하였다. 음소 유사율과 신뢰도를 이용하여 오류 보정율을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러패턴 학습을 이용한 시스템과 의미기반을 이용한 시스템에 비해 시스템 성능 평가 결과 MFCC와 LPC는 각각 7.5%와 5.3%의 인식 향상률을 보였다.

미등록어 거절을 이용한 오류 보정 방법 개선 시스템 (Error Correction Methode Improve System using Out-of Vocabulary Rejection)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권8호
    • /
    • pp.173-178
    • /
    • 2012
  • 어휘 인식을 위한 모델 생성에서 준비하지 않은 트라이폰이 생성된다. 이는 모델 파라미터의 초기 추정치를 생성하지 못하는 원인으로 어휘 모델을 구성할 수 없는 단점으로 나타난다. 결과적으로 가우시안 모델의 정교함이 떨어지게 되어 인식률을 저하시키게 된다. 이를 개선하기 위한 방법으로 미등록 어휘 거절 알고리즘을 이용한 오류 보정 시스템을 제안한다. 이 방법은 어휘 인식 모델 생성 시 등록되지 않은 어휘를 거절하여 인식률을 향상시킨다. 또한 확률 분포를 이용하여 어휘 분석과 의미를 파악하고 음운 변동이 적용되기 전의 문자열로 복원시킨다. 시스템 분석은 음소 유사율과 신뢰도를 이용하여 오류 보정율을 확인하였고 성능 평가를 위해 에러 패턴, 오류 패턴, 의미 패턴 방법을 이용하여 평가하였다. 성능 평가 결과 2.8%의 오류 보정률의 향상을 보였다.

미등록어 거절 알고리즘에서 음소 특성 추출의 신뢰도 측정 개선 (Reliability measure improvement of Phoneme character extract In Out-of-Vocabulary Rejection Algorithm)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제10권6호
    • /
    • pp.219-224
    • /
    • 2012
  • 통신 모바일 단말기에서 어휘 인식 시스템은 부정확한 어휘로부터 음소 특징을 추출하기 때문에 음소를 인식하지 못하거나 유사한 음소 오인식 오류로 인한 낮은 인식률의 문제점을 가진다. 이러한 문제를 해결하기 위해서, 본 논문에서는 입력 음소는 음소 유사율 처리를 통해 음소 사이의 거리를 측정하여 수치로 나타내고, 신뢰도 측정을 통하여 인식되어진 결과를 확인하는 시스템을 제안하였다. 이로 인해 부정확한 어휘 제공으로 인한 오인식 오류를 최소화하였으며 음소 유사율과 신뢰도를 이용하여 오류 보정율을 구하였다. 기존 방법인 에러 패턴 학습을 이용한 시스템과 의미기반을 이용한 시스템의 성능 평가 결과 2.7%의 인식 향상율을 보였다.

개선된 Levenshtein Distance 알고리즘을 사용한 어휘 탐색 시스템 (Vocabulary Retrieve System using Improve Levenshtein Distance algorithm)

  • 이종섭;오상엽
    • 디지털융복합연구
    • /
    • 제11권11호
    • /
    • pp.367-372
    • /
    • 2013
  • 기존의 Levenshtein distance 알고리즘은 어휘들 간의 순서가 정해져 있지 않은 경우에 사용되므로 어휘 탐색 작업의 중요도를 구분할 수 없는 단점을 가진다. 본 연구에서 제안하는 개선된 Levenshtein 방법에서는 효율적으로 사용빈도에 따라 어휘들을 탐색하고, 어휘들 간의 순서를 가지는 가중치를 부여한다. 따라서 어휘의 수가 증가하는 경우에도 효율적으로 사용빈도에 따라 어휘를 탐색하여 인식율이 저하되는 단점을 해결하고, 인식 시간을 향상 및 탐색 공간의 효율적으로 관리할 수 있는 장점을 가진다. 제안한 시스템을 분석한 결과 실내 환경에서 어휘 종속 인식률은 97.81%, 어휘 독립 인식률은 96.91%의 인식률을 나타났다. 또한, 실외 환경에서 어휘 종속 인식률은 91.11%, 어휘 독립 인식률은 90.01%의 인식률을 나타났다.