• 제목/요약/키워드: Phone-like-unit

검색결과 7건 처리시간 0.028초

한국어 음성인식을 위한 음성학 기반의 유사음소단위 집합 설계 (A Phonetics Based Design of PLU Sets for Korean Speech Recognition)

  • 홍혜진;김선희;정민화
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.105-124
    • /
    • 2008
  • This paper presents the effects of different phone-like-unit (PLU) sets in order to propose an optimal PLU set for the performance improvement of Korean automatic speech recognition (ASR) systems. The examination of 9 currently used PLU sets indicates that most of them include a selection of allophones without any sufficient phonetic base. In this paper, a total of 34 PLU sets are designed based on Korean phonetic characteristics arid the effects of each PLU set are evaluated through experiments. The results show that the accuracy rate of each phone is influenced by different phonetic constraint(s) which determine(s) the PLU sets, and that an optimal PLU set can be anticipated through the phonetic analysis of the given speech data.

  • PDF

대용량 운율 음성데이타를 이용한 자동합성방식 (Automatic Synthesis Method Using Prosody-Rich Database)

  • 김상훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.87-92
    • /
    • 1998
  • In general, the synthesis unit database was constructed by recording isolated word. In that case, each boundary of word has typical prosodic pattern like a falling intonation or preboundary lengthening. To get natural synthetic speech using these kinds of database, we must artificially distort original speech. However, that artificial process rather resulted in unnatural, unintelligible synthetic speech due to the excessive prosodic modification on speech signal. To overcome these problems, we gathered thousands of sentences for synthesis database. To make a phone level synthesis unit, we trained speech recognizer with the recorded speech, and then segmented phone boundaries automatically. In addition, we used laryngo graph for the epoch detection. From the automatically generated synthesis database, we chose the best phone and directly concatenated it without any prosody processing. To select the best phone among multiple phone candidates, we used prosodic information such as break strength of word boundaries, phonetic contexts, cepstrum, pitch, energy, and phone duration. From the pilot test, we obtained some positive results.

  • PDF

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

안드로이드 기반 GPS 개인위치정보 자기제어 구조 설계 (A Design of GPS based Personal Location Self-Control Software on Android Platform)

  • 장원준;이형우
    • 한국융합학회논문지
    • /
    • 제1권1호
    • /
    • pp.23-29
    • /
    • 2010
  • 최근 스마트폰 사용자를 대상으로 다양한 종류의 어플리케이션이 개발/배포되고 있다. 특히 Google에서 개발한 안드로이드 운영체제인 경우 오픈 소스 정책을 채택하였으며 멀티태스킹 서비스를 지원함과 동시에 기존의 구글 서비스와 연계할 수 있다는 장점이 있다. 특히 안드로이드 운영체제에서 Layar, Wikitude, Sherpa 및 a2b 등과 같이 스마트폰 환경에서 GPS 위치정보를 이용한 어플리케이션이 개발되어 다양한 서비스를 제공하고 있다. 하지만 기존의 Cell-ID 기반의 위치정보는 이동통신사업자가 이동통신망에 설치한 교환장치를 통해 직접적으로 수집될 수 있기 때문에 개인 프라이버시 문제가 발생하고, 각종 사업자에 따라 얼마든지 정보가 유출될 가능성이 있는 정보이므로 개인 프라이버시 침해 위험성이 높다. 따라서 본 연구에서는 스마트폰에서의 GPS 기반 개인위치정보를 사용자 스스로 통제 및 접근제어할 수 있는 기술적 방안을 제시하였고 이를 설계하였다. 이를 통해 안드로이드 환경에서 다양한 GPS 개인위치정보 자기제어 SW 개발이 가능하였다.

IEEE754-2008을 위한 고속 부동소수점 연산기 설계 (Floating Point Unit Design for the IEEE754-2008)

  • 황진하;김현필;박상수;이용석
    • 대한전자공학회논문지SD
    • /
    • 제48권10호
    • /
    • pp.82-90
    • /
    • 2011
  • 스마트폰을 비롯한 각종 매체가 발전함에 따라 우수한 성능의 부동소수점 연산기 필요성이 점차 증가하고 있다. 이러한 요구에 따라 이 논문에서는 기본이 되는 덧셈/뺄셈 뿐 아니라 기존보다 향상된 곱셈과 비교, 변환 연산을 수행하는 고속의 단정도/배정도 부동소수점 연산기의 설계를 제안한다. 가장 많이 사용하는 덧셈/뺄셈 연산기는 반올림 연산 시에 병렬화 작업을 수행함으로서 최적화를 구현하였다. 그래픽 연산 등에서 복잡한 수의 행렬연산이 많이 사용되는데, 이를 빠르게 계산하기 위해서 곱셈기 대신에 곱셈 후 덧셈을 수행하는 단일 곱셈-누산기(MAF)를 설계하였다. 분기 명령은 프로그램에서 자주 사용하는 명령으로 비교 연산에 의해 분기 조건이 결정되는데 이 논문에서는 파이프라인이 완료되기 전에 수행된 비교연산의 결과값을 바이패싱함으로서 연산의 수행시간을 감소시켰다. 또한 IEEE754-2008 표준에 추가된 변환연산을 포함하여 설계하였다. RTL 설계를 검증하기 위하여 연산기마다 40만개의 테스트 벡터를 가중치 무작위 방식으로 선별하여 시뮬레이션을 수행하였다. 검증 후에는 삼성 저전력 45nm 공정에서 합성을 수행하여 600MHz의 동작 주파수를 만족하였다. 또한 개선된 FPU와 기존의 FPU와 비교하여 면적의 감소를 확인하였다.

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

콜퍼스에 기반한 한국어 문장/음성변환 시스템 (Corpus-based Korean Text-to-speech Conversion System)

  • 김상훈;박준;이영직
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.24-33
    • /
    • 2001
  • 이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

  • PDF