• Title/Summary/Keyword: Speech speed

Search Result 241, Processing Time 0.045 seconds

음성학적 지식과 DAC 기반 분할 알고리즘 (Phonetic Acoustic Knowledge and Divide And Conquer Based Segmentation Algorithm)

  • 구찬모;왕지남
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.215-222
    • /
    • 2002
  • 본 논문에서는 음절이 잘 발달되어 있는 한국어에 대해서 신뢰할 수 있는 완전 자동화된 레이블링 시스템을 제안한다. 음운 및 음향학적인 정보를 최대한 이용하고 분할에러를 줄이기 위해서 조절 메카니즘의 하나로 DAC개념을 사용하여 음성을 speechlet으로 나누고 분할 된 음성 구간에 대해서 레이블링을 시도하는 DAC기반 분할알고리즘이다. HMM방법이 획일적이고 확정적인 성능을 갖는 반면 본 제안 방법은 음성학적인 특화지식을 컴포넌트로 개발 추가 계속 향상시킬 수 있는 프레임워크를 제시하고 있다는 점에서 주요 의의가 있다고 하겠다. MM과 같은 통계학적인 방법을 이용하지 않고 음운학적, 음향학적 지식만을 이용하는 새로운 방법은 수행속도와 음성학적인 특화 지식컴포넌트를 확장함에 따라 일관성이 있으며 효과적 방법으로 적용가능 할 것이다. 제안 방법을 검증하기 위하여 실험결과를 제시하였다.

노년층과 청년층의 상위범주어 과제 수행력 비교 (Comparison of Performance on Superordinate Word Tasks in Elderly and Young Adults)

  • 김형무;윤지혜
    • 재활복지
    • /
    • 제20권4호
    • /
    • pp.229-246
    • /
    • 2016
  • 본 연구에서는 노년층 40명과 청년층 43명을 대상으로 상위범주어 선택과제를 실시하여 정반응 및 반응시간을 비교하였고, 상위범주어 쓰기과제를 실시하여 정반응 및 오류양상의 차이를 비교하였다. 분석결과, 첫째, 상위범주어 선택 및 쓰기 과제 모두 노년층은 청년층 보다 정반응수가 더 적었다. 둘째, 노년층은 상위범주어 선택과제에서의 반응시간이 유의미하게 느렸다. 셋째, 상위범주어 쓰기과제의 오류양상에서는 노년층은 무관오류보다 연관 오류를 더 빈번하게 보였다. 노년층이 선택과제와 쓰기과제에서 더 낮은 정반응 수를 보인 결과는 정상적인 노화가 진행되면서 의미어휘사전 내 정보 간의 연결이 약화되거나 활성화가 저하되기 때문이라고 볼 수 있다. 반응시간이 긴 이유는 노화에 따른 뇌의 신경생리적 변화와 인지처리 속도 저하에 기인할 수 있다. 목표 상위범주어와 연관된 단어를 산출하는 오류를 보인 것은 비록 노년층이 단어를 완벽히 산출할 수는 없을지라도 목표 단어의 어휘집에 접근하여 의미적으로 연관된 단어를 에둘러 산출하고 목표단어가 가지고 있는 특성들에 대해 우회적으로 설명하는 방식을 취하고 있음을 시사한다.

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

음성처리에서 온라인 오류역전파 알고리즘의 학습속도 향상방법 (A Method on the Learning Speed Improvement of the Online Error Backpropagation Algorithm in Speech Processing)

  • 이태승;이백영;황병원
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.430-437
    • /
    • 2002
  • 다층신경망 (MLP: multilayer perceptron)은 다른 패턴인식 방법에 비해 여러 가지 훌륭한 특성을 가지고 있어 음성인식 및 화자인식 영역에서 폭넓게 사용되고 있다. 그러나 다층신경망의 학습에 일반적으로 사용되는 오류역전파 (EBP: error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있으며, 이는 화자인식이나 화자적응과 같이 실시간 처리를 요구하는 응용에서 상당한 제약으로 작용한다. 패턴인식에 사용되는 학습데이터는 풍부한 중복특성을 내포하고 있으므로 패턴마다 다층신경망의 내부변수를 갱신하는 온라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 오류역전파 알고리즘에서는 가중치 갱신 시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 응용에서 상당한 속도개선을 얻을 수 있지만, 학습률이 고정된 상태에서는 학습이 진행됨에 따라 학습에 기여하는 패턴영역이 달라지는 현상에 효과적으로 대응하지 못하는 문제가 있다. 이 문제에 대해 본 논문에서는 패턴의 기여도에 따라 가변 하는 학습률과 학습에 기여하는 패턴만을 학습에 반영하는 패턴별 가변 학습률 및 학습생략 (COIL: Changing rate and Omitting patterns in Instant Learning)방법을 제안한다. 제안한 COIL의 성능을 입증하기 위해 화자증명과 음성인식을 실험하고 그 결과를 제시한다.

WSOLA를 이용한 동영상 미세배속 재생 서비스에 대한 콘텐츠별 배속 선호도 분석 연구 (A Study about the Users's Preferred Playing Speeds on Categorized Video Content using WSOLA method)

  • 김이길
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.291-298
    • /
    • 2015
  • 빠르게 발전하는 IT환경 속에서 이제 동영상 콘텐츠는 TV를 통한 일방 시청이 아니라 언제 어디서든 다양한 단말에서 볼 수 있는 VOD (Video on Demand) 형태로 발전하고 있다. 이러한 동영상 시청형태의 변화는 디지털이란 특성 때문에 동영상의 재생 속도 또한 다양하게 조절할 수 있다는 부가적인 장점을 사용자에게 제공 한다. 지루하고 따분한 동영상 콘텐츠는 빠르게 돌려보고 흥미 있는 장면은 느리게 천천히 볼 수 있는 동영상 미세배속 재생 기능은 오늘날 다양한 동영상 플레이어에서 제공되고 있다. 동영상 미세배속 재생 시 동영상 콘텐츠 내용의 정확한 이해를 위해서는 시각정보 못지않게 음성정보 청취가 중요한데 정상속도 보다 빠르거나 느린 재생 시 발생하는 음성의 왜곡을 줄이기 위한 음성미세배속 기술들이 음성처리 분야에서 꾸준히 발전되어 왔다. 본 논문에서는 이중 WSOLA와 같은 우수한 음성미세배속 알고리즘에 대해 알아보고 동영상 시청 시 이러한 기능 제공이 실제 얼마나 사용자 니즈(needs)에 부합하는 지 분석해보고자 한다. 특히, 동영상 콘텐츠를 사용자의 콘텐츠 소비 목적에 따라 종류별로 구분하여 재생 배속의 선호도를 조사하고 그 결과를 분석해 봄으로써 동영상 미세배속 기능 제공시 콘텐츠별 소비 목적에 맞게 재생 배속을 제공하는 것이 필요하다는 것을 제안하고자 한다.

A Design and Implementation Mobile Game Based on Kinect Sensor

  • Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권9호
    • /
    • pp.73-80
    • /
    • 2017
  • In this paper, we design and implement a mobile game based on Kinect sensor. This game is a motion recognition maze game based on Kinect sensor using XNA Game Studio. The game consists of three stages. Each maze has different size and clear time limit. A player can move to the next stage only if the player finds the exit within a limited time. However, if the exit is not found within the time limit, the game ends. In addition, two kinds of mini games are included in the game. The first game is a fruit catch game using motion recognition tracking of the Kinect sensor, and player have to pick up a certain number of randomly falling fruits. If a player acquire a certain number of fruits at this time, the movement speed of the player is increased. However, if a player takes a skeleton that appears randomly, the movement speed will decrease. The second game is a Quiz game using the speech recognition function of the Kinect sensor, and a question from random genres of common sense, nonsense, ancient creature, capital, constellation, etc. are issued. If a player correctly answers more than 7 of 10 questions, the player gets useful items to use in finding the maze. This item is a navigator fairy that helps the player to escape the forest.

터보회전기기의 진동모니터링 및 진단을 위한 이산 은닉 마르코프 모델에 관한 연구 (A Study on Discrete Hidden Markov Model for Vibration Monitoring and Diagnosis of Turbo Machinery)

  • 이종민;황요하;송창섭
    • 한국유체기계학회 논문집
    • /
    • 제7권2호
    • /
    • pp.41-49
    • /
    • 2004
  • Condition monitoring is very important in turbo machinery because single failure could cause critical damages to its plant. So, automatic fault recognition has been one of the main research topics in condition monitoring area. We have used a relatively new fault recognition method, Hidden Markov Model(HMM), for mechanical system. It has been widely used in speech recognition, however, its application to fault recognition of mechanical signal has been very limited despite its good potential. In this paper, discrete HMM(DHMM) was used to recognize the faults of rotor system to study its fault recognition ability. We set up a rotor kit under unbalance and oil whirl conditions and sampled vibration signals of two failure conditions. DHMMS of each failure condition were trained using sampled signals. Next, we changed the setup and the rotating speed of the rotor kit. We sampled vibration signals and each DHMM was applied to these sampled data. It was found that DHMMs trained by data of one rotating speed have shown good fault recognition ability in spite of lack of training data, but DHMMs trained by data of four different rotating speeds have shown better robustness.

한국어 어휘 인식을 위한 혼합형 음성 인식 단위 (Monophone and Biphone Compuond Unit for Korean Vocabulary Speech Recognition)

  • 이기정;이상운;홍재근
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.867-874
    • /
    • 2001
  • 본 논문에서는 한국어의 발음 특성을 고려하여 인식시간 단축과 동시에 조음현상을 반영할 수 있는 인식단위 표현법을 제안하였다. 제안한 인식단위는 단음소(monophone)와 바이폰(biphone)의 혼합형으로서, 단음소 단위는 안정적인 특성을 나타내는 모음에 적용되고 바이폰 단위는 인접한 모음에 의해 변하는 자음에 적용된다. PBW455 데이터베이스에 대한 단어인식 실험에서 혼합형 단위표현법은 트라이폰 단위에 비해 비슷한 인식률을 나타내면서 57%의 인식시간 단축효과를 나타냈고, 음절 단위에 비해 향상된 인식률과 비슷한 인식시간을 나타내었다. 또한 트라이폰 및 음절 단위보다 적은 모델 수를 가져 메모리 양을 줄일 수 있었다.

  • PDF

신경망 기반 화자증명 시스템에서 더욱 향상된 사용자 등록속도 (Faster User Enrollment for Neural Speaker Verification Systems)

  • Lee, Tae-Seung;Park, Sung-Won;Hwang, Byong-Won
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.1021-1026
    • /
    • 2003
  • MLP(multilayer perceptron)는 화자증명에 대한 응용에 있어 우수한 특질을 지니고 있지만 동시에 느린 학습속도의 문제를 안고 있다. 편리한 사용을 위해 MLP에 기반한 화자증명 시스템에서는 신속한 화자등록이 요구되며 이 문제는 MLP의 빠른 학습속도에 전적으로 의존한다. 이러한 시스템에서 실시간 등록을 달성하기 위해 지금까지 두 가지 측면에서 연구가 시도되었으며 각기 의도한 목적을 달성하였다. 본 논문에서는 이 두 방법이 상이한 최적화 원리에서 동작한다는 가정 하에 이들을 결합하고 이를 MLP 기반 화자증명 시스템에 적용한다. 이러한 결합이 화자등록 속도를 더욱 향상시킬 수 있다는 사실은 한국어 음성 데이터베이스를 이용한 실험결과에서 입증된다.

  • PDF

축소격자필터 구조를 사용한 음향반향제거기 (An Acoustic Echo Canceller By Using the Reduced Lattice Filter Structure)

  • 유재하;조성호;윤대희;차일환
    • 전자공학회논문지B
    • /
    • 제32B권11호
    • /
    • pp.1473-1480
    • /
    • 1995
  • When the LMS algorithm is employed in the transversal filter structure, the computational complexity can be kept reasonably low. However, if the impulse response to be estimated is very long or signals involved are highly correlated like a speech the convergence speed becomes slow. The lattice filter is an excellent alternative to improve convergence speed since the lattice structure inherently has the orthogonal property among the backward prediction errors, but at the expense of the excessive computational load. If the input signal to be used can be sufficiently well modeled as a .RHO.-th order autoregressive(AR) process, the reflection coefficients after the .RHO.- th stage will be close to zero. Then, instead of employing the full lattice structure, the joint lattice filter structure can be implemented in conjunction with the transversal filter structure after the .RHO.-th stage. We propose, in this paper, this new lattice/transversal joint structure, and we will call it the reduced lattice filter. Using the reduced lattice filter, we are now able to achieve the performance as good as that of the lattice filter, while maintaining the complexity as low as that of the transversal filter. The proposed filter is particularly useful for an acoustic echo canceller due to the highly correlatedness nature of speeches and the long and frequently changing echo paths.

  • PDF