• 제목/요약/키워드: VOCAL SIGNAL

검색결과 87건 처리시간 0.024초

하모닉 정보를 이용한 SAOC의 보컬 신호 제거 방법에 관한 연구 (A Study on Vocal Removal Scheme of SAOC Using Harmonic Information)

  • 박지훈;장대근;한민수
    • 한국멀티미디어학회논문지
    • /
    • 제16권10호
    • /
    • pp.1171-1179
    • /
    • 2013
  • IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다. 제안 하는 기법은 부호화기에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.

수온에 따른 성대 진동과 음성신호 분석 요소간의 상관성 분석 (Correlation Analysis Between Vocal Fold Vibration and Voice Signal Analysis Parameter by Water Temperature)

  • 김봉현;조동욱
    • 한국통신학회논문지
    • /
    • 제37권4C호
    • /
    • pp.347-353
    • /
    • 2012
  • 본 논문에서는 수온 변화에 따른 성대의 영향을 분석하는 실험을 수행하였다. 특히, 섭취하는 수온 변화에 따라 성대 진동의 패턴에 대한 유의성을 추출하기 위한 음성 측정 시스템을 설계하는 연구를 수행하고자 한다. 이를 위해 $0^{\circ}C$부터 $70^{\circ}C$까지 $10^{\circ}C$ 간격으로 총 8단계의 온도 차이를 두고 이를 섭취했을 때 변화하는 성대 진동의 음성 분석 요소값을 측정하였다. 결과적으로 $30^{\circ}C{\sim}40^{\circ}C$의 온도를 나타내는 물을 섭취했을 때 성대 진동이 안정화 되면서 발음의 정확성이 향상되는 것을 알 수 있으며 이를 통해 $30^{\circ}C{\sim}40^{\circ}C$의 물이 성대에 가장 좋은 영향을 미치는 것으로 분석되었다.

전기성문전도(EGG) 시스템의 개발 및 평가 (Implementation and Evaluation of Electroglottograph System)

  • 김기련;김광년;왕수건;허승덕;이승훈;전계록;최병철;정동근
    • 대한의용생체공학회:의공학회지
    • /
    • 제25권5호
    • /
    • pp.343-349
    • /
    • 2004
  • 전기성문전도는 발성시에 성문의 진동이 전기적 임피던스를 이용하여 검출되는 신호이다. 본 연구는 이러한 전기성문전도를 기록하기 위한 장비를 구현하고 음성분석 및 후두질환 진단에 대한 적용생을 평가하고자 하였다. 전기성문전도의 하드웨어는 2 쌍의 링전극, 동조증폭기, 검파기, 저역통과필터, 자동이득조절부 등으로 구성되며, 2.7MHz의 반송파 신호를 이용하고 진폭 변조 방식의 검파를 통해 임피던스 신호를 추출하도록 하였다. 추출된 신호는 PC 사운드 카드의 라인 입력을 통해 샘플링되고 양자화되었다. 검출 신호를 분석하기 위한 파라미터는 패래 시간을(CQ), 개폐 속도율(SQ), 개폐속도지수(SI), 성대진동 주파수(F0), 성대진동 주파수변동지수(Jitter), 성대진동 진폭변동지수(Shimmer) 등을 추출하였다. 전기성문전도를 분석한 결과, F0가 증가할수록 CQ는 커지고, SQ와 SI는 작아지는 경향을 보였으며, 전기성문전도와 음성 선호의 기본주파수가 일치함을 알 수 있었다. CQ, SQ, SI는 정상인과 후두암 환자를 비교한 결과 유의한 차이를 보였다. 이러한 결과는 성대의 운동을 관찰할 수 있는 휴대용 전기성문전도 계측기의 구현이 가능하게 하였고, 성대 기능 이상 검사가 가능함을 시사하였다.

성대신호 명령어 인식기를 위한 음운자질에 기반한 성대신호 연구 (Vocal-cord Signal Study based on Phonological Feature for Vocal-cord Signal Isolated-Word recognizer)

  • 정영규;한문성;조관현
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.565-570
    • /
    • 2006
  • 웨어러블 환경에서 가장 유용한 사용자 인터페이스는 음성이다. 그러나 현재 노이즈 제거 기술로는 웨어러블 환경과 같은 고소음 환경에서 음성 인식기의 실제적인 응용은 거의 불가능하다. 본 논문은 환경노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 이를 위해 성대신호를 한국어 음운자질 이론을 기반으로 설명하고, 입력신호를 분석하여 이러한 접근방법의 타당성을 검증한다. 이러한 성대신호의 분석을 위해 스펙트럼과, FFT 결과를 사용하고, MFCC 알고리즘을 이용하여 주파수 영역내의 정보량이 인식에 미치는 영향을 분석한다. 그리고 분석결과를 바탕으로 성대신호 명령어 인식기를 위한 특징벡터로 유/무성음 분리에 사용되는 특징벡터가 유용함을 ZCPA 알고리즘을 이용한 성대신호 명령어 인식기를 개발하여 검증한다. 실험결과 ZCPA 를 사용한 것이 MFCC 에 비해 16%높은 인식률을 보인다.

  • PDF

감정에 강인한 음성 인식을 위한 음성 파라메터 (Speech Parameters for the Robust Emotional Speech Recognition)

  • 김원구
    • 제어로봇시스템학회논문지
    • /
    • 제16권12호
    • /
    • pp.1137-1142
    • /
    • 2010
  • This paper studied the speech parameters less affected by the human emotion for the development of the robust speech recognition system. For this purpose, the effect of emotion on the speech recognition system and robust speech parameters of speech recognition system were studied using speech database containing various emotions. In this study, mel-cepstral coefficient, delta-cepstral coefficient, RASTA mel-cepstral coefficient and frequency warped mel-cepstral coefficient were used as feature parameters. And CMS (Cepstral Mean Subtraction) method were used as a signal bias removal technique. Experimental results showed that the HMM based speaker independent word recognizer using vocal tract length normalized mel-cepstral coefficient, its derivatives and CMS as a signal bias removal showed the best performance of 0.78% word error rate. This corresponds to about a 50% word error reduction as compare to the performance of baseline system using mel-cepstral coefficient, its derivatives and CMS.

LSP를 이용한 성문 스펙트럼 기울기 추정에 관한 연구 (A Study on the Estimation of Glottal Spectrum Slope Using the LSP (Line Spectrum Pairs))

  • 민소연;장경아
    • 음성과학
    • /
    • 제12권4호
    • /
    • pp.43-52
    • /
    • 2005
  • The common form of pre-emphasis filter is $H(z)\;=\;1\;- az^{-1}$, where a typically lies between 0.9 and 1.0 in voiced signal. Also, this value reflects the degree of filter and equals R(1)/R(0) in Auto-correlation method. This paper proposes a new flattening algorithm to compensate the weaked high frequency components that occur by vocal cord characteristic. We used interval information of LSP to estimate formant frequency. After obtaining the value of slope and inverse slope using linear interpolation among formant frequency, flattening process is followed. Experimental results show that the proposed algorithm flattened the weaked high frequency components effectively. That is, we could improve the flattened characteristics by using interval information of LSP as flattening factor at the process that compensates weaked high frequency components.

  • PDF

포먼트 주파수 추출 알고리즘들의 성능 비교평가 연구 (A Comparative Study on Formant Frequency Extraction Performances)

  • 손성용;김상진;김영민;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.141-144
    • /
    • 2003
  • In this paper, we compared formant frequency extraction algorithms with various conditions, and show their performances. The formant frequency is the resonance frequency which is decided by the vocal tract characteristics. It is related with phonemes, or characteristics of the physical condition of the vocal track. Since the speech signal is influenced by both the sound source and the vocal tract, it is difficult to calculate the exact formant frequencies. Many studies on the formant frequency extraction had been executed already Besides, any new formant frequency extraction algorithm is hardly found recently.

  • PDF

연속음성신호의 SNR 추정기법에 관한 연구 (A Study on SNR Estimation of Continuous Speech Signal)

  • 송영환;박형우;배명진
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.383-391
    • /
    • 2009
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.

집박쥐의 발성 시그널 발달에 관한 연구 (Development of Vocal Signals in the Pipistrellus abramus(Chiroptera: Vespertilionidae))

  • 정철운;한상훈;이정일
    • 한국환경생태학회지
    • /
    • 제24권2호
    • /
    • pp.202-208
    • /
    • 2010
  • 본 연구는 박쥐의 연령 증가에 따른 발성 초음파의 변화를 파악하기 위하여 집박쥐(Pipistrellus abramus)를 대상으로 생후 어린 개체가 발산하는 음을 이용하여 세부 분석을 실시하였다. 분석결과 어린 개체는 성체와 다른 복합적이고 다양한 형태의 시그널을 발산하는 것으로 확인되었다. 펄스의 형태는 생후 2일차에는 하모니의 수가 많고 불규칙적인 시그널 형태를 보였으며, 생후 10일차부터 20일 까지는 완만한 FM 시그널 형태를 보였다. 생후 30일 경에는 짧은 시간의 FM 시그널 형태를 보였으며, 40일 이후 점차 성체와 유사한 형태의 시그널을 발산하였다. 어린개체의 성장에 따른 발성 시그널을 분석한 결과 각각의 분석 항목별로 유의적인 차이가 있는 것으로 나타났다. 즉, 펄스의 지속시간(p<0.001), 펄스 간격(p<0.001), 하모니의 수(p<0.001)는 새끼의 연령이 증가할수록 감소하는 경향을 보였으며, 최고진동수(p<0.001), 개시진동수(p<0.001), 종말진동수(p<0.001)는 증가하는 결과를 보였다. 특히 펄스 간격은 생후 5일차에 가장 큰 변화를 보였으며, 그 외 펄스 지속시간, 최고진동수, 개시진동수, 종말진동수는 생후 25일차에 가장 큰 변화를 나타내었다.

감정 음성 인식을 위한 강인한 음성 파라메터 (Robust Speech Parameters for the Emotional Speech Recognition)

  • 이규현;김원구
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.681-686
    • /
    • 2012
  • 본 논문에서는 강인한 감정 음성 인식 시스템을 개발하기 위하여 감정의 영향을 적게 받는 음성 파라메터에 대한 연구를 수행하였다. 이러한 목적을 위하여 다양한 감정이 포함된 데이터를 사용하여 감정이 음성 인식 시스템과 음성 파라메터에 미치는 영향을 분석하였다. 본 연구에서는 멜 켑스트럼, 델타 멜 켑스트럼, RASTA 멜 켑스트럼, 루트 켑스트럼, PLP 계수와 성도 길이 정규화 방법에서 주파수 와핑된 멜 켑스트럼 계수를 사용하였다. 또한 신호 편의 제거 방법으로 CMS 방법과 SBR 방법이 사용되었다. 실험결과에서 성도정규화 방법을 사용한 RASTA 멜 켑스트럼, 델타 멜 켑스트럼 및 CMS 방법을 사용한 경우가 HMM 기반의 화자독립 단독음 인식 실험 결과에서 가장 우수한 결과를 나타내었다.