• 제목/요약/키워드: Vocal Detection

검색결과 34건 처리시간 0.028초

에너지와 위상을 고려한 선택적 주파수 차감법을 이용한 보컬 분리 (Vocal Separation Using Selective Frequency Subtraction Considering with Energies and Phases)

  • 김현태;박장식
    • 방송공학회논문지
    • /
    • 제20권3호
    • /
    • pp.408-413
    • /
    • 2015
  • 최근 원음 반주기에 대한 관심이 증가됨에 따라 고가의 스튜디오 직접 녹음 방법 대신 보다 저렴한 방법을 시도하고 있다. 그 구체적인 방법으로는 가수의 음악 앨범에서 가수의 목소리만 제거하여 원음 반주 음원을 만드는 것이다. 본 논문에서는 보컬이 포함된 구간에서 스테레오로 녹음된 반주음악에서 보컬을 분리하는 시스템을 제안한다. 제안하는 시스템은 두 단계로 구성된다. 첫 단계는 보컬을 검출하는 단계이다. 이 단계에서는 MFCC를 가지고 SVM 방법을 이용하여 입력 신호를 보컬 부분과 비보컬 부분으로 분리한다. 두 번째 단계에서는 보컬 부분에 대해 각 주파수 빈별로 선택적 주파수 차감을 수행한다. 이 때 채널 신호의 주파수 빈별로 에너지 값 뿐만 아니라 위상까지 고려하여 차감 여부를 판별한다. 제안하는 방법으로 보컬을 제거한 음악에 대한 청취 실험에서 상대적으로 높은 만족도를 보여준다.

Electroglottographic Measurements of Glottal Function in Voice according to Gender and Age

  • Ko, Do-Heung
    • 말소리와 음성과학
    • /
    • 제3권1호
    • /
    • pp.97-102
    • /
    • 2011
  • Electroglottography (EGG) is a common method for providing non-invasive measurements of glottal activity. EGG has been used in vocal pathology as a clinical or research tool to measure vocal fold contact. This paper presents the results of pitch, jitter, and closed quotient (CQ) measurements in electroglottographic signals of young (mean = 22.7 years) and elderly (mean = 74.3 years) male and female subjects. The sustained corner vowels /i/, /a/, and /u/ were measured at around 70 dB SPL since the most notable among EGG variables is the phonation intensity, which showed positive correlation with closed phase. The aim of this paper was to measure EGG data according to age and gender. In CQ, there was a significant difference between young and elderly female subjects while there was no significant difference between young and elderly male subjects. The mean value for young males was higher than that for elderly males while the mean value for young females was lower than that for elderly females. Thus, it can be said that in mean values, increased CQ was related to decreased age for females, while CQ decreased for males as the speaker's age decreased. Although the laryngeal degeneration due to increased age seems to occur to a lesser extent in females, the significant increase of CQ in elderly female voices could not be explained in terms of age-related physiological changes. In standard deviation of pitch and jitter, the mean values for young and elderly males were higher than that for young and elderly females. That is, male subjects showed higher in mean values of voice variables than female subjects. This result could be considered as a sign of vocal instability in males. It was suggested that these results may provide powerful insights into the control and regulation of normal phonation and into the detection and characterization of pathology.

  • PDF

성대 영상에서 에너지를 이용한 관심 영역 추출 (Region-of-Interest Detection using the Energy from Vocal Fold Image)

  • 김엄준;성미영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권8호
    • /
    • pp.804-814
    • /
    • 2000
  • 본 논문에서는 비데오스트로보키모그래피(Videostrobokymography) 시스템에서 영상중의 관심 영역을 추출하는 효율적인 방법을 소개하고자 한다. 비데오스트로보키모그래피는 성대 운동의 불규칙적인 움직임을 판단하여 자동으로 진단 파라미터를 구하는 의료 영상 시스템이다. 본 논문에서는 세 가지의 단계를 거쳐서 관심 영역을 추출하고 있다. 첫 번째로 최소 에너지를 이용하여 관심 영역의 중심이 되는 부분을 찾는다. 관심 영역 내에 있는 특징 점을 추출한 후 두 번째 단계로 한 라인(line) 영역에 대해 가로축을 따라서 평균값에 의한 에지를 선택한다. 최종 단계에서는 이 특징 값을 합병 알고리즘(merge algorithm)의 임계값으로 사용하여 관심 영역을 추출한다. 제안하는 알고리즘을 19명의 성대 영상에 적용하여 분석한 결과 성대를 촬영한 95%의 영상에서 관심 영역을 추출할 수 있었다. 본 연구에서 제안하는 관심 영역 추출 방법은 계산 량이 적어 200${\times}$280 크기의 영상을 초당 약 40프레임이상 처리하여 관심 영역을 추출할 수 있어 매우 효율적이다.

  • PDF

The Value of I-Scan Image-Enhanced Endoscopy in the Diagnosis of Vocal Cord Leukoplakia

  • Lee, Young Chan;Eun, Young-Gyu;Park, Il-Seok
    • 대한후두음성언어의학회지
    • /
    • 제29권2호
    • /
    • pp.98-102
    • /
    • 2018
  • Background and Objectives : Detection of vascular abnormalities in vocal cord (VC) leukoplakia is important for the diagnosis of neoplastic change of the mucosa. The aim of this study was to investigate the value of i-scan in the differential diagnosis of VC leukoplakia based on visualization of abnormal vascular features. Material and Methods : Fifty-two patients with leukoplakia were enrolled in the study. Images of their larynx obtained using conventional white light endoscopy and an i-scan-enhanced endoscopy (Pentax DEFINA EPK-3000 Video Processors, with Pentax VNLJ10) were reviewed. The microvascular features of the lesions and vascular changes were analyzed and the results were compared with the histopathologic diagnosis. Results : Among the 52 leukoplakia patients, 7 (13.5%) patients had squamous hyperplasia, 10 (19.3%) mild dysplasia, 2 (3.8%) moderate dysplasia, 14 (26.9%) severe dysplasia, 4 (7.7%) carcinoma in situ, and 15 (28.8%) invasive squamous cell carcinoma on histopathologic examination. Using i-scan-enhanced endoscopy, abnormal vascular change with neoplastic neoangiogenesis was detected in most cases of malignant VC lesion [severe dysplasia : 9/14 (64.3%), carcinoma in situ: 2/4 (50.0%), and invasive squamous cell carcinoma : 11/15 (73.4%)]. Conclusion : i-scan-enhanced endoscopy is a useful optical technique for the diagnosis of VC leukoplakia. Our results suggest that i-scan may be a promising diagnostic tool in the early detection of laryngeal cancer.

Discrimination of Pathological Speech Using Hidden Markov Models

  • Wang, Jianglin;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제13권3호
    • /
    • pp.7-18
    • /
    • 2006
  • Diagnosis of pathological voice is one of the important issues in biomedical applications of speech technology. This study focuses on the discrimination of voice disorder using HMM (Hidden Markov Model) for automatic detection between normal voice and vocal fold disorder voice. This is a non-intrusive, non-expensive and fully automated method using only a speech sample of the subject. Speech data from normal people and patients were collected. Mel-frequency filter cepstral coefficients (MFCCs) were modeled by HMM classifier. Different states (3 states, 5 states and 7 states), 3 mixtures and left to right HMMs were formed. This method gives an accuracy of 93.8% for train data and 91.7% for test data in the discrimination of normal and vocal fold disorder voice for sustained /a/.

  • PDF

후두 스트로보스코프 검사의 신호 동기화를 위한 진동 검출기의 유용성 (Usefullness of the Vibration Pick-Up in Detection of Pitch for Synchronization of Laryngeal Stroboscopy)

  • 이진춘;이병주;왕수건;노정훈;권순복;조철우
    • 대한후두음성언어의학회지
    • /
    • 제18권1호
    • /
    • pp.26-32
    • /
    • 2007
  • Objective and Background: Laryngeal stroboscope is an useful equipment in evaluation of vocal cord vibration and in early detection of mucosal lesion including invasive cancer of the vocal cord. Recently Lee et al. (2006) developed portable stroboscope using voice as synchronization signal. It has been frequently impaired ability to synchronize the flashes even in normal female. Authors tried to investigate various methods including vibration pick-up, microphone, laryngeal microphone, and contact microphone for development of simple and accurate method like electroglottograph signal. The purpose of this study was to estimate wheher the vibration pick-up is available and is consistent with the signal of EGG. Subjects and Methods: Authors compared the signals between EGG and noncontact method such as voice, contact methods including vibration pick-up, laryngeal microphone, and contact microphone in normal twenty adults (male 10 and female 10). The number of peak in one cycle was compared with the number of the peak in EGG, and the percent of phase difference in the peak was compared with EGG Also, authors tried to investigate which site of vibration pick-up was most effective for synchronization of stobo flashes. Three site including anterior neck below the cricoid cartilage, thyroid ala, and suprahyoid region were analysed. Results: Among various methods for synchronization of strobo flashes, vibration pick-up was most effective method in peak detection. And anterior neck below cricoid cartilage was the most available site of the vibration pick-up. Conclusion: Authors suggest that vibration pick-up is most available and effective method for synchronization of strobo flashes.

  • PDF

피치 검출과 퍼지화 패턴을 이용한 숫자음 화자 인식에 관한 연구 (A Study on Number sounds Speaker recognition using the Pitch detection and the Fuzzified pattern)

  • 김연숙;김희주;김경재
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.73-79
    • /
    • 2003
  • 본 논문에서는 피치 검출과 퍼지화 패턴 매칭을 포함하는 화자 인식 알고리즘을 제안한다. 음의 개성을 표현하는 피치를 이용한 피치 패턴을 사용하고 음성의 파라미터는 2진화 스펙트럼을 사용한다. 비선형적인 발성 시간에 따른 시간 변동의 폭을 모두 포함할 수 있도록 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속 함수를 이용하여 표준 패턴을 작성하고 퍼지화 패턴 매칭을 이용하여 인식을 수행한다.

  • PDF

PVPF방법과 퍼지 이론을 이용한 한국어, 영어 및 일본어 화자 인식에 관한 연구 (A Study on Korean, English and Japanese Speaker Recognitions Using the Peak and Valley Pitch Detection and the Fuzzy Theory)

  • 김연숙
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.522-533
    • /
    • 1999
  • 본 논문에서는 피지 파라미터와 퍼지 추론을 포함한 화자 인식 알고리즘을 제안한다. 시간영역에서 검출 알고리즘의 장점인 잡음에 강인함을 가진 PVPF 법을 제안하여 피치를 검출한다. 또한 화자 인식에서 특징량들의 애매성을 표현하고 인식하는 방법으로 퍼지 이론을 도입하였다. PVPF는 음의 시간적인 특징을 이용하여 국부적으로 봉우리와 골을 이룬다는 것을 이용한 계산량이 적고 잡음에 강인한 피치 검출법이다.

  • PDF

2-채널 (음성 및 EGG) 신호 분석에 의한 피치검출 (Pitch Detection by the Analysis of Speech and EGG Signals)

  • 신무용;김정철;배건성
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.5-12
    • /
    • 1996
  • 본 연구에서는 음성 및 EGG 신호를 2-채널 피치검출 알고리즘을 제안하였다. 성대의 떨림에 관한 정확한 정보를 얻을 수 있는 EGG 신호를 이용함으로써 음성신호로부터 피치를 검출하고자 할 때 수반되는 문제점들을 최소화 할 수 있으며, EGG 신호의 왜곡 및 불규칙한 변화는 음성신호의 분석을 통해 보완해 줌으로써 시간영역에서 음성신호에 동기된 정확한 피치 marker를 검출하였다. 2-채널 피치검출 알고리즘은 음성신호만을 이용한 일반적인 피치검출 알고리즘에 비해 보다 정확하고 개선된 피치궤적을 얻을 수 있음을 실험을 통해 보였으며, 따라서 새로이 개발되는 피치검출 알고리즘의 객관적인 비교 및 평가에 이용될 수 있다.

  • PDF

한국과 미국 방송사의 코로나19 뉴스에 대해 CNN 기반 정량적 음성 감정 양상 비교 분석 (Quantifying and Analyzing Vocal Emotion of COVID-19 News Speech Across Broadcasters in South Korea and the United States Based on CNN)

  • 남영자;채선규
    • 한국정보통신학회논문지
    • /
    • 제26권2호
    • /
    • pp.306-312
    • /
    • 2022
  • 전례 없는 코로나19 팬데믹 상황에서 대중의 정보에의 요구는 과도한 코로나19 뉴스 소비를 조장하였다. 뉴스는 대중의 심리적 안녕에도 영향을 미치기에 뉴스 보도 양태에 대한 각별한 주의가 요구된다. 이에 본 연구는 한국과 미국의 주요 뉴스 미디어의 코로나19 관련 뉴스의 음성 감정 양상을 합성곱 신경망에 기반하여 분석하였다. 분석 결과, 대부분의 뉴스 미디어에서 중립이 탐지되었으나 슬픔과 분노도 탐지되었다. 이러한 양상은한국의 뉴스 미디어에서 두드러진 반면 미국 뉴스 미디어에서는 나타나지 않았다. 본 연구는 코로나19 뉴스의 첫 음성 감정 분석 연구로, 뉴스의 감정 분석에 있어 새로운 방향을 제시할 뿐 아니라 팬데믹에 대한 이해 증진에 있어 광범위한 함의를 지닌다.