• 제목/요약/키워드: 음성검출

검색결과 726건 처리시간 0.032초

소동물 PET기반 종양분할영역 위험구간변화에 따른 형태특성추출 (Extraction of the shape feature according to the risk area of the segmented tumor region based on the small-animal PET)

  • 이정민;김경민;김명희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.376-378
    • /
    • 2006
  • 본 논문에서는 소동물 양전자방출단층촬영 영상(Positron Emission Tomography, PET) 내 종양영역을 자동분할하고 분할된 윤곽선주변의 기하학적 위험구간에 따른 종양의 형태특성을 분석하기 위한 방법을 제시한다. PET 영상내 검출된 종양영역의 신뢰성을 위해 위음성(False negative, FN) 및 위양성(False positive, FP)의 위험구간을 같이 제공하는 것이 필요하다. 따라서, 방사선 특이적 특성이 반영된 명암값을 기반으로 Fuzzy C-Means(FCM) 클러스터링을 수행하여 종양영역을 자동 분할한다. 분활된 종양영역의 위험구간은 클러스터 간 공유되는 영역의 소속값을 이용하여 위음성, 위양성을 계산한다. 또한, 임의의 소속값 임계치 변화를 통해 위험구간의 변화에 따른 종양의 형태적 특성변화를 관측한다. 이러한 지역적 변화의 관측을 통해 위험구간의 형태학적 위치를 판단할 수 있어 위험구간에 따른 추가적인 잔여 암의 위치 및 형태 파악을 용이하게 한다.

  • PDF

빔포밍 및 DOA 기반의 마스킹을 이용한 2채널 잡음제거 (Two-Channel Noise Reduction Using Beamforming and DOA-Based Masking)

  • 김영일;정상배
    • 한국정보통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.32-40
    • /
    • 2013
  • 본 논문에서는 빔포밍과 입사각분석 기반 마스킹을 이용한 다채널 음성개선 알고리즘이 제안된다. 제안된 알고리즘에서는 LCMV 빔포밍을 수행한 후에 입사각 분석을 이용한 멜-주파수 위너필터가 적용되어 잔존하는 잡음을 제거한다. 성능 향상을 위해서 빔포밍의 적응 필터 학습률과 목표 음성 스펙트럼 검출을 위한 입사각 임계치가 최적화된다. 성능 지수로서 PESQ와 출력 SNR이 측정되었으며 실험 결과 제안한 알고리즘이 종전의 최소분산 빔포밍 기법보다 PESQ 관점에서 0.09, 출력 SNR 관점에서 5.75 dB의 성능 향상시킴을 알 수 있었다.

청음 음성학적 지식에 기반한 음가분류에 의한 핵심어 검출 시스템 구현 (The Design of Keyword Spotting System based on Auditory Phonetical Knowledge-Based Phonetic Value Classification)

  • 김학진;김순협
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.169-178
    • /
    • 2003
  • This study outlines two viewpoints the classification of phone likely unit (PLU) which is the foundation of korean large vocabulary speech recognition, and the effectiveness of Chiljongseong (7 Final Consonants) and Paljogseong (8 Final Consonants) of the korean language. The phone likely classifies the phoneme phonetically according to the location of and method of articulation, and about 50 phone-likely units are utilized in korean speech recognition. In this study auditory phonetical knowledge was applied to the classification of phone likely unit to present 45 phone likely unit. The vowels 'ㅔ, ㅐ'were classified as phone-likely of (ee) ; 'ㅒ, ㅖ' as [ye] ; and 'ㅚ, ㅙ, ㅞ' as [we]. Secondly, the Chiljongseong System of the draft for unified spelling system which is currently in use and the Paljongseonggajokyong of Korean script haerye were illustrated. The question on whether the phonetic value on 'ㄷ' and 'ㅅ' among the phonemes used in the final consonant of the korean fan guage is the same has been argued in the academic world for a long time. In this study, the transition stages of Korean consonants were investigated, and Ciljonseeng and Paljongseonggajokyong were utilized in speech recognition, and its effectiveness was verified. The experiment was divided into isolated word recognition and speech recognition, and in order to conduct the experiment PBW452 was used to test the isolated word recognition. The experiment was conducted on about 50 men and women - divided into 5 groups - and they vocalized 50 words each. As for the continuous speech recognition experiment to be utilized in the materialized stock exchange system, the sentence corpus of 71 stock exchange sentences and speech corpus vocalizing the sentences were collected and used 5 men and women each vocalized a sentence twice. As the result of the experiment, when the Paljongseonggajokyong was used as the consonant, the recognition performance elevated by an average of about 1.45% : and when phone likely unit with Paljongseonggajokyong and auditory phonetic applied simultaneously, was applied, the rate of recognition increased by an average of 1.5% to 2.02%. In the continuous speech recognition experiment, the recognition performance elevated by an average of about 1% to 2% than when the existing 49 or 56 phone likely units were utilized.

조정 응답 파워 방법과 결합된 generalized cross correlation with phase transform 음원 위치 추정 (Generalized cross correlation with phase transform sound source localization combined with steered response power method)

  • 김영준;오민재;이인성
    • 한국음향학회지
    • /
    • 제36권5호
    • /
    • pp.345-352
    • /
    • 2017
  • 본 논문에서는 잔향과 잡음이 존재하는 실제 환경을 모델링하여 두 개의 마이크로폰을 이용한 음원 위치추정의 정확성을 향상시키는 방법을 제안하였다. 입력신호에 VAD(Voice Activity Detection)를 적용하여 묵음 구간을 제외한 음성 구간만을 사용하였고, 샘플링 주파수의 제한으로 인한 측정 범위를 벗어나는 프레임은 업샘플링(up-sampling)을 통해 지연시간을 다시 추정하였다. 여기서 계산된 도착 지연 시간은 Time-table을 참조해 주변 후보위치의 지연 값들과의 비교로 최대 파워 값을 갖는 지연 시간을 선택하여 음원 위치의 정확도를 높였다. 또한 프레임간의 상관성을 이용하여 연속된 음성 프레임의 경우 큰 추정 차가 발생하는 곳을 찾아 주변 프레임의 평균값으로 대체함으로써 음원의 위치 추정 성능을 향상시켰다.

ELISA 및 간접 latex 응집반응검사에 의한 임산부의 항 톡소포자충 항체가 (Toxoplasma antibody titers by ELISA and indirect latex agglutination test in pregnant women)

  • 류재숙;민득영
    • Parasites, Hosts and Diseases
    • /
    • 제34권4호
    • /
    • pp.233-238
    • /
    • 1996
  • 이 연구에서는 경기도 양평군 및 광주군에 사는 임산부 899명을 대상으로 IgG-ELISA와 간접 latex 응집반응검사를 시행하여 톡소포자충에 대한 항체가를 측정하였다. IgG-ELISA에서는 0.25 이상을 양성기준으로 하였을 때 음성대조군 218명 중 4명이 양성(1.8%)인 반면 임산부에서는 39 명이 양성으로 검출되어 4.3%의 양성율을 보였다. 간접 latex 응집반응검사는 수의과학연구소에서 만든 킷트(LAT)를 사용하였는데 1:64 희석배수 이상을 양성으로 하였을 때 음성대조군은 모두 음성반응을 보였고 임산부에서는 7명(0.8%)이 양성을 보였다. 임산부중에서 1.8 이상의 반응을 보인 80명을 대상으로 일본제품인 Toxotest-MF를 적용시키고 1:32 이상을 양성의 기준으로 하였을 때 임산부 8명에서 양성반응을 보였다. LAT와 Toxotest-MT의 두 반응간의 일치율은 0.94(${\kappa}-index$ = 0.632. p < 0.01)로 높은 일치율(fair to good agreement)을 보였으므로 LAT는 톡소포자충증의 예비진단에 이용될 수 있을 것으로 생각된다.

  • PDF

히스토그램 기반의 과추정 방식을 이용한 잡음에 강인한 음성인식 (Noise-Robust Speech Recognition Using Histogram-Based Over-estimation Technique)

  • 권영욱;김형순
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.53-61
    • /
    • 2000
  • 잡음환경에서의 음성인식 성능향상을 위해서는 서로 다른 잡음환경으로 인한 mismatch를 줄이는 것이 중요하다. 이를 위해 계산이 간단하고 잡음환경에서 비교적 우수한 성능을 내고 있는 스펙트럼 차감법이 널리 사용되고 있다. 본 논문에서는 스펙트럼 차감법을 적용하기 위한 잡음 스펙트럼 추정방법으로 히스토그램 처리방법을 도입한다. 히스토그램 처리방법은 음성이 아닌 구간의 검출이 필요없으며 시간에 따라 변화하는 시변잡음에도 적용 가능한 장점이 있다. 그러나 히스토그램 처리방법으로 신뢰도 높은 잡음 스펙트럼의 평균값을 추정하더라도 스펙트럼 차감법을 적용했을 때의 잔여 잡음의 문제가 발생한다. 이를 해결하기 위하여 잡음추정 과정에 사용되었던 히스토그램의 분포특성을 고려한 새로운 over-estimation 적용방식을 제안한다. 제안된 방식은 측정된 잡음의 분포에 따라 적응적으로 over-estimation의 정도를 결정함으로써 SNR 변화에 따른 영향이 적은 장점이 있다. 자동차 소음 환경에서의 화자독립 고립단어 인식실험 결과, 기존의 over-estimation factor를 적용한 경우보다 제안된 방식의 인식성능이 개선되었다.

  • PDF

음소판별필터를 이용한 한국어 단음절 음성인식 (Speech Recognition on Korean Monosyllable using Phoneme Discriminant Filters)

  • 허성필;정현열;김경태
    • 한국음향학회지
    • /
    • 제14권1호
    • /
    • pp.31-39
    • /
    • 1995
  • 선형판별함수를 이용하여 음소단위의 판별필터를 구성하였다. 음소판별필터를 이용한 음성인식 시스템은 발성구간의 검출에 유용하고, 음성의 구분과 식별을 동시에 시행할 수 있으며 모든 음소를 동일한 인식모델로 취급하는 것이 가능하였다. 이 때 전문가의 경험적 지식을 이용하지 않고 수리적인 반복학습방법으로 시스템을 구성한 것이 특징이다. 모든 음소판별필터는 독립적으로 동작하므로 하나의 음소구간에 대해 복수필터 출력이 발생될 수 있으며, 발성구간의 음소가 탈락하는 경우도 있다. 따라서 본 연구에서는 무게벡터와 패턴벡터와의 내적에 통합계수를 이용하여 최대값을 선택하는 방법으로 다수개의 경합출력을 하나로 통합하였으며, 동시에 시간적인 정보와 중간값필터를 이용하여 탈락과 오인식되는 음소를 보상하므로써 인식율을 향상시켰다. 인식실험결과 모음의 경우 학습용자료에서는 $96.5\%$, 평가용자료에서는 $87.6\%$의 인식율을 얻었고, 자음은 각각 $84.0\%,70.8\%$의 음소인식율을 얻었다.

  • PDF

보안성을 갖는 음성 및 데이터 트랜시버의 물리 계층 구조 설계 (Design of the PHY Structure of a Voice and Data Transceiver with Security)

  • 은창수;임선민;이경민
    • 대한전자공학회논문지TC
    • /
    • 제43권10호
    • /
    • pp.46-54
    • /
    • 2006
  • 본 논문에서는 기존의 아날로그 트랜시버가 가지고 있는 단점을 극복하기 위한 디지털 트랜시버를 제안한다. 제안된 트랜시버는 불연속적인 협대역 채널들로 구성된 환경에서 사용된다고 가정하였다. 그리고 어느 정도의 보안성을 가지며 개인 대(對) 개인뿐만 아니라, 개인 대(對) 그룹, 그룹 대(對) 그룹의 음성 및 데이터 통신이 가능하여야 하며, 음성과 데이터를 동시에 전송할 경우 1 Mbps의 데이터 율을 가져야 한다고 가정하였다. 주파수 대역의 제한 때문에 FH-SS(Frequency Hopping-Spread Spectrum) 방식을, 구현의 복잡성 때문에 D8PSK(Differential 8 Phase Shift Keying) 방식을 채택하였다. 반송파와 심볼 타이밍 복원을 위해 IEEE 802.11 FHSS 프레임 구조를 바탕으로 새로운 프리앰블 구조를 제안하여 검출 확률을 높였다. 전산 모의 실험과 전력 계산을 통하여 제안된 시스템은 아날로그 워키토키와 같은 간단한 무선 통신에 사용될 수 있음을 보였다.

모바일 디바이스 기반의 멀티 모달 사용자 거리 추정 시스템 (Multi-Modal User Distance Estimation System based on Mobile Device)

  • 오병훈;홍광석
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.65-71
    • /
    • 2014
  • 본 논문에서는 모바일 디바이스에 기본적으로 제공되는 모노 카메라와 모노 마이크의 멀티 모달 입력을 통하여 사용자와 모바일 디바이스간의 거리를 추정하는 방법을 제안한다. 영상을 이용한 거리 추정은 모노 카메라로 입력되는 영상에서 피부색 영역을 추출하고, 노이즈를 제거한 후에 얼굴 영역 및 눈 영역을 검출하여 사용자의 거리를 추정한다. 음성을 이용한 거리 추정은 모노 마이크로 입력되는 음성으로부터 가장 큰 피크(Peak)를 선정하고, ROI(Region of Interest)를 지정한 후에 FFT(Fast Fourier Transform)을 수행하여 주파수 축에서의 크기(Magnitude)를 계산한다. 계산된 크기 값과 거리별 크기 값의 모델을 비교하여 거리 별 우도(Likelihood)를 계산하고, 정렬한 후 가중치를 주어 더함으로써 사용자의 거리를 추정한다. 실험결과 영상 및 음성을 멀티 모달 입력으로 이용하여 거리를 추정한 결과 단일 모달로 거리를 추정한 결과 보다 향상된 결과를 얻을 수 있었다.

음성의 묵음구간 검출을 통한 DTW의 성능개선에 관한 연구 (A Study on the Improvement of DTW with Speech Silence Detection)

  • 김종국;조왕래;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.117-124
    • /
    • 2003
  • Speaker recognition is the technology that confirms the identification of speaker by using the characteristic of speech. Such technique is classified into speaker identification and speaker verification: The first method discriminates the speaker from the preregistered group and recognize the word, the second verifies the speaker who claims the identification. This method that extracts the information of speaker from the speech and confirms the individual identification becomes one of the most efficient technology as the service via telephone network is popularized. Some problems, however, must be solved for the real application as follows; The first thing is concerning that the safe method is necessary to reject the imposter because the recognition is not performed for the only preregistered customer. The second thing is about the fact that the characteristic of speech is changed as time goes by, So this fact causes the severe degradation of recognition rate and the inconvenience of users as the number of times to utter the text increases. The last thing is relating to the fact that the common characteristic among speakers causes the wrong recognition result. The silence parts being included the center of speech cause that identification rate is decreased. In this paper, to make improvement, We proposed identification rate can be improved by removing silence part before processing identification algorithm. The methods detecting speech area are zero crossing rate, energy of signal detect end point and starting point of the speech and process DTW algorithm by using two methods in this paper. As a result, the proposed method is obtained about 3% of improved recognition rate compare with the conventional methods.

  • PDF