• 제목/요약/키워드: GMM(Gaussian Mixture Models)

검색결과 40건 처리시간 0.024초

GMM(Gaussian Mixture Model)을 적용한 영상처리기법의 연속류도로 사고 자동검지 알고리즘 개발 (Development of the Algofithm for Gaussian Mixture Models based Traffic Accident Auto-Detection in Freeway)

  • 오주택;임재극;여태동
    • 대한교통학회지
    • /
    • 제28권3호
    • /
    • pp.169-183
    • /
    • 2010
  • 영상기반의 교통정보수집시스템은 관리 및 운영상의 한계를 보이고 있는 기존의 루프검지기의 역할을 대체하는 검지기로써의 역할 뿐만 아니라 다양한 교통류의 정보를 제공하고 관리할 수 있으며, 교통사고의 발생전과 후의 순차적인 상황을 정확히 기록하고, 이 자료를 통해 발생된 교통사고의 사고 매커니즘을 객관적이고 명확하게 조명하고 분석하는 것은 교통사고 처리에 있어서 중요한 부분을 차지함으로서, 여러 나라에서 보급 활용되고 있다. 본 논문에서는, 기존 기술들이 연속류 도로의 특성인 속도변화, 교통량 변화, 점유율 변화와 같은 교통류 흐름을 반영하여 1차 예비판단을 실시하였다. 또한, 1차 예비판단된 경우 영상추출 및 처리를 통해 최종 사고판단을 실시하게 된다. 이 때, 도로상의 다양한 환경적 변화로 인해 극복하기 어려운 차량의 객체추출, 객체분리, 추적 등의 정확성을 확보하기 위해서 계산속도와 정확도 측면에서 우수함을 보이고 있는 Adaptive GMM(Gaussian Mixture Model) 기반으로 실시하였으며, 환경적인 요인으로 인해 자주 발생하고 있는 오 검지 상황들을 효과적으로 저감시킬 수 있는 능동적이고 환경적응적인 기법을 통해 사고 최종판단을 실시하였다. 이렇게 구현된 기술의 성능을 평가하고자 중부내륙 실험도로에서 12건의 사고 모의실험을 실시하였으며, 실제 운용되고 있는 장항IC에서의 사고영상을 실시간 온라인으로 입력받아 시험하였다. 결과적으로, 검지율 93.33%, 오검지 6.7%로 높은 신뢰성을 보였다.

과학수사를 위한 한국인 음성 특화 자동화자식별시스템 (Forensic Automatic Speaker Identification System for Korean Speakers)

  • 김경화;소병민;유하진
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.95-101
    • /
    • 2012
  • In this paper, we introduce the automatic speaker identification system 'SPO(Supreme Prosecutors Office) Verifier'. SPO Verifier is a GMM(Gaussian mixture model)-UBM(universal background model) based automatic speaker recognition system and has been developed using Korean speakers' utterances. This system uses a channel compensation algorithm to compensate recording device characteristics. The system can give the users the ability to manage reference models with utterances from various environments to get more accurate recognition results. To evaluate the performance of SPO Verifier on Korean speakers, we compared this system with one of the most widely used commercial systems in the forensic field. The results showed that SPO Verifier shows lower EER(equal error rate) than that of the commercial system.

후두질환 음성의 자동 식별 성능 비교 (Performance Comparison of Automatic Detection of Laryngeal Diseases by Voice)

  • 강현민;김수미;김유신;김형순;조철우;양병곤;왕수건
    • 대한음성학회지:말소리
    • /
    • 제45호
    • /
    • pp.35-45
    • /
    • 2003
  • Laryngeal diseases cause significant changes in the quality of speech production. Automatic detection of laryngeal diseases by voice is attractive because of its nonintrusive nature. In this paper, we apply speech recognition techniques to detection of laryngeal cancer, and investigate which feature parameters and classification methods are appropriate for this purpose. Linear Predictive Cepstral Coefficients (LPCC) and Mel-Frequency Cepstral Coefficients (MFCC) are examined as feature parameters, and parameters reflecting the periodicity of speech and its perturbation are also considered. As for classifier, multilayer perceptron neural networks and Gaussian Mixture Models (GMM) are employed. According to our experiments, higher order LPCC with the periodic information parameters yields the best performance.

  • PDF

GMM 기반 실시간 문맥독립화자식별시스템의 성능향상을 위한 프레임선택 및 가중치를 이용한 Hybrid 방법 (Hybrid Method using Frame Selection and Weighting Model Rank to improve Performance of Real-time Text-Independent Speaker Recognition System based on GMM)

  • 김민정;석수영;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.512-522
    • /
    • 2002
  • 본 논문에서는 GMM(Gaussian Mixture Model)에 기반한 실시간문맥독립화자식별시스템[1][2]의 성능향상을 위하여 프레임선택(Frame Selection)방법과 프레임가중치(Weighting Model Rank)방법을 혼합한 hybrid방법을 제안한다. 본 시스템에서는 GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법과 인식 알고리즘으로 ML(Maximum Likelihood)을 기본적으로 사용하였다. 제안한 hybrid 방법은 두 단계로 이루어진다. 첫째, 화자모델과 테스트 데이터를 이용하여 프레임단위로 유사도를 계산하고, 가장 큰 유사도 값과 두 번째로 큰 유사도 값의 차를 계산한 후, 차가 문턱치보다 큰 프레임만을 선택한다 두 번째로, 선택되어진 프레임에서 계산되어진 유사도 값 대신에 가중치 값을 사용하여 전체 스코어를 계산한다. 특징 파라미터로서는 켑스트럼과 회귀계수를 사용하였으며, 학습과 테스트를 위한 데이터베이스는 채집기간이 다른 여러 데이터베이스들로 구성되어 있으며, 실험을 위한 데이터는 임의의 단어를 선택하여 사용하였다. 화자인식실험은 기본 시스템에 프레임선택방법, 프레임가중치방법, 제안한 Hybrid방법을 각각 적용하여 실험하였다. 실험결과, 프레임선택방법에 비해 평균 4%, 프레임가중치방법에 비해 평균 1%의 인식률 향상을 보여, 본 논문에서 적용한 hybrid방법의 유효성을 확인하였다.

  • PDF

화자인증 시스템에서 선정 방법에 관한 연구 (A Study on Background Speaker Selection Method in Speaker Verification System)

  • 최홍섭
    • 음성과학
    • /
    • 제9권2호
    • /
    • pp.135-146
    • /
    • 2002
  • Generally a speaker verification system improves its system recognition ratio by regularizing log likelihood ratio, using a speaker model and its background speaker model that are required to be verified. The speaker-based cohort method is one of the methods that are widely used for selecting background speaker model. Recently, Gaussian-based cohort model has been suggested as a virtually synthesized cohort model, and unlike a speaker-based model, this is the method that chooses only the probability distributions close to basic speaker's probability distribution among the several neighboring speakers' probability distributions and thereby synthesizes a new virtual speaker model. It shows more excellent results than the existing speaker-based method. This study compared the existing speaker-based background speaker models and virtual speaker models and then constructed new virtual background speaker model groups which combined them in a certain ratio. For this, this study constructed a speaker verification system that uses GMM (Gaussin Mixture Model), and found that the suggested method of selecting virtual background speaker model shows more improved performance.

  • PDF

GrabCut을 이용한 IR 영상 분할 (IR Image Segmentation using GrabCut)

  • 이희열;이은영;구은혜;최일;최병재;류강수;박길흠
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.260-267
    • /
    • 2011
  • 본 논문은 GrabCut 알고리듬을 기반으로 적외선(infrared; IR) 영상에서 물체를 배경으로부터 분할하는 방법을 제안한다. GrabCut 알고리듬은 관심 있는 물체를 둘러싸는 윈도우가 필요하며, 이는 사용자가 설정한다. 그렇지만 이 알고리듬을 영상 시이퀀스에서 물체인식에 적용하려면 윈도우의 로케이션이 자동으로 결정되어야만 한다. 이를 위해서 본 논문에서는 Otsu 알고리듬으로 한 영상에서 관심은 있으나 알져지지 않는 물체를 적당히 분할하고 블랍 해석을 통해 윈도우를 자동으로 로케이션한다. 그랩 컷 일고리듬은 관심있는 물체와 배경의 확률분포를 추정해야한다. 이 경우에 관심 있는 물체의 확률분포는 자동으로 로케이션된 윈도우 내부의 화소들로부터 추정하고, 배경의 확률 분포는 물체의 윈도우를 둘러싸고 면적은 동일한 영역으로부터 추정한다. 다양한 IR 영상에 대한 분할 실험을 통해 제안한 분할 방법이 IR 영상의 분할에 적합함을 보이고, 기존의 IR 영상 분할 방법과의 비교 및 분석을 통해 제안 알고리듬이 우수한 분할 성능을 보임을 증명한다.

객체 예측을 이용한 고속 MOG 알고리즘 (Fast MOG Algorithm Using Object Prediction)

  • 오정수
    • 한국정보통신학회논문지
    • /
    • 제18권11호
    • /
    • pp.2721-2726
    • /
    • 2014
  • 배경제거를 위해 GMM(Gaussian Mixture Models)을 이용하는 MOG(Model of Gaussian) 알고리즘에서 각 화소들에서 수행될 모델변수 계산과 객체 분류는 방대한 계산을 요구하여 MOG 알고리즘의 활용들에 큰 걸림돌이 되고 있다. 본 논문은 객체 예측을 근간으로 단순한 모델변수 계산과 객체 분류 생략을 부분적으로 수행하는 고속 MOG 알고리즘을 제안한다. 전자는 모델변수에 거의 영향을 주지 않는 화소에서 적용되고, 후자는 객체 예측이 확실히 믿을만한 화소에 적용된다. 동영상을 이용한 기존 알고리즘과 제안된 알고리즘의 비교 실험에서 제안된 알고리즘은 단순 모델변수 계산과 객체 분류 생략을 각각 77.75%와 92.97% 이상을 수행하지만 영상 단위와 이동 객체 단위의 평균 분류 정확도 측면에서 각각 99.98% 이상과 99.36% 이상을 유지시켜 주고 있다.

Mean Shift 분석을 이용한 그래프 컷 기반의 자동 칼라 영상 분할 (Graph Cut-based Automatic Color Image Segmentation using Mean Shift Analysis)

  • 박안진;김정환;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권11호
    • /
    • pp.936-946
    • /
    • 2009
  • 그래프 컷(graph cuts) 방법은 주어진 사전정보와 각 픽셀간의 유사도를 나타내는 데이터 항(data term)과 이웃하는 픽셀간의 유사도를 나타내는 스무드 항(smoothness term)으로 구성된 에너지 함수를 전역적으로 최소화하는 방법으로, 최근 영상 분할에 많이 이용되고 있다. 기존 그래프 컷 기반의 영상 분할 방법에서 데이터 항을 설정하기 위해 GMM(Gaussian mixture model)을 주로 이용하였으며, 평균과 공분산을 각 클래스를 위한 사전정보로 이용하였다. 이 때문에 클래스의 모양이 초구(hyper-sphere) 또는 초타원(hyper-ellipsoid)일 때만 좋은 성능을 보이는 단점이 있다. 다양한 클래스의 모양에서 좋은 성능을 보이기 위해, 본 논문에서는 mean shift 분석 방법을 이용한 그래프 컷 기반의 자동 영상분할 방법을 제안한다. 데이터 항을 설정하기 위해 $L^*u^*{\upsilon}^*$ 색상공간에서 임의로 선택된 초기 mean으로부터 밀도가 높은 지역인 모드(mode)로 이동하는 mean의 집합들을 사전정보로 이용한다. Mean shift 분석 방법은 군집화에서 좋은 성능을 보이지만, 오랜 수행시간이 소요되는 단점이 있다. 이를 해결하기 위해 특징공간을 3차원 격자로 변형하였으며, mean의 이동은 격자에서 모든 픽셀이 아닌 3차원 윈도우내의 1차원 모멘트(moment)를 이용한다. 실험에서 GMM을 이용한 그래프 컷 기반의 영상분할 방법과 최근 많이 이용되고 있는 mean shift와 normalized cut기반의 영상분할 방법을 제안된 방법과 비교하였으며, Berkeley dataset을 기반으로 앞의 세 가지 방법보다 좋은 성능을 보였다.

날씨·조명 판단 및 적응적 색상모델을 이용한 도로주행 영상에서의 이정표 검출 (Road Sign Detection with Weather/Illumination Classifications and Adaptive Color Models in Various Road Images)

  • 김태형;임광용;변혜란;최영우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.521-528
    • /
    • 2015
  • 도로주행 영상에서의 객체 검출에 관한 기존의 연구들은 날씨 및 조명 상태에 따른 객체 검출의 어려움 때문에 대부분 맑은 날씨의 영상을 대상으로 연구가 진행되었다. 본 논문에서는 도로주행 영상의 다양한 날씨 및 조명 상태를 먼저 판단하고, 이를 기반으로 도로 이정표에 대한 색상모델을 설정하여 이정표 객체를 찾는 방법을 제안한다. 제안한 방법은 5종류의 도로 이미지 특징을 이용하여 맑음, 흐림, 비, 야간, 역광으로 날씨 및 조명 상태를 먼저 분류하고, 각각의 상태에서 대상 이정표 색상의 픽셀값의 범위를 추출하여 GMM(Gaussian Mixture Model)을 생성하고 이를 객체 추출에 사용한다. 날씨 및 조명이 다양하게 변하는 도로주행 영상에 제안한 방법을 적용하여 이정표 영역이 안정적으로 찾아지는 것을 확인할 수 있었다.

휴대폰음성을 이용한 화자인증시스템에서 배경화자에 따른 성능변화에 관한 연구 (A Study on the Perlormance Variations of the Mobile Phone Speaker Verification System According to the Various Background Speaker Properties)

  • 최홍섭
    • 음성과학
    • /
    • 제12권3호
    • /
    • pp.105-114
    • /
    • 2005
  • It was verified that a speaker verification system improved its performances of EER by regularizing log likelihood ratio, using background speaker models. Recently the wireless mobile phones are becoming more dominant communication terminals than wired phones. So the need for building a speaker verification system on mobile phone is increasing abruptly. Therefore in this paper, we had some experiments to examine the performance of speaker verification based on mobile phone's voices. Especially we are focused on the performance variations in EER(Equal Error Rate) according to several background speaker's characteristics, such as selecting methods(MSC, MIX), number of background speakers, aging factor of speech database. For this, we constructed a speaker verification system that uses GMM(Gaussin Mixture Model) and found that the MIX method is generally superior to another method by about 1.0% EER. In aspect of number of background speakers, EER is decreasing in proportion to the background speakers populations. As the number is increasing as 6, 10 and 16, the EERs are recorded as 13.0%, 12.2%, and 11.6%. An unexpected results are happened in aging effects of the speech database on the performance. EERs are measured as 4%, 12% and 19% for each seasonally recorded databases from session 1 to session 3, respectively, where duration gap between sessions is set by 3 months. Although seasons speech database has 10 speakers and 10 sentences per each, which gives less statistical confidence to results, we confirmed that enrolled speaker models in speaker verification system should be regularly updated using the ongoing claimant's utterances.

  • PDF