• 제목/요약/키워드: Illumination robustness

검색결과 62건 처리시간 0.023초

동적 환경에서의 립리딩 인식성능저하 요인분석에 대한 연구 (A Study on Analysis of Variant Factors of Recognition Performance for Lip-reading at Dynamic Environment)

  • 신도성;김진영;이주헌
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.471-477
    • /
    • 2002
  • 최근 립리딩에 대한 연구는 음성인식방법에 있어서 부가적인 정보를 제공하여 잡음환경에서 견인한 음성 인식을 하거나 음성정보의 부가적인 특징벡터로 사용하기 위한 방법으로 연구되고 있다. 그러나 립리딩 연구의 대부분은 실험실 환경하의 제한된 결과로서, 실제 다양한 동적 환경에서의 견인성에 대해서는 연구된 바가 없다. 현재 우리는 입술정보만을 이용한 자동22단어 인식기를 만들었으며, 이미지 기반 립리딩의 성능은 53.54%의 성능을 가지고 있다. 본 연구에서는 기 구현된 립리딩 시스템을 기반으로 하여, 립리딩 성능이 환경 적인 변화에 대해서 얼마나 안정할 수 있는지, 그리고 립리딩의 인식성능 저하를 일으키는 주요 요인이 무엇인지에 대하여 연구하였다. 입술이미지의 동적 변이로서는 이동, 회전. 크기변화와 같은 공간적 변화와 빛에 의한 조명변화를 고려하였다. 실험용 데이터로는 영상변환에 의한 시뮬레이션 된 데이터와 동적 변화가 심한 자동차 환경에서 수집한 데이터를 사용하였다. 실험결과 입술의 공간 변화가 인식성능 저하의 한가지 요인으로 작용함을 발견하였다. 그러나 실제적으로 공간변화보다 더 심각한 성능저하 원인은 시간흐름에 따른 조명조건의 변화로써 70%이상의 왜곡이 발생했다. 따라서 신뢰할 수 있는 립리딩 시스템 구현을 위해서 고려해야 할 가장 큰 요인은 빛의 변화임을 발견할 수 있었다.

능동적 조명을 이용한 실시간 복합 얼굴 검출 (Real-Time Multiple Face Detection Using Active illumination)

  • 한준희;심재창;설증보;나상동;배철수
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.155-160
    • /
    • 2003
  • 본 논문에서는 동공 검출을 이용한 얼굴 검출 방법을 제안하고자 한다. 동공검출기는 눈의 역반사 특성을 이용한 능동적 조명을 사용하여 검출을 용이하도록 하였고. 제안된 방법의 검출 범위는 소형컴퓨터나 무인정보 단말기 등의 활용에 적합하도록 하였다. 동공 후보 영역을 계산하여 검출한 후, 학습 규칙을 사용하여 얼굴에 대응하는 두 개의 지점을 선택하도록 하였다. 얼굴 검출 성능을 증명하기 위하여, 얼굴의 최대 돌출 부위를 지정 할 수 있는 이중 모드의 얼굴 추적 장치를 개발하였다. 추정치와 복합 얼굴 검출기의 측정치를 결합하여 특징 관계를 추적함으로 처리의 안정성을 높였으며 또한, 실시간으로 서보의 제어 장치를 원격 조정하여 항상 카메라가 이미지의 중앙을 추적하도록 함으로서 얼굴의 위치를 추정할 수 있도록 하였다.

  • PDF

peA 와 KNN를 이용한 3차원 물체인식 (Three Dimensional Object Recognition using PCA and KNN)

  • 이기준
    • 한국콘텐츠학회논문지
    • /
    • 제9권8호
    • /
    • pp.57-63
    • /
    • 2009
  • 기존의 주성분 분석을 이용한 물체 인식 기술은 모델 영상내의 각각의 물체의 대표 값을 만든 후에 실험 영상을 물체 공간에 투영 시켜서 나온 성분과 대표 값의 거리를 비교하여 인식하게 된다. 그러나 단순히 기존의 방법인 point to point 방식인 단순 거리 계산은 오차가 많기 때문에 본 논문에서는 개선된 Class to Class 방식인 k-Nearest Neighbor을 이용하여 몇 개의 연속적인 입력영상에 대해 각 각의 모델영상들을 인식의 단위로 이용하였다. 또한, 물체 인식을 하는데 있어 본 논문에서 제안한 주성분 분석법은 물체 영상 자체를 계산하여 인식하는 게 아니라 물체 영상 공간이라는 고유 공간을 구성한 후에 단지 기여도가 큰 5개의 벡터로만 인식을 수행하기 때문에 자원 축소의 효과까지 얻을 수 있었다.

RGB-D 영상 포맷을 위한 결합형 무작위 Fern을 이용한 객체 검출 (Object Detection Using Combined Random Fern for RGB-D Image Format)

  • 임승욱;김유선;이시웅
    • 한국콘텐츠학회논문지
    • /
    • 제16권9호
    • /
    • pp.451-459
    • /
    • 2016
  • 객체 검출은 다양한 컴퓨터 비전 응용 분야의 핵심 기술이지만 조명 변화와 기하학적 왜곡에 강인성을 갖기 위해서는 막대한 계산이 필요한 기술이다. 최근에 이 문제를 분류기의 토대로 체계화함으로써 효과적으로 해결하기 위한 접근법들이 소개되고 있다. 그 중 무작위 fern 알고리즘은 단순한 구조와 높은 인식 성능으로 많은 관심을 받고 있다. 그러나 기존의 무작위 fern 알고리즘은 화소간의 밝기 차이만으로 특징을 추출하고 있어 대조, 조명 변화와 같은 밝기 변화나 잡음에 대해 취약점을 갖는다. 본 논문에서는 기존의 무작위 fern의 단점을 개선하기 위해 패치의 기하학적 구조를 반영할 수 있는 깊이 정보를 결합시킨 결합형 무작위 fern을 새로이 제안하고 이를 이용한 객체 검출기의 성능 개선 방안을 제시한다. 모의실험을 통해 결합형 무작위 fern이 기존 방식보다 조명의 영향이나 잡음에 강인함을 보인다.

음성인식기 성능 향상을 위한 영상기반 음성구간 검출 및 적응적 문턱값 추정 (Visual Voice Activity Detection and Adaptive Threshold Estimation for Speech Recognition)

  • 송태엽;이경선;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.321-327
    • /
    • 2015
  • 본 연구에서는 음성인식기 성능향상을 위한 영상기반 음성구간 검출방법을 제안한다. 기존의 광류기반 방법은 조도변화에 대응하지 못하고 연산량이 많아서 이동형 플렛홈에 적용되는 스마트 기기에 적용하는데 어려움이 있고, 카오스 이론 기반 방법은 조도변화에 강인하지만 차량 움직임 및 입술 검출의 부정확성으로 인해 발생하는 오검출이 발생하는 문제점이 있다. 본 연구에서는 기존 영상기반 음성구간 검출 알고리즘의 문제점을 해결하기 위해 지역 분산 히스토그램(Local Variance Histogram, LVH)과 적응적 문턱값 추정 방법을 이용한 음성구간 검출 알고리즘을 제안한다. 제안된 방법은 조도 변화에 따른 픽셀 변화에 강인하고 연산속도가 빠르며 적응적 문턱값을 사용하여 조도변화 및 움직임이 큰 차량 운전자의 발화를 강인하게 검출할 수 있다. 이동중인 차량에서 촬영한 운전자의 동영상을 이용하여 성능을 측정한 결과 제안한 방법이 기존의 방법에 비하여 성능이 우수함을 확인하였다.

실시간 복합 얼굴 검출을 위한 추적 장치 개발 (Development of Tracking Equipment for Real­Time Multiple Face Detection)

  • 나상동;송선희;나하선;김천석;배철수
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1823-1830
    • /
    • 2003
  • 본 논문에서는 동공 검출 기술을 이용한 얼굴 검출 방법을 제안하고자 한다. 동공 검출기는 눈의 역 반사 특성을 이용한 능동적 조명을 사용하여 검출을 용이하도록 하였고. 제안된 방법의 검출 범위는 소형 컴퓨터나 무인 정보 단말기 등의 활용에 적합하도록 하였다. 동공 후보 영역을 계산하여 검출한 후, 학습 규칙을 사용하여 얼굴에 대응하는 두 개의 지점을 선택하도록 하였다. 얼굴 검출 성능을 증명하기 위하여, 얼굴의 최대 돌출 부위를 지정 할 수 있는 이중 모드의 얼굴 추적 장치를 개발하였다. 추정치 와 복합 얼굴 검출기의 측정치를 결합하여 특징 관계를 추적함으로 처리의 안정성을 높이었다. 또한, 실시간으로 서보의 제어장치를 원격 조정하여 항상 카메라가 이미지의 중앙을 추적하도록 함으로서 얼굴의 위치를 추정할 수 있도록 하였다.

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

Adaptive V1-MT model for motion perception

  • Li, Shuai;Fan, Xiaoguang;Xu, Yuelei;Huang, Jinke
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권1호
    • /
    • pp.371-384
    • /
    • 2019
  • Motion perception has been tremendously improved in neuroscience and computer vision. The baseline motion perception model is mediated by the dorsal visual pathway involving the cortex areas the primary visual cortex (V1) and the middle temporal (V5 or MT) visual area. However, few works have been done on the extension of neural models to improve the efficacy and robustness of motion perception of real sequences. To overcome shortcomings in situations, such as varying illumination and large displacement, an adaptive V1-MT motion perception (Ad-V1MTMP) algorithm enriched to deal with real sequences is proposed and analyzed. First, the total variation semi-norm model based on Gabor functions (TV-Gabor) for structure-texture decomposition is performed to manage the illumination and color changes. And then, we study the impact of image local context, which is processed in extra-striate visual areas II (V2), on spatial motion integration by MT neurons, and propose a V1-V2 method to extract the image contrast information at a given location. Furthermore, we take feedback inputs from V2 into account during the polling stage. To use the algorithm on natural scenes, finally, multi-scale approach has been used to handle the frequency range, and adaptive pyramidal decomposition and decomposed spatio-temporal filters have been used to diminish computational cost. Theoretical analysis and experimental results suggest the new Ad-V1MTMP algorithm which mimics human primary motion pathway has universal, effective and robust performance.

조명 변화에 안정적인 손 형태 인지 기술 (A Robust Hand Recognition Method to Variations in Lighting)

  • 최유주;이제성;유효선;이정원;조위덕
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.25-36
    • /
    • 2008
  • 본 논문은 조명의 변화가 심한 영상에서 손 형태를 안정적으로 인지하는 기법에 관한 것이다. 제안한 방법은 HSI 색상공간에서 색상(Hue) 및 색상 기울기(Hue-Gradient)를 기반으로 정의된 배경모델을 구축하고, 실시간으로 입력되는 영상과의 배경차분(background subtraction)기법을 이용하여 배경과 손을 구분한다. 추출된 손의 영역으로부터 18가지의 특징요소를 추출하고 이를 기반으로 다중클래스 SVM(Support Vector Machine) 학습 기법을 사용하여 손의 형태를 인지한다. 제안 기법은 색상 기울기를 배경 차분에 적용함으로써, 조명 환경이 배경 모델의 조명과 다르게 급격한 변화가 이루어졌을 때도 안정적으로 손의 윤곽정보를 추출할 수 있도록 하였다. 또한, 실시간 처리를 저해하는 복잡한 손의 특성정보 대신, OBB의 크기에 대하여 정규화된 두 개의 고유값과 객체 기반 바운딩 박스(OBB)를 구성하는 16개 세부 영역에서의 손 윤곽픽셀의 개수를 손의 특성정보로 사용하였다. 본 논문에서는 급격한 조명 변화 상황에서 기존 RGB 색상요소를 기반으로 하는 배경차분법과 색상을 기반으로 하는 배경차분법, 본 논문에서 제안하는 색상 기울기 기반 배경 차분법의 결과를 비교함으로써 제안 기법의 안정성을 입증하였다. 6명의 실험대상자의 1부터 9까지의 수지화 2700개의 영상으로부터 손 특성 정보를 추출하고 이에 대하여 훈련을 통한 학습 모델을 생성하였다. 학습모델을 기반으로 실험자 6인의 손 형태 1620개의 데이터에 대하여 인지 실험을 실시하여 92.6%에 이르는 손 형태 인식 성공률을 얻었다.

다중크기와 다중객체의 실시간 얼굴 검출과 머리 자세 추정을 위한 심층 신경망 (Multi-Scale, Multi-Object and Real-Time Face Detection and Head Pose Estimation Using Deep Neural Networks)

  • 안병태;최동걸;권인소
    • 로봇학회논문지
    • /
    • 제12권3호
    • /
    • pp.313-321
    • /
    • 2017
  • One of the most frequently performed tasks in human-robot interaction (HRI), intelligent vehicles, and security systems is face related applications such as face recognition, facial expression recognition, driver state monitoring, and gaze estimation. In these applications, accurate head pose estimation is an important issue. However, conventional methods have been lacking in accuracy, robustness or processing speed in practical use. In this paper, we propose a novel method for estimating head pose with a monocular camera. The proposed algorithm is based on a deep neural network for multi-task learning using a small grayscale image. This network jointly detects multi-view faces and estimates head pose in hard environmental conditions such as illumination change and large pose change. The proposed framework quantitatively and qualitatively outperforms the state-of-the-art method with an average head pose mean error of less than $4.5^{\circ}$ in real-time.