• 제목/요약/키워드: multi-modal feature

검색결과 30건 처리시간 0.028초

휴대폰 환경에서의 근적외선 얼굴 및 홍채 다중 인식 연구 (A Study on Multi-modal Near-IR Face and Iris Recognition on Mobile Phones)

  • 박강령;한송이;강병준;박소영
    • 전자공학회논문지CI
    • /
    • 제45권2호
    • /
    • pp.1-9
    • /
    • 2008
  • 휴대폰에서 보안 필요성이 증가함에 따라 개인 인증을 위하여 홍채, 지문, 얼굴과 같은 단일 생체 정보를 이용한 많은 연구들이 진행되었으나 단일 생체 인식에서는 인식 정확도에 한계가 있었다. 따라서 본 논문에서는 휴대폰 환경에서 고 인식율을 위해 얼굴과 홍채를 결합하는 방법에 대해 제안한다. 본 논문에서는 근적외선 조명과 근적외선 통과 필터를 부착한 휴대폰의 메가 픽셀 카메라를 사용하여 근적외선 얼굴 및 홍채 영상을 동시에 취득한 후, SVM(Support Vector Machine)을 기반으로 스코어 레벨에서 결합하였다. 또한, 저 연산의 로가리듬(Logarithm) 알고리즘을 사용한 얼굴 데이터의 조명 변화에 대한 정규화와 극 좌표계 변환 및 홍채 코드의 비트 이동 매칭에 의한 홍채 영역의 이동, 회전, 확대 및 축소에 대한 정규화를 통해 SVM의 분류 복잡도와 얼굴, 홍채 데이터의 본인 변화도를 최소화함으로써 인식 정확도를 향상시켰으며, 저 연산의 휴대폰 환경에서 정수혈 기반의 얼굴 및 홍채 인식 알고리즘을 사용하여 처리시간을 향상시켰다. 실험 결과, SVM을 사용한 인식의 정확성이 단일 생체(얼굴 또는 홍채), SUM, MAX, MIN 그리고 Weighted SUM을 사용하는 것보다 우수한 것을 알 수 있었다.

이미지 캡션 생성을 위한 심층 신경망 모델의 설계 (Design of a Deep Neural Network Model for Image Caption Generation)

  • 김동하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.203-210
    • /
    • 2017
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하며, 캡션 문장 생성을 위한 매 순환 단계마다 이미지의 시각 정보를 이용할 수 있도록 컨볼루션 신경망 층의 출력을 순환 신경망 층의 초기 상태뿐만 아니라 멀티 모달 층의 입력에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험들을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 높은 성능을 확인할 수 있었다.

음성 신호와 얼굴 표정을 이용한 감정인식 몇 표현 기법 (An Emotion Recognition and Expression Method using Facial Image and Speech Signal)

  • 주종태;문병현;서상욱;장인훈;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.333-336
    • /
    • 2007
  • 본 논문에서는 감정인식 분야에서 가장 많이 사용되어지는 음성신호와 얼굴영상을 가지고 4개의(기쁨, 슬픔, 화남, 놀람) 감정으로 인식하고 각각 얻어진 감정인식 결과를 Multi modal 기법을 이용해서 이들의 감정을 융합한다. 이를 위해 얼굴영상을 이용한 감정인식에서는 주성분 분석(Principal Component Analysis)법을 이용해 특징벡터를 추출하고, 음성신호는 언어적 특성을 배재한 acoustic feature를 사용하였으며 이와 같이 추출된 특징들을 각각 신경망에 적용시켜 감정별로 패턴을 분류하였고, 인식된 결과는 감정표현 시스템에 작용하여 감정을 표현하였다.

  • PDF

인코더-디코더 사이의 특징 융합을 통한 멀티 모달 네트워크의 의미론적 분할 성능 향상 (Improved Semantic Segmentation in Multi-modal Network Using Encoder-Decoder Feature Fusion)

  • 손찬영;호요성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.81-83
    • /
    • 2018
  • Fully Convolutional Network(FCN)은 기존의 방법보다 뛰어난 성능을 보였지만, FCN은 RGB 정보만을 사용하기 때문에 세밀한 예측이 필요한 장면에서는 다소 부족한 성능을 보였다. 이를 해결하기 위해 인코더-디코더 구조를 이용하여 RGB와 깊이의 멀티 모달을 활용하기 위한 FuseNet이 제안되었다. 하지만, FuseNet에서는 RGB와 깊이 브랜치 사이의 융합은 있지만, 인코더와 디코더 사이의 특징 지도를 융합하지 않는다. 본 논문에서는 FCN의 디코더 부분의 업샘플링 과정에서 이전 계층의 결과와 2배 업샘플링한 결과를 융합하는 스킵 레이어를 적용하여 FuseNet의 모달리티를 잘 활용하여 성능을 개선했다. 본 실험에서는 NYUDv2와 SUNRGBD 데이터 셋을 사용했으며, 전체 정확도는 각각 77%, 65%이고, 평균 IoU는 47.4%, 26.9%, 평균 정확도는 67.7%, 41%의 성능을 보였다.

  • PDF

Incorporating BERT-based NLP and Transformer for An Ensemble Model and its Application to Personal Credit Prediction

  • Sophot Ky;Ju-Hong Lee;Kwangtek Na
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.9-15
    • /
    • 2024
  • Tree-based algorithms have been the dominant methods used build a prediction model for tabular data. This also includes personal credit data. However, they are limited to compatibility with categorical and numerical data only, and also do not capture information of the relationship between other features. In this work, we proposed an ensemble model using the Transformer architecture that includes text features and harness the self-attention mechanism to tackle the feature relationships limitation. We describe a text formatter module, that converts the original tabular data into sentence data that is fed into FinBERT along with other text features. Furthermore, we employed FT-Transformer that train with the original tabular data. We evaluate this multi-modal approach with two popular tree-based algorithms known as, Random Forest and Extreme Gradient Boosting, XGBoost and TabTransformer. Our proposed method shows superior Default Recall, F1 score and AUC results across two public data sets. Our results are significant for financial institutions to reduce the risk of financial loss regarding defaulters.

모바일 플랫폼에서 다중 특징 기반의 이미지 검색 (Image Retrieval using Multiple Features on Mobile Platform)

  • 이용환;조한진;이준환
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.237-243
    • /
    • 2014
  • 본 논문에서는 다양한 검색 환경과 모바일 디바이스의 센서 정보를 활용한 모바일 이미지 검색 방법을 제안하고 안드로이드 플랫폼에서 구동하는 검색 시스템을 구현하였다. 설계 개발 시스템은 JPEG 이미지를 대상으로 산업계 표준 메타데이터인 EXIF 속성과 시각적 특징을 결합한 새로운 검색 기술자이며, 검색을 위한 특징 추출 및 유사도 평가 알고리즘을 모바일 환경에 최적화한 이미지 검색 모듈이다. 실험을 통해, 대용량 이미지 데이터셋을 대상으로 안드로이드 폰에서 효율적인 이미지 검색을 수행하였음을 보였다.

한국어 음성 웹브라우저 설계 및 구현 (Design and Implementation of Korean Voice Web Browser)

  • 장영건;조경환
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권5호
    • /
    • pp.458-466
    • /
    • 2001
  • 본 논문은 HTML을 분석하여 추출된 내용을 음성으로 변환시키고, 웹 브라우저 제어 및 웹문서의 내용 지정을 위하여 음성인식을 사용하는 음성 웹 부라우저의 설계와 구현에 관한 것이다. 이 시스템의 특징은 보편적 설계기법을 사용하여 정상인과 시각장애인을 모두 고려하여 설계되었으며, 특히 시각장애인 인터페이스를 위하여 웹 문서의 구조를 쉽게 인식할 수 있는 트리 구조를 도입하였고, 웹 브라우저 상에 태그로 표현된 모든 요소를 추출하고, 각 요소에 따라 출력음성의 속성을 다르게 하여 별도의 요소 안내음성 출력이 없이 요소 특성을 인지할 수 있게 하였다. 이 방식은 음성 특징을 세부적으로 표현할 수 있는 청각 스타일 시트의 사용을 배제한 것으로써 웹 문서 작성자가 특별한 추가적 노력 없이, 사용자가 문서내의 구조와 요소들의 특징을 쉽게 인식할 수 있는 장점이 있다.

  • PDF

시각자극에 의한 피로도의 객관적 측정을 위한 연구 조사 (A Survey of Objective Measurement of Fatigue Caused by Visual Stimuli)

  • 김영주;이의철;황민철;박강령
    • 대한인간공학회지
    • /
    • 제30권1호
    • /
    • pp.195-202
    • /
    • 2011
  • Objective: The aim of this study is to investigate and review the previous researches about objective measuring fatigue caused by visual stimuli. Also, we analyze possibility of alternative visual fatigue measurement methods using facial expression recognition and gesture recognition. Background: In most previous researches, visual fatigue is commonly measured by survey or interview based subjective method. However, the subjective evaluation methods can be affected by individual feeling's variation or other kinds of stimuli. To solve these problems, signal and image processing based visual fatigue measurement methods have been widely researched. Method: To analyze the signal and image processing based methods, we categorized previous works into three groups such as bio-signal, brainwave, and eye image based methods. Also, the possibility of adopting facial expression or gesture recognition to measure visual fatigue is analyzed. Results: Bio-signal and brainwave based methods have problems because they can be degraded by not only visual stimuli but also the other kinds of external stimuli caused by other sense organs. In eye image based methods, using only single feature such as blink frequency or pupil size also has problem because the single feature can be easily degraded by other kinds of emotions. Conclusion: Multi-modal measurement method is required by fusing several features which are extracted from the bio-signal and image. Also, alternative method using facial expression or gesture recognition can be considered. Application: The objective visual fatigue measurement method can be applied into the fields of quantitative and comparative measurement of visual fatigue of next generation display devices in terms of human factor.

Vortex-induced vibration of a long flexible cylinder in uniform cross-flow

  • Ji, Chunning;Peng, Ziteng;Alam, Md. Mahbub;Chen, Weilin;Xu, Dong
    • Wind and Structures
    • /
    • 제26권5호
    • /
    • pp.267-277
    • /
    • 2018
  • Numerical simulations are performed of a long flexible cylinder undergoing vortex-induced vibration at a Reynolds number of 500. The cylinder is pinned at both ends, having an aspect ratio of 100 (cylinder length to cylinder diameter) and a mass ratio of 4.2 (structural mass to displaced fluid mass). Temporal and spatial information on the cross-flow (CF) and in-line (IL) vibrations is extracted. High modal vibrations up to the $6^{th}$ in the CF direction and the $11^{th}$ in the IL direction are observed. Both the CF and IL vibrations feature a multi-mode mixed pattern. Mode competition is observed. The $2^{nd}$ mode with a low frequency dominates the IL vibration and its existence is attributed to a wave group propagating back and forth along the span. Distributions of fluid force coefficients are correlated to those of the CF and IL vibrations along the span. Histograms of the x'-y motion phase difference are evaluated from the total simulation time and a complete vibration cycle representing the standing or travelling wave pattern. Correlations between the phase difference and the vibrations are discussed. Vortex structures behind the cylinder show an interwoven near-wake pattern when the standing wave pattern dominates, but an oblique near-wake pattern when the travelling wave pattern prevails.

장소 정보를 학습한 딥하이퍼넷 기반 TV드라마 소셜 네트워크 분석 (Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks)

  • 남장군;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.619-624
    • /
    • 2016
  • Social-aware video는 자유로운 스토리 전개를 통해 인물들간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람에게 전달해주고 있다. 특히 장소에 따른 사람들간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 멀티모달과 동적인 특성으로 인해 컴퓨터가 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하기 위해 기존의 연구에서는 딥하이퍼넷 모델을 사용하여 드라마 등장인물의 시각과 언어 정보를 기반으로 계층적 구조를 사용해 소셜 네트워크를 분석하였다. 하지만 장소 정보를 사용하지 않아 전반적인 스토리로부터 소셜 네트워크를 분석할 수밖에 없었다. 본 논문에서는 기존 연구를 바탕으로 장소 정보를 추가하여 각 장소에서의 인물 특성을 분석해 보았다. 본 논문에서는 총 4400분 분량의 TV드라마 "Friends"를 사용했고 C-RNN모델을 통해 등장인물을 인식하였으며 Bag of Features로 장소를 분류하였다. 그리고 딥하이퍼넷 모델을 통해 자동으로 소셜 네트워크를 생성하였고 각 장소에서의 인물 관계 변화를 분석하였다.