• 제목/요약/키워드: Pose Recognition

검색결과 278건 처리시간 0.022초

서베일런스에서 피셔의 선형 판별 분석을 이용한 사람 검출의 성능 향상 (Improve the Performance of People Detection using Fisher Linear Discriminant Analysis in Surveillance)

  • 강성관;이정현
    • 디지털융복합연구
    • /
    • 제11권12호
    • /
    • pp.295-302
    • /
    • 2013
  • 사람 검출은 정지된 영상 혹은 동영상으로부터 사람의 움직임이나 자세를 추정하고, 사람이 찾아질 경우 영상 내 사람의 좌표, 동작 인식, 보안관련 인증 등을 알아내는 기술로 정의된다. 이러한 사람 검출은 다른 객체의 검출이나 사람과 컴퓨터와의 상호작용, 동작 인식 등의 기초 기술로서 해당 시스템의 성능에 영향을 미치는 매우 중요한 변수 중에 하나이다. 그러나 영상 내의 사람은 움직임, 자세, 크기, 빛의 방향 및 밝기, 다른 객체와의 중복 등의 환경적 변화로 인해 사람 모양이 다양해지므로 정확하고 빠른 검출이 어렵다. 따라서 본 논문에서는 피셔의 선형 판별 분석을 이용하여 몇 가지 환경적 조건을 극복한 정확하고 빠른 사람 검출 방법을 제안한다. 제안된 방법은 사람 움직임 및 자세와 배경에 무관하게 빠른 시간 안에 사람을 검출하는 것이 가능하다. 이를 위해 계층적인 방법으로 사람 검출을 수행하며, 휴리스틱한 방법, 피셔의 판별 분석을 이용하여 사람 검출을 수행하고, 검색 영역의 축소와 선형 결정의 계산 시간의 단축으로 검출 응답 시간을 빠르게 하였다. 추출된 사람 영상에서 사람의 자세를 추정하고 사람의 영역을 검출함으로써 사람 정보의 사용에 있어 보다 많은 정보를 추출할 수 있도록 하였다.

SIFT 특징을 이용하여 중첩상황에 강인한 AAM 기반 얼굴 추적 (Robust AAM-based Face Tracking with Occlusion Using SIFT Features)

  • 엄성은;장준수
    • 정보처리학회논문지B
    • /
    • 제17B권5호
    • /
    • pp.355-362
    • /
    • 2010
  • 얼굴추적은 3차원 공간상에서 머리(head)와 안면(face)의 움직임을 추정하는 기술로, 얼굴 표정 감정인식과 같은 상위 분석단계의 중요한 기반기술이다. 본 논문에서는 AAM 기반의 얼굴추적 알고리즘을 제안한다. AAM은 변형되는 대상을 분할하고 추적하는데 광범위하게 적용되고 있다. 그러나 여전히 여러 가지 해결해야할 제약사항들이 있다. 특히 자체중첩(self-occlusion)과 부분적인 중첩, 그리고 일시적으로 완전히 가려지는 완전중첩 상황에서 보통 국부해에 수렴(local convergence)하거나 발산하기 쉽다. 본 논문에서는 이러한 중첩상황에 대한 AAM의 강인성을 향상시키기 위해서 SIFT 특징을 이용하고 있다. SIFT는 일부 영상의 특징점으로 안정적인 추적이 가능하기 때문에 자체와 부분중첩에 효과적이며, 완전중첩의 상황에도 SIFT의 전역적인 매칭성능으로 별도의 재초기화 없이 연속적인 추적이 가능하다. 또한 추적과정에서 큰 자세변화에 따른 움직임을 효과적으로 추정하기 위해서 다시점(multi-view) 얼굴영상의 SIFT 특징을 온라인으로 등록하여 활용하고 있다. 제안한 알고리즘의 이러한 강인성은 위 세 가지 중첩상황에 대해서 기존 알고리즘들과의 비교실험을 통해서 보여준다.

얼굴 깊이 추정을 이용한 3차원 얼굴 생성 및 추적 방법 (A 3D Face Reconstruction and Tracking Method using the Estimated Depth Information)

  • 주명호;강행봉
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.21-28
    • /
    • 2011
  • 얼굴의 3차원 정보는 얼굴 인식이나 얼굴 합성, Human Computer Interaction (HCI) 등 다양한 분야에서 유용하게 이용될 수 있다. 그러나 일반적으로 3차원 정보는 3D 스캐너와 같은 고가의 장비를 이용하여 획득되기 때문에 얼굴의 3차원 정보를 얻기 위해서는 많은 비용이 요구된다. 본 논문에서는 일반적으로 손쉽게 얻을 수 있는 2차원의 얼굴 영상 시퀀스로부터 효과적으로 3차월 얼굴 형태를 추적하고 재구성하기 위한 3차원 Active Appearance Model (3D-AAM) 방법을 제안한다. 얼굴의 3차원 변화 정보를 추정하기 위해 학습 영상은 정면 얼굴 포즈로 다양한 얼굴 표정 변화를 포함한 영상과 표정 변화를 갖지 않으면서 서로 크게 다른 얼굴 포즈를 갖는 영상으로 구성한다. 입력 영상의 3차원 얼굴 변화를 추정하기 위해 먼저 서로 다른 포즈를 갖는 학습 영상으로부터 얼굴의 각 특징점(Land-mark)의 기하학적 변화를 이용하여 깊이 정보를 추정하고 추정된 특징점의 깊이 정보를 입력 영상의 2차원 얼굴 변화에 추가하여 최종적으로 입력 얼굴의 3차원 변화를 추정한다. 본 논문에서 제안된 방법은 얼굴의 다양한 표정 변화와 함께 3차원의 얼굴 포즈 변화를 포함한 실험 영상을 이용하여 기존의 AAM에 비해 효과적이면서 빠르게 입력 얼굴을 추적(Fitting)할 수 있으며 입력 영상의 정확한 3차원 얼굴 형태를 생성할 수 있음을 보였다.

RGBD 카메라 기반의 Human-Skeleton Keypoints와 2-Stacked Bi-LSTM 모델을 이용한 낙상 탐지 (Fall Detection Based on 2-Stacked Bi-LSTM and Human-Skeleton Keypoints of RGBD Camera)

  • 신병근;김응호;이상우;양재영;김원겸
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.491-500
    • /
    • 2021
  • 본 연구에서는 MS Kinect v2 RGBD 카메라 기반의 Human-Skeleton Keypoints와 2-Stacked Bi-LSTM 모델을 이용하여 낙상 행위를 탐지하는 방법을 제안한다. 기존의 연구는 RGB 영상에서 OpenPose 등의 딥러닝 모델을 이용하여 골격 정보를 추출한 후 LSTM, GRU 등의 순환신경망 모델을 이용해 인식을 수행하였다. 제안한 방법은 카메라로부터 골격정보를 바로 전달 받아 가속도 및 거리의 2개의 시계열 특징을 추출한 후 2-Stacked Bi-LSTM 모델을 이용하여 낙상 행위를 인식하였다. 어깨, 척추, 골반 등 주요 골격을 대상으로 중심관절을 구하고 이 중심관절의 움직임 가속도와 바닥과의 거리를 특징으로 제안하였다. 추출된 특징은 Stacked LSTM, Bi-LSTM 등의 모델과 성능비교를 수행하였고 GRU, LSTM 등의 기존연구에 비해 향상된 검출 성능을 실험을 통해 증명하였다.

트랜스포머 기반의 다중 시점 3차원 인체자세추정 (Multi-View 3D Human Pose Estimation Based on Transformer)

  • 최승욱;이진영;김계영
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.48-56
    • /
    • 2023
  • 3차원 인체자세추정은 스포츠, 동작인식, 영상매체의 특수효과 등의 분야에서 널리 활용되고 있는 기술이다. 이를 위한 여러 방법들 중 다중 시점 3차원 인체자세추정은 현실의 복잡한 환경에서도 정밀한 추정을 하기 위해 필수적인 방법이다. 하지만 기존 다중 시점 3차원 인체자세추정 모델들은 3차원 특징 맵을 사용함에 따라 시간 복잡도가 높은 단점이 있다. 본 논문은 계산 복잡도가 적은 트랜스포머 기반 기존 단안 시점 다중 프레임 모델을 다중 시점에 대한 3차원 인체자세추정으로 확장하는 방법을 제안한다. 다중 시점으로 확장하기 위하여 먼저 2차원 인체자세 검출자 CPN(Cascaded Pyramid Network)을 활용하여 획득한 4개 시점의 17가지 관절에 대한 2차원 관절좌표를 연결한 8차원 관절좌표를 생성한다. 그 다음 이들을 패치 임베딩 한 뒤 17×32 데이터로 변환하여 트랜스포머 모델에 입력한다. 마지막으로, 인체자세를 출력하는 MLP(Multi-Layer Perceptron) 블록을 매 반복 마다 사용한다. 이를 통해 4개 시점에 대한 3차원 인체자세추정을 동시에 수정한다. 입력 프레임 길이 27을 사용한 Zheng[5]의 방법과 비교했을 때 제안한 방법의 모델 매개변수의 수는 48.9%, MPJPE(Mean Per Joint Position Error)는 20.6mm(43.8%) 감소했으며, 학습 횟수 당 평균 학습 소요 시간은 20배 이상 빠르다.

  • PDF

의료자산보호에서 얼굴인식을 위한 가보 웨이블릿 분석 (Gabor Wavelet Analysis for Face Recognition in Medical Asset Protection)

  • 전인자;정경용;이영호
    • 한국콘텐츠학회논문지
    • /
    • 제11권11호
    • /
    • pp.10-18
    • /
    • 2011
  • 개인정보보호법의 시행은 의료기관에서 의료자산에 대한 보안이 중요시 되고 있으며 이를 위한 얼굴인식은 가장 흥미롭지만 다양한 문제점을 가지고 있는 요소 중의 하나이다. 얼굴인식은 얼굴 영상의 변화하는 요인인 포즈, 조명, 표정과 크기의 변화요소를 포함하고 있다. 이와 같은 변화 요인 중에서 빛의 위치와 방향의 변화요인이 가장 큰 어려움중의 하나이다. 이와 같은 단점을 극복하기 위하여 본 논문에서는 의료자산 보호를 위한 CCTV 관제에서 얼굴인식을 위하여 가보웨이블릿의 계수의 분석, 커널 선정, 특징점, 커널크기와 같은 요소를 분석하였다. 제안된 방법은 분석으로 구성되어있다. 첫 번째 분석은 이미지로부터 커널을 선정하기 위한 것이며, 두 번째 분석은 커널 크기에 대한 계수 분석이다. 마지막으로 입력 영상의 크기에 따른 가보커널 크기의 변화에 대한 측정이다. 실험을 통하여 도출된 계수를 이용하여 얼굴인식을 수행하였으며, 평균 97.3%라는 인식 결과를 도출하였다. 제안하는 방법을 개발하여 논리적 타당성과 유효성을 검증하기 위해 실험적인 적용을 시도하고자 한다. 따라서 얼굴인식에서 서비스의 만족도와 질을 향상시켰다.

얼굴인식을 위한 해마의 뇌모델링 학습 알고리즘 개발 (Development of Learning Algorithm using Brain Modeling of Hippocampus for Face Recognition)

  • 오선문;강대성
    • 대한전자공학회논문지SP
    • /
    • 제42권5호
    • /
    • pp.55-62
    • /
    • 2005
  • 본 논문에서는 인간의 인지학적인 두뇌 원리인 대뇌피질과 해마 신경망을 공학적으로 모델링하여 얼굴 영상의 특징 벡터들을 고속 학습하고, 각 영상의 최적의 특징을 구성할 수 있는 해마 신경망 모델링 알고리즘인 HNMA(Hippocampal Neuron Modeling Algorithm)을 이용한 얼굴인식 시스템을 제안한다. 시스템은 크게 특징추출 부분과 학습 및 인식 부분으로 구성 되어 있으며, 특징추출 부분에서는 PCA(Principal Component Analysis)와 LDA (Linear Discriminants Analysis)를 순차적으로 적용하여 분별력이 좋은 특징들로 구성한다. 학습부분에서는 해마 신경망 구조의 순서에 따라 입력되는 영상 데이터의 특징들을 치아 이랑 영역에서 호감도 조정에 따라서 반응 패턴으로 이진화 하고, CA3 영역에서 자기 연상 메모리 단계를 거쳐 노이즈를 제거한다. CA3의 정보를 받는 CAI영역에서는 신경망에 의해 학습되어 장기기억이 만들어 진다. 제안한 시스템의 성능을 평가하기 위하여 실험은 표정과 포즈변화 그리고 저 화질 이미지를 각각 구분하여 인식률을 확인하였다. 실험 결과, 본 논문에서 제안하는 특징 추출 방법과 학습 방법을 다른 방법들과 비교하였을 때, 학습시간비용과 인식률에서 우수함을 확인하였다.

얼굴영상의 얼굴인식 적합성 판정 방법 (A Method for Determining Face Recognition Suitability of Face Image)

  • 이승호
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.295-302
    • /
    • 2018
  • 얼굴인식(face recognition)은 스마트 감시 시스템, 공항 출입국관리, 스마트 기기의 사용자 인증 등 매우 다양한 용도로 활용되고 있다. 얼굴인식은 패턴인식(pattern recognition), 컴퓨터 비전(computer vision) 등에서 연구가 활발하게 진행되고 있으며 높은 인식 성능을 달성하였다. 하지만 입력된 얼굴영상의 특성(예 : 비 정면 얼굴)에 따라 동일한 얼굴인식 시스템의 성능이 크게 저하될 수 있는 문제점을 가지고 있다. 이러한 문제점을 극복하기 위해, 본 논문에서는 얼굴인식 시스템에 입력된 얼굴영상에 대하여 얼굴인식 측면에서의 사용 적합 여부를 판정하는 방법을 제안한다. 제안하는 방법은, 사전에 기준으로 정한 적합 얼굴영상들의 최적 조합으로 입력 얼굴영상을 복원하고, 복원 에러를 문턱값과 비교하여 사용 적합 여부를 결정한다. 얼굴영상에 포함된 조명변화가 사용 적합 여부를 판정하는데 미치는 영향을 감소시키기 위해, 기준 적합 얼굴영상들과 입력 얼굴영상들에 조명 보상을 위한 전처리(preprocessing) 과정을 수행한다. 실험결과, 제안하는 방법은 얼굴이 비 정면(non-frontal)인 경우나 얼굴정렬(face alignment)이 부정확한 경우 입력 얼굴영상을 얼굴인식에 부적합으로 판정할 수 있는 것으로 확인되었다. $64{\times}64$ 픽셀 크기의 얼굴영상 한 장을 판정하는데 불과 3ms의 처리시간을 가지므로 적합으로 판정된 입력 얼굴영상에 대해서만 얼굴인식을 수행함으로써 계산시간을 절약하고, 얼굴영상 특성에 따라 인식 성능이 급격히 저하되는 문제를 극복할 수 있을 것으로 기대한다.

소 부류 객체 분류를 위한 CNN기반 학습망 설계 (Training Network Design Based on Convolution Neural Network for Object Classification in few class problem)

  • 임수창;김승현;김연호;김도연
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.144-150
    • /
    • 2017
  • 최근 데이터의 지능적 처리 및 정확도 향상을 위해 딥러닝 기술이 응용되고 있다. 이 기술은 다층의 데이터 처리 레이어들로 구성된 계산 모델을 통해 이루어지는데, 이 모델은 여러 수준의 추상화를 거쳐 데이터의 표현을 학습한다. 딥러닝의 한 부류인 컨볼루션 신경망은 인간 행동 추정, 얼굴 인식, 이미지 분류, 음성 인식 같은 연구 분야에서 많이 활용되고 있다. 이미지 분류에 좋은 성능을 보여주는 컨볼루션 신경망은 깊은 학습망과 많은 부류를 이용하면 효과적으로 분류율을 높일수 있지만, 적은 부류의 데이터를 사용할 경우, 과적합 문제가 발생할 확률이 높아진다. 따라서 본 논문에서는 컨볼루션 신경망기반의 소부류의 분류을 위한 학습망을 제작하여 자체적으로 구축한 이미지 DB를 학습시키고, 객체를 분류하는 연구를 실험 하였으며, 1000개의 부류를 분류하기 위해 제작된 기존 공개된 망들과 비교 실험을 통해 기존 망보다 평균 7.06%이상의 상승된 분류율을 보여주었다.

Object detection in financial reporting documents for subsequent recognition

  • Sokerin, Petr;Volkova, Alla;Kushnarev, Kirill
    • International journal of advanced smart convergence
    • /
    • 제10권1호
    • /
    • pp.1-11
    • /
    • 2021
  • Document page segmentation is an important step in building a quality optical character recognition module. The study examined already existing work on the topic of page segmentation and focused on the development of a segmentation model that has greater functional significance for application in an organization, as well as broad capabilities for managing the quality of the model. The main problems of document segmentation were highlighted, which include a complex background of intersecting objects. As classes for detection, not only classic text, table and figure were selected, but also additional types, such as signature, logo and table without borders (or with partially missing borders). This made it possible to pose a non-trivial task of detecting non-standard document elements. The authors compared existing neural network architectures for object detection based on published research data. The most suitable architecture was RetinaNet. To ensure the possibility of quality control of the model, a method based on neural network modeling using the RetinaNet architecture is proposed. During the study, several models were built, the quality of which was assessed on the test sample using the Mean average Precision metric. The best result among the constructed algorithms was shown by a model that includes four neural networks: the focus of the first neural network on detecting tables and tables without borders, the second - seals and signatures, the third - pictures and logos, and the fourth - text. As a result of the analysis, it was revealed that the approach based on four neural networks showed the best results in accordance with the objectives of the study on the test sample in the context of most classes of detection. The method proposed in the article can be used to recognize other objects. A promising direction in which the analysis can be continued is the segmentation of tables; the areas of the table that differ in function will act as classes: heading, cell with a name, cell with data, empty cell.