• 제목/요약/키워드: Single Depth Image Estimation

검색결과 33건 처리시간 0.029초

Rapid Implementation of 3D Facial Reconstruction from a Single Image on an Android Mobile Device

  • Truong, Phuc Huu;Park, Chang-Woo;Lee, Minsik;Choi, Sang-Il;Ji, Sang-Hoon;Jeong, Gu-Min
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권5호
    • /
    • pp.1690-1710
    • /
    • 2014
  • In this paper, we propose the rapid implementation of a 3-dimensional (3D) facial reconstruction from a single frontal face image and introduce a design for its application on a mobile device. The proposed system can effectively reconstruct human faces in 3D using an approach robust to lighting conditions, and a fast method based on a Canonical Correlation Analysis (CCA) algorithm to estimate the depth. The reconstruction system is built by first creating 3D facial mapping from a personal identity vector of a face image. This mapping is then applied to real-world images captured with a built-in camera on a mobile device to form the corresponding 3D depth information. Finally, the facial texture from the face image is extracted and added to the reconstruction results. Experiments with an Android phone show that the implementation of this system as an Android application performs well. The advantage of the proposed method is an easy 3D reconstruction of almost all facial images captured in the real world with a fast computation. This has been clearly demonstrated in the Android application, which requires only a short time to reconstruct the 3D depth map.

A Real-Time Virtual Re-Convergence Hardware Platform

  • Kim, Jae-Gon;Kim, Jong-Hak;Ham, Hun-Ho;Kim, Jueng-Hun;Park, Chan-Oh;Park, Soon-Suk;Cho, Jun-Dong
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제12권2호
    • /
    • pp.127-138
    • /
    • 2012
  • In this paper, we propose a real-time virtual re-convergence hardware platform especially to reduce the visual fatigue caused by stereoscopy. Our unique idea to reduce visual fatigue is to utilize the virtual re-convergence based on the optimized disparity-map that contains more depth information in the negative disparity area than in the positive area. Our virtual re-convergence hardware platform, which consists of image rectification, disparity estimation, depth post-processing, and virtual view control, is realized in real time with 60 fps on a single Xilinx Virtex-5 FPGA chip.

Enhanced Sign Language Transcription System via Hand Tracking and Pose Estimation

  • Kim, Jung-Ho;Kim, Najoung;Park, Hancheol;Park, Jong C.
    • Journal of Computing Science and Engineering
    • /
    • 제10권3호
    • /
    • pp.95-101
    • /
    • 2016
  • In this study, we propose a new system for constructing parallel corpora for sign languages, which are generally under-resourced in comparison to spoken languages. In order to achieve scalability and accessibility regarding data collection and corpus construction, our system utilizes deep learning-based techniques and predicts depth information to perform pose estimation on hand information obtainable from video recordings by a single RGB camera. These estimated poses are then transcribed into expressions in SignWriting. We evaluate the accuracy of hand tracking and hand pose estimation modules of our system quantitatively, using the American Sign Language Image Dataset and the American Sign Language Lexicon Video Dataset. The evaluation results show that our transcription system has a high potential to be successfully employed in constructing a sizable sign language corpus using various types of video resources.

An Improved Approach for 3D Hand Pose Estimation Based on a Single Depth Image and Haar Random Forest

  • Kim, Wonggi;Chun, Junchul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권8호
    • /
    • pp.3136-3150
    • /
    • 2015
  • A vision-based 3D tracking of articulated human hand is one of the major issues in the applications of human computer interactions and understanding the control of robot hand. This paper presents an improved approach for tracking and recovering the 3D position and orientation of a human hand using the Kinect sensor. The basic idea of the proposed method is to solve an optimization problem that minimizes the discrepancy in 3D shape between an actual hand observed by Kinect and a hypothesized 3D hand model. Since each of the 3D hand pose has 23 degrees of freedom, the hand articulation tracking needs computational excessive burden in minimizing the 3D shape discrepancy between an observed hand and a 3D hand model. For this, we first created a 3D hand model which represents the hand with 17 different parts. Secondly, Random Forest classifier was trained on the synthetic depth images generated by animating the developed 3D hand model, which was then used for Haar-like feature-based classification rather than performing per-pixel classification. Classification results were used for estimating the joint positions for the hand skeleton. Through the experiment, we were able to prove that the proposed method showed improvement rates in hand part recognition and a performance of 20-30 fps. The results confirmed its practical use in classifying hand area and successfully tracked and recovered the 3D hand pose in a real time fashion.

Single-View Reconstruction of a Manhattan World from Line Segments

  • Lee, Suwon;Seo, Yong-Ho
    • International journal of advanced smart convergence
    • /
    • 제11권1호
    • /
    • pp.1-10
    • /
    • 2022
  • Single-view reconstruction (SVR) is a fundamental method in computer vision. Often used for reconstructing human-made environments, the Manhattan world assumption presumes that planes in the real world exist in mutually orthogonal directions. Accordingly, this paper addresses an automatic SVR algorithm for Manhattan worlds. A method for estimating the directions of planes using graph-cut optimization is proposed. After segmenting an image from extracted line segments, the data cost function and smoothness cost function for graph-cut optimization are defined by considering the directions of the line segments and neighborhood segments. Furthermore, segments with the same depths are grouped during a depth-estimation step using a minimum spanning tree algorithm with the proposed weights. Experimental results demonstrate that, unlike previous methods, the proposed method can identify complex Manhattan structures of indoor and outdoor scenes and provide the exact boundaries and intersections of planes.

에지 맵을 이용한 CNN 기반 단일 영상의 깊이 추정 (Single-Image Depth Estimation Based on CNN Using Edge Map)

  • 고영권;문현철;김현호;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.695-696
    • /
    • 2020
  • CNN(CNN: Convolutional Neural Network)은 컴퓨터 비전의 많은 분야에서 뛰어난 성능을 보이고 있으며, 단일 영상으로부터 깊이(depth) 추정에서도 기존 기법보다 향상된 성능을 보이고 있다. 그러나, 단일 영상으로부터 신경망이 얻을 수 있는 정보는 제한적이기 때문에 스테레오 카메라로부터 얻은 좌/우 영상으로부터의 깊이 추정보다 성능 향상에 한계가 있다. 따라서 본 논문에서는 에지 맵(edge map)을 이용한 CNN 기반의 단일 영상에서의 깊이 추정의 개선 기법을 제안한다. 제안 방법은 먼저 단일 영상에 대한 전처리를 통해서 에지 맵과 양방향 필터링된(bilateral filtered) 영상을 생성하고, 이를 CNN 입력으로 하여 기존 단일 영상 깊이 추정 기법 대비 개선된 성능을 보임을 확인하였다.

  • PDF

등거리 스테레오 전방위 렌즈 영상에 대한 위치 측정 알고리즘 (Range finding algorithm of equidistance stereo catadioptric mirror)

  • 최영호
    • 인터넷정보학회논문지
    • /
    • 제6권6호
    • /
    • pp.149-161
    • /
    • 2005
  • 전방위 렌즈의 단점은 균일하지 않은 해상도에 있다. 등거리 전방위 렌즈는 이러한 단점을 해결하기 위한 새로운 대안으로 볼 수 있으며, 등거리 스테레오 전방위 렌즈는 한 개의 카메라를 통해 스테레오 영상을 획득할 수 있다는 점에서 매우 효율적인 시스템이라 말할 수 있다. 그러나 등거리 스테레오 전방위 렌즈는 단일 등거리 전방위 렌즈에 비해 획득 영상의 크기가 상대적으로 작게 되어 해상도가 낮아진다는 단점이 있다. 정확한 거울의 위치, 카메라 축과 거울 중심과의 정확한 정렬등의 문제는 정밀도를 높여 해결할 수 있지만, 영상 획득 시 필수적으로 필요한 렌즈의 초점 거리 변화는 피할 수 없게 된다. 본 논문에서는 먼저 초점 거리 변화가 물체의 거리 측정에 미치는 영향을 고찰한 후 스테레오 영상에서 보이는 물체의 시야 각은 두 영상에서 거의 일정하다는 가정하에 실제 초점 거리를 계산하는 방법을 제시한다.

  • PDF

단일 시점 축구 비디오의 3차원 영상 변환을 위한 깊이지도 생성 방법 (2D-to-3D Stereoscopic conversion: Depth estimation in monoscopic soccer videos)

  • 고재승;김영우;정용주;김창익
    • 방송공학회논문지
    • /
    • 제13권4호
    • /
    • pp.427-439
    • /
    • 2008
  • 본 논문에서는 일반 단일 시점의 축구 비디오를 스테레오스코픽 영상으로 변환하는 방법을 제안한다. 축구 비디오 분석 과정을 통하여 축구 비디오를 일정한 종류의 샷으로 분류하고, 분류된 샷 종류에 따른 깊이지도 생성 방법을 제안한다. 원거리 샷의 경우에는 운동장 영역 추출을 통하여 운동장 영역에 깊이기도 (Depth Map)을 생성하는 방법을 제안한다. 그리고 비 원거리 샷의 경우, 운동장 영역 블록 수와, 간단한 피부색 발견 알고리즘을 통해 생성한 스킨 블록의 수에 따라 다시 3가지로 샷을 분류하고, 각 종류의 샷에 따른 깊이지도 생성 방식 1) 오브젝트 영역 추출을 통한 깊이지도 생성, 2) 스킨 블록을 이용한 전경 영역 추출과 가우시안 함수를 이용한 깊이기도 생성, 그리고 3) 스킨블록이 없는 상황에서의 깊이기도 생성 방법을 제안한다. 제안한 방법을 통하여 생성한 깊이 지도를 이용하여, 스테레오스코픽 영상을 생성하는 방법을 소개하고, 생성한 실험영상을 결과로 제공한다. 그리고 주관적 깊이감 품질 평가를 통해서, 제안된 방법을 통해 생성된 영상이 원본 영상에 비해 깊이감이 향상됨을 증명한다.

A Fast Vision-based Head Tracking Method for Interactive Stereoscopic Viewing

  • Putpuek, Narongsak;Chotikakamthorn, Nopporn
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1102-1105
    • /
    • 2004
  • In this paper, the problem of a viewer's head tracking in a desktop-based interactive stereoscopic display system is considered. A fast and low-cost approach to the problem is important for such a computing environment. The system under consideration utilizes a shuttle glass for stereoscopic display. The proposed method makes use of an image taken from a single low-cost video camera. By using a simple feature extraction algorithm, the obtained points corresponding to the image of the user-worn shuttle glass are used to estimate the glass center, its local 'yaw' angle, as measured with respect to the glass center, and its global 'yaw' angle as measured with respect to the camera location. With these estimations, the stereoscopic image synthetic program utilizes those values to interactively adjust the two-view stereoscopic image pair as displayed on a computer screen. The adjustment is carried out such that the so-obtained stereoscopic picture, when viewed from a current user position, provides a close-to-real perspective and depth perception. However, because the algorithm and device used are designed for fast computation, the estimation is typically not precise enough to provide a flicker-free interactive viewing. An error concealment method is thus proposed to alleviate the problem. This concealment method should be sufficient for applications that do not require a high degree of visual realism and interaction.

  • PDF

증강현실 캐릭터 구현을 위한 AI기반 객체인식 연구 (AI-Based Object Recognition Research for Augmented Reality Character Implementation)

  • 이석환;이정금;심현
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1321-1330
    • /
    • 2023
  • 본 연구는 증강현실에서 적용할 캐릭터 생성에서 단일 이미지를 통해 여러 객체에 대한 3D 자세 추정 문제를 연구한다. 기존 top-down 방식에서는 이미지 내의 모든 객체를 먼저 감지하고, 그 후에 각각의 객체를 독립적으로 재구성한다. 문제는 이렇게 재구성된 객체들 사이의 중첩이나 깊이 순서가 불일치 하는 일관성 없는 결과가 발생할 수 있다. 본 연구의 목적은 이러한 문제점을 해결하고, 장면 내의 모든 객체에 대한 일관된 3D 재구성을 제공하는 단일 네트워크를 개발하는 것이다. SMPL 매개변수체를 기반으로 한 인체 모델을 top-down 프레임워크에 통합이 중요한 선택이 되었으며, 이를 통해 거리 필드 기반의 충돌 손실과 깊이 순서를 고려하는 손실 두 가지를 도입하였다. 첫 번째 손실은 재구성된 사람들 사이의 중첩을 방지하며, 두 번째 손실은 가림막 추론과 주석이 달린 인스턴스 분할을 일관되게 렌더링하기 위해 객체들의 깊이 순서를 조정한다. 이러한 방법은 네트워크에 이미지의 명시적인 3D 주석 없이도 깊이 정보를 제공하게 한다. 실험 결과, 기존의 Interpenetration loss 방법은 MuPoTS-3D가 114, PoseTrack이 654에 비해서 본 연구의 방법론인 Lp 손실로 네트워크를 훈련시킬 때 MuPoTS-3D가 34, PoseTrack이 202로 충돌수가 크게 감소하는 것으로 나타났다. 본 연구 방법은 표준 3D 자세벤치마크에서 기존 방법보다 더 나은 성능을 보여주었고, 제안된 손실들은 자연 이미지에서 더욱 일관된 재구성을 실현하게 하였다.