• 제목/요약/키워드: 3D Pose, AR

검색결과 15건 처리시간 0.023초

증강현실 캐릭터 구현을 위한 AI기반 객체인식 연구 (AI-Based Object Recognition Research for Augmented Reality Character Implementation)

  • 이석환;이정금;심현
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1321-1330
    • /
    • 2023
  • 본 연구는 증강현실에서 적용할 캐릭터 생성에서 단일 이미지를 통해 여러 객체에 대한 3D 자세 추정 문제를 연구한다. 기존 top-down 방식에서는 이미지 내의 모든 객체를 먼저 감지하고, 그 후에 각각의 객체를 독립적으로 재구성한다. 문제는 이렇게 재구성된 객체들 사이의 중첩이나 깊이 순서가 불일치 하는 일관성 없는 결과가 발생할 수 있다. 본 연구의 목적은 이러한 문제점을 해결하고, 장면 내의 모든 객체에 대한 일관된 3D 재구성을 제공하는 단일 네트워크를 개발하는 것이다. SMPL 매개변수체를 기반으로 한 인체 모델을 top-down 프레임워크에 통합이 중요한 선택이 되었으며, 이를 통해 거리 필드 기반의 충돌 손실과 깊이 순서를 고려하는 손실 두 가지를 도입하였다. 첫 번째 손실은 재구성된 사람들 사이의 중첩을 방지하며, 두 번째 손실은 가림막 추론과 주석이 달린 인스턴스 분할을 일관되게 렌더링하기 위해 객체들의 깊이 순서를 조정한다. 이러한 방법은 네트워크에 이미지의 명시적인 3D 주석 없이도 깊이 정보를 제공하게 한다. 실험 결과, 기존의 Interpenetration loss 방법은 MuPoTS-3D가 114, PoseTrack이 654에 비해서 본 연구의 방법론인 Lp 손실로 네트워크를 훈련시킬 때 MuPoTS-3D가 34, PoseTrack이 202로 충돌수가 크게 감소하는 것으로 나타났다. 본 연구 방법은 표준 3D 자세벤치마크에서 기존 방법보다 더 나은 성능을 보여주었고, 제안된 손실들은 자연 이미지에서 더욱 일관된 재구성을 실현하게 하였다.

Detecting Complex 3D Human Motions with Body Model Low-Rank Representation for Real-Time Smart Activity Monitoring System

  • Jalal, Ahmad;Kamal, Shaharyar;Kim, Dong-Seong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권3호
    • /
    • pp.1189-1204
    • /
    • 2018
  • Detecting and capturing 3D human structures from the intensity-based image sequences is an inherently arguable problem, which attracted attention of several researchers especially in real-time activity recognition (Real-AR). These Real-AR systems have been significantly enhanced by using depth intensity sensors that gives maximum information, in spite of the fact that conventional Real-AR systems are using RGB video sensors. This study proposed a depth-based routine-logging Real-AR system to identify the daily human activity routines and to make these surroundings an intelligent living space. Our real-time routine-logging Real-AR system is categorized into two categories. The data collection with the use of a depth camera, feature extraction based on joint information and training/recognition of each activity. In-addition, the recognition mechanism locates, and pinpoints the learned activities and induces routine-logs. The evaluation applied on the depth datasets (self-annotated and MSRAction3D datasets) demonstrated that proposed system can achieve better recognition rates and robust as compare to state-of-the-art methods. Our Real-AR should be feasibly accessible and permanently used in behavior monitoring applications, humanoid-robot systems and e-medical therapy systems.

u-GIS 야외 증강현실 시스템 개발에 관한 연구 (A Study on u-GIS Outdoor Augmented Reality System Development)

  • 김정환;김신형;길우성
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권1호
    • /
    • pp.183-188
    • /
    • 2009
  • 본 논문에서는 3차원 공간정보의 질을 향상시키고, 공간정보만으로 표현하기 어려운 부분을 시각화하는 u-GIS 야외 증강현실 시스템 개발 방법을 제안한다. 이 방법은 증강현실 시스템을 개발하기 위해 세 가지 기술을 사용한다. 첫째, 증강현실을 위한 카메라 영상을 포함한 센서 정보측정 및 보정기술과 둘째, 카메라 연동센서 기반 트래킹 기술. 마지막으로, 카메라 영상과 3차원 공간 정보의 정합을 위한 3차원 공간정보 합성기술이다. 본 논문에서는 세 가지 기술을 기반으로 실제 공간정보와 3D GIS 모델을 합성하여 증강하는 시스템을 개발하였다.

  • PDF

Augmented Reality Service Based on Object Pose Prediction Using PnP Algorithm

  • Kim, In-Seon;Jung, Tae-Won;Jung, Kye-Dong
    • International Journal of Advanced Culture Technology
    • /
    • 제9권4호
    • /
    • pp.295-301
    • /
    • 2021
  • Digital media technology is gradually developing with the development of convergence quaternary industrial technology and mobile devices. The combination of deep learning and augmented reality can provide more convenient and lively services through the interaction of 3D virtual images with the real world. We combine deep learning-based pose prediction with augmented reality technology. We predict the eight vertices of the bounding box of the object in the image. Using the predicted eight vertices(x,y), eight vertices(x,y,z) of 3D mesh, and the intrinsic parameter of the smartphone camera, we compute the external parameters of the camera through the PnP algorithm. We calculate the distance to the object and the degree of rotation of the object using the external parameter and apply to AR content. Our method provides services in a web environment, making it highly accessible to users and easy to maintain the system. As we provide augmented reality services using consumers' smartphone cameras, we can apply them to various business fields.

단안카메라 기반 삼차원 입체영상 증강현실 (3D Stereoscopic Augmented Reality with a Monocular Camera)

  • 노승민;이진우;황재인;김준호
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제22권3호
    • /
    • pp.11-20
    • /
    • 2016
  • 본 논문은 모바일 기반 양안식 HMD 기기를 사용하는 마커기반의 증강현실 시나리오에서 단안영상으로부터 삼차원 입체영상을 생성하는 효과적인 기법을 제안한다. 모바일 기기의 단안카메라로는 좌안과 우안에 대해 정확한 양안시차를 제공하는 양안영상을 생성할 수 없기 때문에, 기존의 양안식 증강현실 시스템에서는 좌안과 우안에 동일한 실세계 영상을 제공하여 입체감과 몰입감이 떨어지는 문제점이 있다. 본 논문에서는 마커기반의 증강현실 시나리오에서 대부분의 사용자들이 마커를 주시한다는 가정 하에, 기존 방법에 비해 높은 입체감과 시각적 편안함을 제공하는 단안카메라 기반 3차원 입체영상 생성기법을 제안한다. 마커와 카메라의 3차원 자세정보를 통해 단안영상을 3차원 공간상에 나타내고, 사용자의 좌안과 우안에 해당하는 가상의 두 카메라를 통해 단안영상의 마커영역과 마커 위에 증강될 가상물체에 대해서 시차를 계산한다. 마커 이외의 영역은 블러 효과를 적용하여 선명도를 낮추고 양안식 HMD를 통해 입체 콘텐츠를 감상할 때 발생하는 시각적인 피로를 감소시킨다. 본 논문에서 제안하는 방법으로 생성된 3차원 입체영상이 기존 방법에 비해 높은 입체감을 제공하는지 여부를 세 가지의 사용자 실험을 통해 평가하였다. 실험결과, 본 논문에서 제안하는 방법이 기존방법에 비해 높은 입체감을 제공하고 시각적인 피로가 크지 않는다는 것, 사람의 시차와 동일한 스테레오 카메라를 통해 촬영된 영상과 유사한 현실감을 사용자에게 제공한다는 것, 그리고 영상블러를 통해 사용자의 시각적인 피로도가 감소되었다는 사실을 확인하였다.

Real-time Human Pose Estimation using RGB-D images and Deep Learning

  • 림빈보니카;성낙준;마준;최유주;홍민
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.113-121
    • /
    • 2020
  • Human Pose Estimation (HPE) which localizes the human body joints becomes a high potential for high-level applications in the field of computer vision. The main challenges of HPE in real-time are occlusion, illumination change and diversity of pose appearance. The single RGB image is fed into HPE framework in order to reduce the computation cost by using depth-independent device such as a common camera, webcam, or phone cam. However, HPE based on the single RGB is not able to solve the above challenges due to inherent characteristics of color or texture. On the other hand, depth information which is fed into HPE framework and detects the human body parts in 3D coordinates can be usefully used to solve the above challenges. However, the depth information-based HPE requires the depth-dependent device which has space constraint and is cost consuming. Especially, the result of depth information-based HPE is less reliable due to the requirement of pose initialization and less stabilization of frame tracking. Therefore, this paper proposes a new method of HPE which is robust in estimating self-occlusion. There are many human parts which can be occluded by other body parts. However, this paper focuses only on head self-occlusion. The new method is a combination of the RGB image-based HPE framework and the depth information-based HPE framework. We evaluated the performance of the proposed method by COCO Object Keypoint Similarity library. By taking an advantage of RGB image-based HPE method and depth information-based HPE method, our HPE method based on RGB-D achieved the mAP of 0.903 and mAR of 0.938. It proved that our method outperforms the RGB-based HPE and the depth-based HPE.

메디컬 디지털 트윈 기반 동적 가상 인체 획득 시스템 (Medical Digital Twin-Based Dynamic Virtual Body Capture System)

  • Kim, Daehwan;Kim, Yongwan;Lee, Kisuk
    • 한국정보통신학회논문지
    • /
    • 제24권10호
    • /
    • pp.1398-1401
    • /
    • 2020
  • We present the concept of a Medical Digital Twin (MDT) that can predict and analyze medical diseases using computer simulations and introduce a dynamic virtual body capture system to create it. The MDT is a technology that creates a 3D digital virtual human body by reflecting individual medical and biometric information. The virtual human body is composed of a static virtual human body that reflects an individual's internal and external information and a dynamic virtual human body that reflects his motion. Especially we describe an early version of the dynamic virtual body capture system that enables continuous simulation of musculoskeletal diseases.

RGB-Depth 카메라와 Deep Convolution Neural Networks 기반의 실시간 사람 양손 3D 포즈 추정 (Real-time 3D Pose Estimation of Both Human Hands via RGB-Depth Camera and Deep Convolutional Neural Networks)

  • 박나현;지용빈;기건;김태연;박혜민;김태성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.686-689
    • /
    • 2018
  • 3D 손 포즈 추정(Hand Pose Estimation, HPE)은 스마트 인간 컴퓨터 인터페이스를 위해서 중요한 기술이다. 이 연구에서는 딥러닝 방법을 기반으로 하여 단일 RGB-Depth 카메라로 촬영한 양손의 3D 손 자세를 실시간으로 인식하는 손 포즈 추정 시스템을 제시한다. 손 포즈 추정 시스템은 4단계로 구성된다. 첫째, Skin Detection 및 Depth cutting 알고리즘을 사용하여 양손을 RGB와 깊이 영상에서 감지하고 추출한다. 둘째, Convolutional Neural Network(CNN) Classifier는 오른손과 왼손을 구별하는데 사용된다. CNN Classifier 는 3개의 convolution layer와 2개의 Fully-Connected Layer로 구성되어 있으며, 추출된 깊이 영상을 입력으로 사용한다. 셋째, 학습된 CNN regressor는 추출된 왼쪽 및 오른쪽 손의 깊이 영상에서 손 관절을 추정하기 위해 다수의 Convolutional Layers, Pooling Layers, Fully Connected Layers로 구성된다. CNN classifier와 regressor는 22,000개 깊이 영상 데이터셋으로 학습된다. 마지막으로, 각 손의 3D 손 자세는 추정된 손 관절 정보로부터 재구성된다. 테스트 결과, CNN classifier는 오른쪽 손과 왼쪽 손을 96.9%의 정확도로 구별할 수 있으며, CNN regressor는 형균 8.48mm의 오차 범위로 3D 손 관절 정보를 추정할 수 있다. 본 연구에서 제안하는 손 포즈 추정 시스템은 가상 현실(virtual reality, VR), 증강 현실(Augmented Reality, AR) 및 융합 현실 (Mixed Reality, MR) 응용 프로그램을 포함한 다양한 응용 분야에서 사용할 수 있다.

A study on the implementation of Korea's traditional pagoda WebXR service

  • Byong-Kwon Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.69-75
    • /
    • 2024
  • 본 연구는 전통적인 건축물인 '탑'에 대한 형태와 특징을 더 잘 이해하기 위해 WebXR 기술을 활용하여 웹 상에서 3D 모델로 확인하고 가상현실에서 경험할 수 있도록 하는 데 중점을 두었다. 우리 나라의 전통 탑은 직접 방문해서 확인하기 어렵고, 탑의 규모로 인해 각 층의 구조와 특징을 파악하는 것도 어려움이 있다. 이런 문제들을 해결하기 위해 본 연구에서는 지리적이고 시간적 제약 없이 사용자가 WebXR 형태의 서비스를 통해 탑을 확인하고 분석할 수 있도록 했다. 연구방법으로는 WebAR을 활용하여 스마트 기기 및 현장에서도 직접 3D 모델을 웹에서 확인할 수 있도록 서비스를 제공한다. 그러나 야외에서는 카메라 품질과 외부 조건에 따라 성능이 차이가 있을 수 있다. 이러한 문제를 개선하기 위해 탑의 원형을 검출하고 매칭하는 기술을 적용했다. 이를 통해 현장 방문 없이 전국의 다양한 전통 탑에 대한 정보와 특징을 웹-상에서 확인하고 분석할 수 있는 원격지원 서비스를 제안하며, 현장에서는 스마트 기기를 활용한 증강현실 형태의 탑을 확인할 수 있을 것으로 기대된다.

멀티뷰 카메라를 사용한 외부 카메라 보정 (Extrinsic calibration using a multi-view camera)

  • 김기영;김세환;박종일;우운택
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.187-190
    • /
    • 2003
  • In this paper, we propose an extrinsic calibration method for a multi-view camera to get an optimal pose in 3D space. Conventional calibration algorithms do not guarantee the calibration accuracy at a mid/long distance because pixel errors increase as the distance between camera and pattern goes far. To compensate for the calibration errors, firstly, we apply the Tsai's algorithm to each lens so that we obtain initial extrinsic parameters Then, we estimate extrinsic parameters by using distance vectors obtained from structural cues of a multi-view camera. After we get the estimated extrinsic parameters of each lens, we carry out a non-linear optimization using the relationship between camera coordinate and world coordinate iteratively. The optimal camera parameters can be used in generating 3D panoramic virtual environment and supporting AR applications.

  • PDF