DOI QR코드

DOI QR Code

Kinect 깊이 카메라를 이용한 실감 원격 영상회의의 시선 맞춤 시스템

Real-time Eye Contact System Using a Kinect Depth Camera for Realistic Telepresence

  • 이상범 (광주과학기술원 정보통신공학과) ;
  • 호요성 (광주과학기술원 정보통신공학과)
  • 투고 : 2012.02.11
  • 심사 : 2012.04.10
  • 발행 : 2012.04.30

초록

본 논문에서는 실감 원격 영상회의를 위한 시선 맞춤 시스템을 제안한다. 제안하는 방법은 적외선 구조광을 사용하는 Kinect 깊이 카메라를 이용해서 색상 영상과 깊이 영상을 획득하고, 깊이 영상을 이용해서 사용자를 배경으로부터 분리한다. 깊이 카메라로부터 획득한 가공되지 않은 깊이 영상은 다양한 형태의 잡음을 가지고 있기 때문에, 첫번째 전처리 과정으로 결합형 양방향 필터를 사용해서 잡음을 제거한다. 그 다음, 깊이값의 불연속성에 적응적인 저역 필터를 적용한다. 색상 영상과 전처리 과정을 거친 깊이 영상을 이용해서 우리는 가상시점에서의 화자를 3차원 모델로 복원한다. 전체 시스템은 GPU 기반의 병렬 프로그래밍을 통해 실시간 처리가 가능하도록 했다. 최종적으로, 우리는 시선이 조정된 원격의 화자 영상을 얻을 수 있게 된다. 실험 결과를 통해 제안하는 시스템이 자연스러운 화자간 시선 맞춤을 실시간으로 가능하게 하는 것을 확인했다.

In this paper, we present a real-time eye contact system for realistic telepresence using a Kinect depth camera. In order to generate the eye contact image, we capture a pair of color and depth video. Then, the foreground single user is separated from the background. Since the raw depth data includes several types of noises, we perform a joint bilateral filtering method. We apply the discontinuity-adaptive depth filter to the filtered depth map to reduce the disocclusion area. From the color image and the preprocessed depth map, we construct a user mesh model at the virtual viewpoint. The entire system is implemented through GPU-based parallel programming for real-time processing. Experimental results have shown that the proposed eye contact system is efficient in realizing eye contact, providing the realistic telepresence.

키워드

참고문헌

  1. D. Sharstein and R. Szeliski, "A taxonomy and evaluation of dense two-frame stereo correspondence algorithms," IEEE Workshop on Stereo and Multi-Baseline Vision, pp. 131-140, Dec. 2001.
  2. C. L. Zitnick, S. B. Kang, M. Uyttendaele, S. Winder, and R. Szeliski, "High-quality video view interpolation using a layered representation," SIGGRAPH'04, pp. 600-608, Aug. 2004.
  3. D. Scharstein, and R. Szeliski, "High-accuracy stereo depth maps using structured light," Computer Vision and Pattern Recognition Workshops, vol. 1, pp. 195-202, June 2003.
  4. S. Kim, S. Lee, and Y. Ho, "Three-dimensional natural video system based on layered representation of depth maps," IEEE Transactions on Consumer Electronics, vol. 52, no. 3, pp. 1035-1042, Aug. 2006. https://doi.org/10.1109/TCE.2006.1706504
  5. E. Lee and Y. Ho, "Generation of multi-view video using a fusion camera system for 3D displays," IEEE Transactions on Consumer Electronics, vol. 56, no. 4, pp. 2797-2805, Nov. 2010. https://doi.org/10.1109/TCE.2010.5681171
  6. L. Xia, C. Chen, and J. K. Aggarwal, "Human detection using depth information by Kinect," Computer Vision and Pattern Recognition Workshops, pp. 15-22, June 2011.
  7. Redert, M. O. Beeck, C. Fehn, W. IJsselsteijn, M. Pollefeys, L. Van Gool, E. Ofek, I. Sexton, P. Surman, "ATTEST: Advanced Three-dimensional Television System Techniques," International Symposium on 3D Data Processing, pp. 313-319, June 2002.
  8. O. Schreer, N. Atzapadin, and I. Feldmann, "Multi-baseline disparity fusion for immersive videoconferencing," International Conference on Immersive Telecomm., pp. 27-29, May 2009.
  9. S. Lee, I. Shin, and Y. Ho, "Gaze-corrected view generation using stereo camera system for immersive videoconferencing," IEEE Transactions on Consumer Electronics, vol. 57, no. 3, pp. 1033-1040, Aug. 2011. https://doi.org/10.1109/TCE.2011.6018852
  10. J. Kopf, M. F. Cohen, D. Lischinski, and M. Uyttendaele, "Joint bilateral upsampling," SIGGRAPH'07, pp. 96-100, Aug. 2007.
  11. S. Lee and Y. Ho, "Discontinuity-adaptive depth map filtering for 3D view generation," International Conference on Immersive Telecomm., pp. T8(1-6), 2009.