A Study on Improvement of the Human Posture Estimation Method for Performing Robots

공연로봇을 위한 인간자세 추정방법 개선에 관한 연구

  • Park, Cheonyu (Department of Interdisciplinary Robot Engineering Systems, Hanyang University) ;
  • Park, Jaehun (Department of Interdisciplinary Robot Engineering Systems, Hanyang University) ;
  • Han, Jeakweon (Department of Robotics, Hanyang University)
  • 박천유 (한양대학교 융합로봇시스템학과) ;
  • 박재훈 (한양대학교 융합로봇시스템학과) ;
  • 한재권 (한양대학교 로봇공학과)
  • Received : 2020.06.11
  • Accepted : 2020.08.18
  • Published : 2020.09.30


One of the basic tasks for robots to interact with humans is to quickly and accurately grasp human behavior. Therefore, it is necessary to increase the accuracy of human pose recognition when the robot is estimating the human pose and to recognize it as quickly as possible. However, when the human pose is estimated using deep learning, which is a representative method of artificial intelligence technology, recognition accuracy and speed are not satisfied at the same time. Therefore, it is common to select one of a top-down method that has high inference accuracy or a bottom-up method that has high processing speed. In this paper, we propose two methods that complement the disadvantages while including both the advantages of the two methods mentioned above. The first is to perform parallel inference on the server using multi GPU, and the second is to mix bottom-up and One-class Classification. As a result of the experiment, both of the methods presented in this paper showed improvement in speed. If these two methods are applied to the entertainment robot, it is expected that a highly reliable interaction with the audience can be performed.

공연에 사용하는 로봇이 인간과의 상호작용하기 위한 기본 성능 중 하나는 인간의 행동을 빠르고 정확하게 파악하는 것이다. 따라서 로봇이 인간의 자세를 추정할 때 자세 인식의 정확도를 높임과 동시에 가능한 빠른 속도로 인식할 수 있어야 한다. 그러나 현재 인공지능 기술의 대표적인 방식인 딥 러닝을 사용하여 인간의 자세를 추정할 경우, 인식의 정확도와 속도라는 두 가지 성능을 동시에 만족하지 못하고 있다. 따라서 사용 목적에 따라 추론정확도가 높은 하향식 자세추정과 처리속도가 빠른 상향식 자세추정 중 하나를 선택해서 사용하는 것이 일반적이다. 본 논문에서는 앞서 언급한 두 가지 방식이 가진 장점을 모두 포함하면서 단점을 보완한 두 가지 방식을 제안한다. 첫 번째는 다중 그래픽 처리 장치를 활용해 상향식 자세추정과 물체검출을 병렬로 사용하는 방식이고, 두 번째는 상향식 자세추정과 단항분류를 융합하는 방식이다. 실험을 통해 두 가지 방식 모두 속도가 개선됨을 증명했다. 공연로봇에 이 두 가지 방식 중 하나를 사용한다면, 관객과 신뢰도 높으며 보다 빠른 상호작용을 수행할 수 있을 것으로 기대된다.



  1. C. Breazeal et al., "Interactive robot theatre," Proceedings 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2003) (Cat. No.03CH37453), Las Vegas, NV, USA, 2003, pp. 3648-3655 vol.3, doi: 10.1109/IROS.2003.1249722.
  2. T. Mukai, M. Onishi, T. Odashima, S. Hirano and Z. Luo, "Development of the Tactile Sensor System of a Human-Interactive Robot "RI-MAN"," in IEEE Transactions on Robotics, vol. 24, no. 2, pp. 505-512, April 2008, doi: 10.1109/TRO.2008.917006.
  3. Ishiguro, H., Ono, T., Imai, M., Maeda, T., Kanda, T. and Nakatsu, R. (2001), "Robovie: an interactive humanoid robot", Industrial Robot, Vol. 28 No. 6, pp. 498-504.
  4. Oved, D. Real-time human pose estimation in the browserwith TensorFlow.js.TensorFlow Medium, May 2018. URL (accessed Jul. 14, 2020)
  5. Jin, Sheng, et al. "Towards multi-person pose tracking: Bottom-up and top-down methods." ICCV PoseTrack Workshop. Vol. 2. No. 3. 2017.
  6. Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
  7. Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014.
  8. Chalapathy, Raghavendra, and Sanjay Chawla. "Deep learning for anomaly detection: A survey." arXiv preprint arXiv:1901.03407 (2019).
  9. Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).
  10. Girshick, Ross. "Fast r-cnn." Proceedings of the IEEE international conference on computer vision. 2015.