초록
공연에 사용하는 로봇이 인간과의 상호작용하기 위한 기본 성능 중 하나는 인간의 행동을 빠르고 정확하게 파악하는 것이다. 따라서 로봇이 인간의 자세를 추정할 때 자세 인식의 정확도를 높임과 동시에 가능한 빠른 속도로 인식할 수 있어야 한다. 그러나 현재 인공지능 기술의 대표적인 방식인 딥 러닝을 사용하여 인간의 자세를 추정할 경우, 인식의 정확도와 속도라는 두 가지 성능을 동시에 만족하지 못하고 있다. 따라서 사용 목적에 따라 추론정확도가 높은 하향식 자세추정과 처리속도가 빠른 상향식 자세추정 중 하나를 선택해서 사용하는 것이 일반적이다. 본 논문에서는 앞서 언급한 두 가지 방식이 가진 장점을 모두 포함하면서 단점을 보완한 두 가지 방식을 제안한다. 첫 번째는 다중 그래픽 처리 장치를 활용해 상향식 자세추정과 물체검출을 병렬로 사용하는 방식이고, 두 번째는 상향식 자세추정과 단항분류를 융합하는 방식이다. 실험을 통해 두 가지 방식 모두 속도가 개선됨을 증명했다. 공연로봇에 이 두 가지 방식 중 하나를 사용한다면, 관객과 신뢰도 높으며 보다 빠른 상호작용을 수행할 수 있을 것으로 기대된다.
One of the basic tasks for robots to interact with humans is to quickly and accurately grasp human behavior. Therefore, it is necessary to increase the accuracy of human pose recognition when the robot is estimating the human pose and to recognize it as quickly as possible. However, when the human pose is estimated using deep learning, which is a representative method of artificial intelligence technology, recognition accuracy and speed are not satisfied at the same time. Therefore, it is common to select one of a top-down method that has high inference accuracy or a bottom-up method that has high processing speed. In this paper, we propose two methods that complement the disadvantages while including both the advantages of the two methods mentioned above. The first is to perform parallel inference on the server using multi GPU, and the second is to mix bottom-up and One-class Classification. As a result of the experiment, both of the methods presented in this paper showed improvement in speed. If these two methods are applied to the entertainment robot, it is expected that a highly reliable interaction with the audience can be performed.