A Study on Hand-Face Hybrid Gesture Interface Using MediaPipe Models

MediaPipe 모델을 이용한 손-얼굴 혼성 제스처 인터페이스에 관한 연구

  • Noyoon Kwak (Division of Computer Engineering, Baekseok University)
  • 곽노윤 (백석대학교 컴퓨터공학부)
  • Received : 2024.09.20
  • Accepted : 2024.10.20
  • Published : 2024.10.31


This paper describes a hybrid gesture interface based on MediaPipe that recognizes facial gestures and hand gestures using the MediaPipe Hands model and MediaPipe Face Mesh model, and then combines them. First, the presence of hands and faces is determined by individually detecting 3D hand landmarks of MediaPipe Hands model and 3D face landmarks of MediaPipe Face Mesh model from camera input frames, and then the face cursor position and face gestures, as well as the hand cursor position and hand gestures are recognized. Then, these are mixed in a user-friendly way to implement a user interface based on hand-face hybrid gestures. The proposed hand-face hybrid gesture interface based on MediaPipe has the advantage that the gesture mode is set to either the hand or the face, but the interface can be controlled freely using the face and hands without additional gestures for mode switching. In addition, the practicality and usefulness of the proposed hand-face hybrid gesture interface were confirmed through software operation experiments in Windows environment.

본 논문은 MediaPipe Hands 모델과 MediaPipe의 Face Mesh 모델을 이용해 얼굴 제스처와 손 제스처를 인식한 후, 이들을 결합한 MediaPipe 기반의 혼성 제스처 인터페이스에 관한 것이다. 먼저, 카메라 입력 프레임들에서 개별적으로 MediaPipe Hands 모델의 3D 손 랜드마크들과 MediaPipe Face Mesh 모델의 3D 얼굴 랜드마크들을 검출해 손과 얼굴의 유무를 판별한 후, 얼굴 커서 위치와 얼굴 제스처, 손 커서 위치와 손 제스처를 인식한다. 이후 이들을 사용자 친화적으로 혼용해 손-얼굴 혼성 제스처 기반의 사용자 인터페이스를 구현한다. 제안된 MediaPipe 기반의 손-얼굴 혼성 제스처 인터페이스는 손과 얼굴 중 어느 하나로 제스처 모드가 설정되지만, 모드 전환을 위한 추가 제스처 없이 얼굴과 손을 자유롭게 사용해 인터페이스를 제어할 수 있는 것이 장점이다. 또한 윈도우즈 환경에서 소프트웨어 조작 실험을 통해 제안된 손-얼굴 혼성 제스처 인터페이스의 실용성과 유용성을 확인할 수 있었다.



본 논문은 2024년도 교육부의 재원으로 한국연구재단의 지원을 받아 수행된 지자체-대학 협력기반 지역혁신 사업의 연구과제(2021RIS-004)로 수행되었음.