DOI QR코드

DOI QR Code

Development of Reinforcement Learning-based Obstacle Avoidance toward Autonomous Mobile Robots for an Industrial Environment

산업용 자율 주행 로봇에서의 격자 지도를 사용한 강화학습 기반 회피 경로 생성기 개발

  • Received : 2018.12.28
  • Accepted : 2019.01.21
  • Published : 2019.03.28

Abstract

Autonomous locomotion has two essential functionalities: mapping builds and updates maps by uncertain position information and measured sensor inputs, and localization is to find the positional information with the inaccurate map and the sensor information. In addition, obstacle detection, avoidance, and path designs are necessarily required for autonomous locomotion by combining the probabilistic methods based on uncertain locations. The sensory inputs, which are measured by a metric-based scanner, have difficulties of distinguishing moving obstacles like humans from static objects like walls in given environments. This paper proposes the low resolution grid map combined with reinforcement learning, which is compared with the conventional recognition method for detecting static and moving objects to generate obstacle avoiding path. Finally, the proposed method is verified with experimental results.

자율 주행은 이동 로봇의 핵심적 기술로써, 측정된 센서 정보를 토대로 불확실한 위치 정보를 이용한 지도 작성 및 수정 기능과, 불확실한 지도 및 센서 정보를 이용한 로봇의 위치 인식 기능으로 구성된다. 자율주행은 이러한 주행 위치의 불확실성에 기반한 확률론적 방법론과 함께 주행 시 장애물의 감지 및 회피 경로의 생성, 반복적 주행 패턴에 따른 경로 관리 기능이 필수적 요소이다. 거리 기반의 스캐너를 통해 관측된 센서 입력은, 지도 구성에 사용된 벽과 같은 정적 물체와 주행 시의 사람처럼 움직이는 동적 물체와의 구별이 필요하기 ?문에 장애물 감지에 어려움이 있다. 본 논문에서는, 이러한 자율 주행 환경에서 기존의 정적, 동적 개체의 판별 방식과 비교하여, 장애물 회피를 위한 저해상도 격자 공간의 생성 및 강화학습을 이용한 경로 생성을 다루고자 한다. 최종적으로 실험을 통해 제안된 방법론의 실효성을 검증하고자 한다.

Keywords

CCTHCV_2019_v19n3_72_f0001.png 이미지

그림 1. 생성된 지도 데이터(상)와 주행 중의 로봇의 추정 위치를 토대로 복원된 거리 정보(하)의 관계. 원형 안에 동적 장애물인 사람이 이동 중이며, 진행 위치, 각도 오차에 따른 지도와 센서 정보간의 정렬 오차를 표현함.

CCTHCV_2019_v19n3_72_f0002.png 이미지

그림 2. 장애물 감지 및 회피를 위한 저해상도 격자 공간의 생성 및 장애물 이동에 따른 확률 수정 과정

CCTHCV_2019_v19n3_72_f0003.png 이미지

그림 3. 강화 학습 방식으로 구성된 장애물 회피 경로 생성(상) 및 장애물 감지에 따른 상태함수 분포 결과(하)

CCTHCV_2019_v19n3_72_f0004.png 이미지

그림 4. 코너링에 의한 급격한 회전 시, 지도와 센서 값의 큰 정렬 오차 발생에 의한 장애물 판단 불가 예시

CCTHCV_2019_v19n3_72_f0005.png 이미지

그림 5. 장애물 지도 및 강화학습을 연계한 회피 방식

CCTHCV_2019_v19n3_72_f0006.png 이미지

그림 6. 저해상도의 장애물 감지용 지도 작성을 통해, 장애물 출몰지역에 대한 강화학습 결과 및 생성 회피 경로

CCTHCV_2019_v19n3_72_f0007.png 이미지

그림 7. 실 환경에서 불특정 장애물을 회피하는 테스트 장면

References

  1. S. Thrun, "A Probabilistic Approach to Concurrent Mapping and Localization for Mobile Robots," Machine Learning and Autonomous Robots, Vol.31, No.5, pp.1-25, 1998
  2. S. Thrun, W. Burgard, and D. Fox, Probabilistic Robotics, pp.171-172, MIT Press, 2005.
  3. D. Holz, D. Droeschel, S. Behnke, M. May, and H. Surmann, "Fast 3D perception for collision avoidance and SLAM in domestic environment," In Mobile robots navigation, In-Tech Education and Publishing, Vienna, Austria, 2010.
  4. G. Grisetti, C. Stachniss, and W. Burgard, "Improved Technique for Grid Mapping with Rao-Blackwellization Particle Filters," IEEE Trans. on Robotics (T-RO), Vol.23, pp.34-46, 2007. https://doi.org/10.1109/TRO.2006.889486
  5. J. Civera, A. J. Davison, and J. M. M. Montiel, "Inverse depth parametrization for monocular SLAM," IEEE Trans. Robot., Vol.24, No.5, pp.932-945, 2008(10). https://doi.org/10.1109/TRO.2008.2003276
  6. A. J. Davison, I. D. Reid, N. D. Molton, and O. Stasse, "MonoSLAM: Real-time single camera SLAM," IEEE Trans. Pattern Anal. Mach. Intell., Vol.29, No.6, pp.1052-1067, 2007(6). https://doi.org/10.1109/TPAMI.2007.1049
  7. D. Marzorati, M. Matteucci, D. Migliore, and D. G. Sorrenti, "Monocular SLAM with inverse scaling parametrization," In Proc. of the British machine vision conference, Leeds, pp.945-994, 2008.
  8. J. Sola, T. Vidal-Calleja, J. Civera, and J. M. M. Montiel, "Impact of landmark parametrization on monocular EKF-SLAM with points and lines," International Journal of Computer Vision, Vol.97, pp.339-368, 2012. https://doi.org/10.1007/s11263-011-0492-5
  9. R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, Cambridge Univ. Press, pp.157-159, 1998.
  10. J. Roberts, I. Manchester, and R. Tedrake, "Feedback controller parameterizations for reinforcementlearning," In 2011 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL), 2011.