DOI QR코드

DOI QR Code

YOLOv3 객체 검출을 이용한 AR 관광 서비스 프레임워크

AR Tourism Service Framework Using YOLOv3 Object Detection

  • 김인선 (광운대학교 스마트융합대학원 스마트시스템학과) ;
  • 정치서 (광운대학교 스마트융합대학원 스마트시스템학과) ;
  • 정계동 (광운대학교 인제니움학부대학)
  • 투고 : 2021.01.11
  • 심사 : 2021.02.05
  • 발행 : 2021.02.28

초록

교통 수단과 모바일의 발전으로 관광 여행 수요가 증가하고 관련 산업 또한 크게 발전하고 있다. 디지털 미디어 기술 중 한 분야인 증강현실과 관광 콘텐츠의 접목 또한 활발하게 연구 중이며 인공지능은 이미 관광 산업과 다양한 방향으로 접목되어 관광객의 여행 경험을 풍부하게 만들어준다. 본 논문에서는 관광지역을 축소해 제작한 미니어처 모형을 스캔하면, 사전에 딥러닝을 이용해 학습된 모델을 기반으로 해당 관광지를 찾은 뒤 관련 정보와 3D 모델을 AR 서비스로 제공하는 시스템을 제안한다. 다양한 딥러닝 신경망 중 하나인 YOLOv3 신경망을 사용해 모델 학습과 객체 검출을 진행하므로, 빠른 속도로 물체 검출이 이루어져 실시간으로 서비스를 제공할 수 있다.

With the development of transportation and mobiles demand for tourism travel is increasing and related industries are also developing significantly. The combination of augmented reality and tourism contents one of the areas of digital media technology, is also actively being studied, and artificial intelligence is already combined with the tourism industry in various directions, enriching tourists' travel experiences. In this paper, we propose a system that scans miniature models produced by reducing tourist areas, finds the relevant tourist sites based on models learned using deep learning in advance, and provides relevant information and 3D models as AR services. Because model learning and object detection are carried out using YOLOv3 neural networks, one of various deep learning neural networks, object detection can be performed at a fast rate to provide real-time service.

키워드

Ⅰ. 서론

교통수단의 발전으로 더욱 다양한 지역으로의 관광여행 수요가 증가하였다. 또한, 모바일의 발전으로 대부분 사용자는 성별과 나이에 불문하고 스마트폰의 정보를 활용하여 관광지의 정보를 검색, 활용하고 있다. 모바일 정보를 통해 얻게 되는 정서적 이미지와 인지적 이미지는 관광 만족도에 높은 영향을 끼친다.[1] 이렇듯 교통수단과 미디어의 발전에 따라 관광 산업은 크게 발전하고 있다. 디지털 미디어 기술 중 한 분야인 증강현실과 관광 콘텐츠의 접목 또한 활발하게 연구 중이다.[2] 인공지능은 이미 관광 산업과 다양한 방향으로 접목되어 관광객의 여행 경험을 풍부하게 만들어준다. 인공지능 기술 중 하나인 딥러닝을 이용한 객체 검출은 관광 산업과 접목되어 조금 더 생동감 있는 여행을 돕는다.[3-4]

본 논문에서 제안하는 시스템은 관광지 모형을 스캔하면, 사전에 딥러닝을 이용해 학습된 모델을 기반으로 해당 관광지를 찾은 뒤 관련 정보와 3D 모델을 AR 서비스로 제공한다.

제2장에서는 관련 연구로 관광 서비스, YOLOv3 객체 검출, 증강현실(AR)에 관해 기술한다. 제3장에서는 전체 시스템 구조에 관해 설명한다. 제4장은 실제로 시스템을 적용해서 물체 인식에 적용될 학습 모델을 구축하고 AR 서비스를 구현한다. 제5장은 시스템 요약 및 향후 연구 과제에 관하여 기술한다.

Ⅱ. 관련 연구

1. 관광 서비스

관광 수요자가 많아짐에 따라 관련 연구 또한 활발하게 발전하고 있다. 스마트폰의 보급률이 80% 이상으로 육박함에 따라, 모바일에서의 관광 정보는 관광지 이미지 결정과 만족도에 유의미한 영향이 있다. 즉, 관광객은 모바일에서의 관광 정보를 이용할 때 실시간 피드백, 소통, 새로운 정보 확인 등의 상호 작용을 활발히 할 수 있으며 관광 만족도에도 영향력이 높다. 이를 이용해 소비자와의 소통이 중심이 되는 다양한 연구 개발이 필요하다.[1]

2. YOLOv3 객체 검출

딥러닝을 이용한 객체 검출 기술은 다양한 분야에 접목되어 발전 중이다. 모바일 기기가 보편화 됨에 따라 모바일을 이용한 관광 서비스로 CNN을 활용해 문화재를 인식한 뒤 관련된 정보를 제공함으로써 사용자의 만족도를 높일 수 있다.[4][5]

본 논문에서는 많은 딥러닝 신경망 중 YOLOv3 신경망을 사용한다.[6] YOLO 모델은 단일 CNN 모델 하나로 이미지 전체를 보고 bounding box를 예측할 수 있다. 또한, bounding box regression과 multi-class classification을 동시에 수행할 수 있다는 이점이 있다. 따라서 높은 mAP를 유지하며 실시간으로 객체를 검출할 수 있다. 이러한 YOLO를 더욱 개선한 YOLOv3는 정확도가 올라감과 동시에 빠른 속도가 유지되었다. 본 논문에서는 이러한 이점으로 YOLOv3 신경망을 이용해 실시간 객체 검출을 수행한다.

3. 증강현실(AR)

증강현실은 가상현실의 한 분야로 사용자가 눈으로 보는 현실 세계에 3D 가상 이미지를 혼합하는 컴퓨터 그래픽 기법이다. 시각적, 청각적인 정보에 대한 경험을 극대화할 수 있다. 이를 이용해 실제로 관광객의 오프라인 상점 방문, 관광지 방문이 이루어졌을 때 증강현실의 적용으로 매출 증대 등 관련 상업의 발전 또한 기대할 수 있다.[7] 5G 상용화가 이루어짐에 따라 증강현실(AR)과 관련 기술은 더욱 많은 분야에 활용될 것으로 전망된다.[8][9] 실제로 관광 문화유산과 증강현실 기술이 접목되었을 때 무한한 창의성을 발휘해 사용자의 만족도를 극대화하는 서비스를 제공할 수 있다는 강점이 있다.[10] 모바일에서 AR 콘텐츠를 제공하는 방법에는 여러 가지가 있는데, 본 논문에서는 모바일 기종의 영향을 최소화하고 웹 브라우저를 통해 AR 서비스를 제공하기 위해 WebXR 프레임 워크를 이용한다.[11]

Ⅲ. 제안하는 AR 관광 서비스의 프레임워크

그림 1은 본 논문에서 제안하는 시스템의 흐름도를 나타낸 것이다. 입력영역과 출력 영역은 클라이언트 측에서, YOLOv3 예측기 실행과 데이터베이스 접근은 서버에서 이루어진다.

OTNBBE_2021_v21n1_195_f0001.png 이미지

그림 1. 제안하는 프레임워크

Fig. 1. Proposed Framework

입력 영역에서 사용자가 관광 서비스를 제공하는 웹 페이지에 접속한다. 사용자가 정보를 받기 원하는 관광지역의 미니어처 모형을 스캔한다. 스캔된 이미지 파일은 웹 소켓을 통해 서버로 전송된다.

서버에서 이미지를 전송받으면 사전에 학습된 모델과 YOLOv3 예측기를 통해 해당 모형에 해당하는 관광지를 예측한다. 그리고 데이터베이스에 접근해 예측된 관광지에 해당하는 AR 콘텐츠를 클라이언트 측에 전송한다.

예측이 완료된 후 출력 영역에서 사용자가 AR 콘텐츠를 띄울 Anchor를 지정하면 예측된 Class에 해당하는 관광지의 AR 콘텐츠를 제공한다.

Ⅳ. 제안하는 시스템 적용

1. 객체 검출을 위한 학습 모델

그림 2는 서울특별시의 주요 행정구역을 축소해 제작된 모형이다. 본 논문에서는 서울특별시 중구의 관광지인 맥스타일을 검출하기 위한 데이터를 구축하고 테스트한다.

OTNBBE_2021_v21n1_195_f0002.png 이미지

그림 2. 서울 주요 지역 축소 모형

Fig. 2. The Miniature Model of Seoul's Major Areas

학습에 이용되는 데이터 구성은 2D 이미지와 이미지에 해당하는 레이블이다. 레이블링 진행은 그림 3과 같이 yolo mark를 활용하였다.

OTNBBE_2021_v21n1_195_f0003.png 이미지

그림 3. YOLOv3 학습을 위한 레이블링

Fig. 3. Labeling for YOLOv3 Learning

레이블의 형식은 그림 4와 같다. 레이블링이 완료된 후 실제로 YOLOv3 신경망을 사용해 학습을 진행하였다. 입력된 데이터의 개수는 총 374개이며, 80%의 데이터는 학습에 이용하고 20%의 데이터는 성능 측정에 이용했다. 단일 클래스로 학습했으며 30번 반복하여 학습했다.

OTNBBE_2021_v21n1_195_f0004.png 이미지

그림 4. 레이블의 형식

Fig. 4. Format of Label

그림 5는 학습이 이루어지는 동안 mAP(Mean Average Precision)을 측정한 결과이다. 반복 횟수가 28번 이상일 때 mAP의 큰 변화가 없어 30회 반복 후 학습을 종료했다. 학습이 종료될 때의 mAP는 약 0.92이다. 학습을 완료한 후 학습기에 입력하지 않은 사진을 이용해 물체 검출 테스트를 진행하였다. 그림 6과 같이 맥스타일 건물을 검출한 것을 확인하였다.

OTNBBE_2021_v21n1_195_f0009.png 이미지

그림 5. mAP 측정 결과

Fig. 5. The Result of mAP Measurement

OTNBBE_2021_v21n1_195_f0005.png 이미지

그림 6. 맥스타일 검출 결과

Fig. 6. The Result of Detection of Maxillae

다양한 관광지 모형 검출에 대한 테스트를 진행하기 위해 맥스타일 건물이 아닌 흥인지문 건물의 검출을 위해 학습을 진행하였다. 맥스타일 데이터셋의 학습 환경과 동일한 환경에서 단일 클래스로 총 230회 반복하여 학습을 진행하였다. 학습이 완료된 시점에서의 mAP는 약 0.9이다. 맥스타일 건물 검출을 위한 학습에 비해 낮은 결과를 나타냈다. 그림 7은 흥인지문 건물의 검출을 위한 학습의 mAP를 측정한 결과이다.

OTNBBE_2021_v21n1_195_f0006.png 이미지

그림 7. mAP 측정 결과

Fig. 7. The Result of mAP Measurement

학습이 완료된 후 마찬가지로 학습기에 입력되지 않은 이미지를 이용해 흥인지문 검출 테스트를 진행하였다.

그림 8은 흥인지문 검출 테스트를 진행한 결과이다. 실제로 흥인지문 건물을 찾은 박스도 있지만, 검출할 물체가 아닌 곳을 예측한 박스도 존재한다.

OTNBBE_2021_v21n1_195_f0007.png 이미지

그림 8. 흥인지문 검출 결과

Fig. 8. The Result of Detection of Heunginjimun

YOLOv3 신경망의 특성으로 크기가 작은 물체의 경우 비교적 학습과 검출이 원활하게 이루어지지 않는다. 따라서 실제 학습을 위한 데이터셋 구성과 테스트를 진행할 경우 너무 작은 물체의 검출은 지양하는 것이 바람직하다. 이렇게 학습된 모델은 서버에 저장되어 관광 모형 인식을 위해 사용된다.

2. AR 관광 서비스 적용 예

그림 9는 학습에 사용된 모형과 같은 모형을 이용해서 실제로 제안하는 시스템을 적용했을 때 사용자에게 보이는 화면을 나타낸 것이다. 먼저 ①에서 사용자가 웹 페이지 상에서 관광 모형을 촬영한다. 촬영된 이미지는 ②에서 웹 소켓을 통해 서버로 전송된다. 서버는 사전 학습된 모델을 이용해 전송받은 이미지에 대한 예측을 진행한다. 이때 예측을 위한 신경망 또한 YOLOv3를 이용하며, 서버에서 예측된 클래스는 맥스타일에 해당한다. 서버에서 데이터베이스에 접근해 맥스타일의 AR 콘텐츠를 ③을 통해 클라이언트에 전송한다. 마지막으로 사용자가 AR 콘텐츠를 띄울 위치를 지정하면 ④를 통해 해당 위치에 맥스타일 AR 콘텐츠를 제공한다. AR 콘텐츠 구현에는 WebXR 프레임워크의 Hit Test 기능을 이용하였다.

OTNBBE_2021_v21n1_195_f0008.png 이미지

그림 9. 제안된 AR 관광 서비스 적용 예

Fig. 9. Examples of Applications of The Proposed System

Ⅴ. 결론

본 논문은 관광지 모형을 스캔하면 딥러닝을 이용해 해당하는 관광지를 검출한 후 AR 서비스를 제공하는 시스템을 제안한다. 제안한 시스템의 특징은 다음과 같다. 첫째, 관광 모형을 스캔할 때 2D 이미지를 이용하므로 스마트폰 기종에 큰 영향을 받지 않는다. 둘째, YOLOv3 을 활용하여 빠른 속도로 물체 검출이 이루어져 실시간으로 서비스를 제공할 수 있다. 셋째, 관광지역 모형을 스캔하여 해당 관광지에 대한 3D 모델과 관련 정보를 AR 서비스로 제공한다. 넷째, 애플리케이션이 아닌 웹으로만 서비스를 제공하여 시스템을 유지, 보수하기 용이하다. 추후에는 GNN 등의 다른 딥러닝 객체 검출 알고리즘을 적용하여 정확도와 속도를 높일 예정이다. 다만, 크기가 작은 건물에 대해서는 검출 정확도가 떨어지는 경향이 있어 학습 및 검출 실행에 주의가 필요하다. 또한, 다양한 지역의 데이터를 구축하여 더욱 많은 지역과 관광지에 대한 서비스를 제공할 수 있도록 해야 할 것이다.

참고문헌

  1. Eun-Suk Park, "How Mobile Tour Information Affects the Image and Satisfaction on that Spots", Journal of Tourism and Leisure Research, The Korea Academic Society Of Tourism And Leisure, Vol. 27, No. 9, pp. 41-58, Sep 2015.
  2. Hyung-Chul Kang, "A Study on Smart Tourism Content Using Augmented Reality", A Journal of Brand Design Association of Korea, Brand Design Association Of Korea, Vol. 17, No. 3, pp. 165-174, Sep 2019. DOI : https://doi.org/10.18852/bdak.2019.17.3.165
  3. Hye-rin Lee, "Seminar on the Role of Tourism Industry and Artificial Intelligence", Korean Tourism Policies, Korea Culture & Tourism Institute, No. 75, pp. 123-128, Mar 2019
  4. Hyun-ju Oh, Ji-sol Jung, So-jung Park. Ki-Yong Lee, "Development of a tour information system for smart phones using CNN", Journal of the Korean Institute of Information Scientists and Engineers 2019 Korea Computer Science Competition, Korean Institute of Information Scientists and Engineers, pp. 1642-1644, Jun 2019.
  5. Jin-Seon Oh, In-Gook Chun1, "Implementation of Smart Shopping Cart using Object Detection Method based on Deep Learning", Journal of the Korea Academia-Industrial cooperation Society, The Korea Academia-Industrial cooperation Society, Vol. 21, No. 7, pp. 262-269 July 2020. DOI: https://doi.org/10.5762/KAIS.2020.21.7.262
  6. Redmon, Joseph and Farhadi, Ali, "YOLOv3: An Incremental Improvement", arXiv preprint arXiv:1804.02767, Apr 2018.
  7. Chang-Beom Jin, Jae-Yeul Lee, Myoung-Kil Youn, Min-Soo Kang, "A study on the sustainable growth of off-line stores using AR technology", The Journal of the Institute of Internet, Broadcasting and Communication(JIIBC), Vol. 17, No. 5, pp.103-109, Oct 2017. DOI : https://doi.org/10.7236/JIIBC.2017.17.5.103
  8. Jae-woo Shin, Chun-sung Lim, "A Study on the Development of Service Classification System by Analyzing Augmented Reality (AR) Service Cases", Journal of Korean Institute Of Industrial Engineers Autumn Conference, pp. 3141-3155, Nov 2020.
  9. Ki-Hwan Ko, "A Study on the Graphic Production Technology for AR Augmented Reality Game", The Journal of Korean Institute of Information Technology , Korean Institute of Information Technology, Vol. 16, No. 11, pp. 123 - 132, Nov 2018. DOI: https://doi.org/10.5762/KAIS.2020.21.7.262
  10. Sung-hwan Oh, Ki-duk Kim, "Study on Establishment of Deoksugung Palace, Tourist Information Services using Augmented Reality(AR) Technology", MUN HWA JAE - Annual Review in Cultural Heritage Studies, National Research Institute of Cultural Properties, pp. 26-45, June 2013.
  11. Blair Maclntyre; Trevor F. Smith, "Thoughts on the Future of WebXR and the Immersive Web", 2018 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct), IEEE, pp. 338-342, Apr 2019. DOI: https://doi.org/10.1109/ISMAR-Adjunct.2018.00099