• 제목/요약/키워드: 증강학습

검색결과 356건 처리시간 0.026초

배경 모델 학습을 통한 객체 분할/검출 및 파티클 필터를 이용한 분할된 객체의 움직임 추적 방법 (Object Segmentation/Detection through learned Background Model and Segmented Object Tracking Method using Particle Filter)

  • 임수창;김도연
    • 한국정보통신학회논문지
    • /
    • 제20권8호
    • /
    • pp.1537-1545
    • /
    • 2016
  • 실시간영상에서 객체의 분할 및 추적은 침입자 감시와 로봇의 물체 추적, 증강현실의 객체 추적등 다양한 분야에서 사용되고 있다. 본 논문에서는 초기 입력 영상의 일부를 학습하여 배경모델로 제작한 후, 배경제거 방법을 이용하여 움직이는 객체의 분할을 통해 객체를 검출하였다. 검출된 객체의 영역을 기반으로 HSV 색상히스토그램과 파티클 필터를 이용하여 객체의 움직임을 추적하는 방법을 제안한다. 제안한 분할 방법은 평균 배경모델을 이용한 방법보다 주변환경 변화의 영향을 적게 받으며, 움직이는 객체의 검출 성능이 더욱 우수하였다. 또한 단일 객체 및 다수의 객체가 존재하는 환경에서 추적 객체가 유사한 색상 객체와 겹치는 경우, 추적 객체의 영역 절반 이상이 가려지는 경우에도 지속적으로 추적하는 결과를 얻을 수 있었다. 2개의 비디오 영상을 사용한 실험결과는 평균 중첩율 85.9%, 추적률 96.3%의 성능을 보여준다.

RGB-Depth 카메라와 Deep Convolution Neural Networks 기반의 실시간 사람 양손 3D 포즈 추정 (Real-time 3D Pose Estimation of Both Human Hands via RGB-Depth Camera and Deep Convolutional Neural Networks)

  • 박나현;지용빈;기건;김태연;박혜민;김태성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.686-689
    • /
    • 2018
  • 3D 손 포즈 추정(Hand Pose Estimation, HPE)은 스마트 인간 컴퓨터 인터페이스를 위해서 중요한 기술이다. 이 연구에서는 딥러닝 방법을 기반으로 하여 단일 RGB-Depth 카메라로 촬영한 양손의 3D 손 자세를 실시간으로 인식하는 손 포즈 추정 시스템을 제시한다. 손 포즈 추정 시스템은 4단계로 구성된다. 첫째, Skin Detection 및 Depth cutting 알고리즘을 사용하여 양손을 RGB와 깊이 영상에서 감지하고 추출한다. 둘째, Convolutional Neural Network(CNN) Classifier는 오른손과 왼손을 구별하는데 사용된다. CNN Classifier 는 3개의 convolution layer와 2개의 Fully-Connected Layer로 구성되어 있으며, 추출된 깊이 영상을 입력으로 사용한다. 셋째, 학습된 CNN regressor는 추출된 왼쪽 및 오른쪽 손의 깊이 영상에서 손 관절을 추정하기 위해 다수의 Convolutional Layers, Pooling Layers, Fully Connected Layers로 구성된다. CNN classifier와 regressor는 22,000개 깊이 영상 데이터셋으로 학습된다. 마지막으로, 각 손의 3D 손 자세는 추정된 손 관절 정보로부터 재구성된다. 테스트 결과, CNN classifier는 오른쪽 손과 왼쪽 손을 96.9%의 정확도로 구별할 수 있으며, CNN regressor는 형균 8.48mm의 오차 범위로 3D 손 관절 정보를 추정할 수 있다. 본 연구에서 제안하는 손 포즈 추정 시스템은 가상 현실(virtual reality, VR), 증강 현실(Augmented Reality, AR) 및 융합 현실 (Mixed Reality, MR) 응용 프로그램을 포함한 다양한 응용 분야에서 사용할 수 있다.

모바일 Deep Residual Network을 이용한 뎁스 영상 기반 1 인칭 시점 VR 손동작 인식 (Depth Image based Egocentric 3D Hand Pose Recognition for VR Using Mobile Deep Residual Network)

  • 박혜민;박나현;오지헌;이철우;최형우;김태성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1137-1140
    • /
    • 2019
  • 가상현실(Virtual Reality, VR), 증강현실(Augmented Reality, AR), 혼합현실(Mixed Reality, MR) 분야에 유용한 인간 컴퓨터 인터페이스 기술은 필수적이다. 특히 휴먼 손동작 인식 기술은 직관적인 상호작용을 가능하게 하여, 다양한 분야에서 편리한 컨트롤러로 사용할 수 있다. 본 연구에서는 뎁스 영상 기반의 1 인칭 시점 손동작 인식을 위하여 손동작 데이터베이스 생성 시스템을 구축하여, 손동작 인식기 학습에 필요한 1 인칭(Egocentric View Point) 데이터베이스를 촬영하여 제작한다. 그리고 모바일 Head Mounted Device(HMD) VR 을 위한 뎁스 영상 기반 1 인칭 시점 손동작 인식(Hand Pose Recognition, HPR) 딥러닝 Deep Residual Network 를 구현한다. 최종적으로, 안드로이드 모바일 디바이스에 학습된 Residual Network Regressor 를 이식하고 모바일 VR 에 실시간 손동작 인식 시스템을 구동하여, 모바일 VR 상 실시간 3D 손동작 인식을 가상 물체와의 상호작용을 통하여 확인 한다.

YOLOv3 객체 검출을 이용한 AR 관광 서비스 프레임워크 (AR Tourism Service Framework Using YOLOv3 Object Detection)

  • 김인선;정치서;정계동
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.195-200
    • /
    • 2021
  • 교통 수단과 모바일의 발전으로 관광 여행 수요가 증가하고 관련 산업 또한 크게 발전하고 있다. 디지털 미디어 기술 중 한 분야인 증강현실과 관광 콘텐츠의 접목 또한 활발하게 연구 중이며 인공지능은 이미 관광 산업과 다양한 방향으로 접목되어 관광객의 여행 경험을 풍부하게 만들어준다. 본 논문에서는 관광지역을 축소해 제작한 미니어처 모형을 스캔하면, 사전에 딥러닝을 이용해 학습된 모델을 기반으로 해당 관광지를 찾은 뒤 관련 정보와 3D 모델을 AR 서비스로 제공하는 시스템을 제안한다. 다양한 딥러닝 신경망 중 하나인 YOLOv3 신경망을 사용해 모델 학습과 객체 검출을 진행하므로, 빠른 속도로 물체 검출이 이루어져 실시간으로 서비스를 제공할 수 있다.

신경망을 이용한 BLE 기반 실내 측위 시스템 설계 (BLE-based Indoor Positioning System design using Neural Network)

  • 신광성;이희권;염성관
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.75-80
    • /
    • 2021
  • 측위 기술은 증강현실, 스마트 팩토리, 자율주행 등에서 중요한 기능을 수행하고 있다. 측위 기술 중에서 비콘을 이용한 측위 방법은 RSSI(Receiver Signal Strength Indicator) 값의 편차로 인하여 도전적인 과제로 여겨져 왔다. 본 논문에서는 수신기의 RSSI 값을 입력으로 하고 거리를 목표 값으로 하는 신경망을 학습시켜서 이동하는 객체에 대한 위치를 예측하였다. 이를 수행하기 위해 RSSI 대비 거리 실측값을 수집하였다. 수집한 데이터로 합성 데이터를 만들기 위한 신경망을 도입하였다. 이 신경망을 바탕으로 거리 대비 RSSI 값을 예측하였다. 합성 데이터를 바탕으로 가상으로 좌표계를 구성하여 객체의 위치를 예측하였다. 합성 데이터를 생성하기 위한 신경망으로 RSSI의 표준편차는 구하였고 이 값을 기반으로 가상환경에서 단말의 위치를 추적하는 신경망을 학습시켜 객체의 좌표를 추정하였다.

제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델 (End-to-end speech recognition models using limited training data)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.63-71
    • /
    • 2020
  • 음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인 남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다.

합성곱 신경망을 활용한 군사용 CCTV 객체 인식 (Object Recognition Using Convolutional Neural Network in military CCTV)

  • 안진우;김도형;김재오
    • 한국시뮬레이션학회논문지
    • /
    • 제31권2호
    • /
    • pp.11-20
    • /
    • 2022
  • 병력감축 등 국방 및 안보환경의 변화에 따라 육군의 경계시스템에도 변화가 시급한 상황이다. 또한 경계작전의 특성상 인간의 실수가 번번이 발생하고 있으며 이러한 실수가 전체 경계작전의 실패로 귀결되는 상황은 경계시스템의 인공지능 도입이 필요한 것에 대한 중요한 이유이다. 본 연구의 목적은 합성곱 신경망 방법을 활용하여 군사용 CCTV에 적합한 인공지능 영상인식 시스템을 개발하는 것이다. 본 연구에서 개발한 시스템의 주요 특징은 먼저, 군사용 CCTV의 특징상 상대적으로 작은 객체를 인식해야하는 상황에 적합한 학습데이터를 활용한 것이다. 둘째, 학습용 데이터 셋에 대해 데이터 증강 알고리즘을 활용하여 군사용에 보다 적합하도록 유도한 것이다. 셋째, 군사용 영상의 위장, 악천후 등 상황을 고려하여 영상의 잡음을 개선하는 알고리즘을 적용하였다. 본 연구에서 제안하는 시스템의 성능 평가결과 객체의 인식능력이 기존 방법에 비해 우수함을 확인하였다.

고해상도 원격탐사 영상을 이용한 YOLOv5기반 굴뚝 탐지 (YOLOv5-based Chimney Detection Using High Resolution Remote Sensing Images)

  • 윤영웅;정형섭;이원진
    • 대한원격탐사학회지
    • /
    • 제38권6_2호
    • /
    • pp.1677-1689
    • /
    • 2022
  • 대기오염은 동식물의 건강에 장·단기적으로 해로운 영향을 미치는 사회적 문제이다. 굴뚝은 대기를 오염시키는 대기오염물질의 주배출원으로 그 위치와 종류를 탐지하고 모니터링할 필요가 있다. 대기오염물질을 배출하는 굴뚝이 위치한 발전소 및 산업단지는 접근성이 많이 떨어지고 부지가 넓어 직접 모니터링하기에는 비용적, 시간적으로 비효율적이다. 따라서 최근에는 원격탐사 자료를 이용하여 굴뚝을 탐지하는 연구가 수행되고 있다. 본 연구에서는 중국 베이징, 톈진 허베이 성에 위치한 발전소를 대상으로 구축된 BUAA-FFPP60 오픈 데이터 세트를 활용하여 YOLOv5기반의 굴뚝 탐지 모델을 제작하였다. 탐지 모델의 성능을 향상시키기 위하여 데이터 분할과 데이터 증강기법을 적용하였으며, 최적의 모델 제작을 위한 학습 전략을 세웠다. 학습이 완료된 모델은 precision, recall과 같은 각종 지표를 통해 성능을 확인하였으며, 최종적으로 동일한 데이터 세트를 사용한 기존 연구와의 비교를 통해 모델의 성능을 평가하였다.

한의학에서 경혈학 교육의 디지털 기술 적용에 대한 제안 (Suggestion of Digital Technology Application for the Acupoints Education in Korean Medicine)

  • 김상철;김재석
    • 스마트미디어저널
    • /
    • 제11권8호
    • /
    • pp.55-64
    • /
    • 2022
  • 최근 교육시장은 4차산업혁명과 정보통신기술의 발전으로 인해 다양한 디지털 기술이 교육과 접목된 에듀테크가 확산되고 있으며, 그중에도 특히 가상공간에서 실제와 같이 몰입감 있는 학습효과가 가능한 실감체험형 학습콘텐츠가 교육분야에서 각광을 받고 있다. 하지만 한의학 분야에서는 한의학 교육의 특징인 도제식 교육, 정량적 교육의 어려움, 객관적 평가시스템의 부재로 인해 ICT의 도입이 늦어지고 있다. 이에 본 연구에서는, 한의학에서 특히 실습이 중요한 경혈학 교육의 디지털 기술 적용 방안을 제안한다. AR, MR, IoT 및 터치디스플레이 테이블을 이용한 다양한 경혈학 교육방법은 한의학 교육의 패러다임에 변화의 계기를 마련하고, 나아가 한의학의 세계화에도 기여할 수 있을 것이다.

소리 데이터를 이용한 불량 모터 분류에 관한 연구 (A Study on the Classification of Fault Motors using Sound Data)

  • 장일식;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.885-896
    • /
    • 2022
  • 제조에서의 모터 불량은 향후 A/S 및 신뢰성에 중요한 역활을 한다. 모터의 불량 구분은 소리, 전류, 진동등의 측정을 통해 검출한다. 본 논문에서 사용한 데이터는 자동차 사이드미러 모터 기어박스의 소리를 사용하였다. 모터 소리는 3가지의 클래스로 구성되어 있다. 소리 데이터는 멜스펙트로그램을 통한 변환 과정을 거쳐 네트워크 모델에 입력된다. 본 논문에서는 불량 모터 구분 성능을 올리기 위한 데이터 증강, 클래스 불균형에 따는 다양한 데이터 재샘플링, 재가중치 조절, 손실함수의 변경, 표현 학습과 클래스 구분의 두 단계 분리 방법 등 다양한 방법을 적용하였으며, 추가적으로 커리큘럼 러닝 방법, 자기 스페이스 학습 방법 등을 Bidirectional LSTM Attention, Convolutional Recurrent Neural Network, Multi-Head Attention, Bidirectional Temporal Convolution Network, Convolution Neural Network 등 총 5가지 네트워크 모델을 통하여 비교하고, 모터 소리 구분에 최적의 구성을 찾을 수 있었다.