• 제목/요약/키워드: 딥러닝 기반 컴퓨터비전

검색결과 112건 처리시간 0.034초

인간-컴퓨터 상호작용을 위한 CNN 기반 객체 검출 (CNN-based Object Detection for Human-Computer Interaction)

  • 박명숙;김상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1110-1111
    • /
    • 2019
  • 비전 기반 제스처 인식은 비 침입적이고 저렴한 비용으로 자연스러운 인간-컴퓨터 상호 작용을 제공한다. 로봇의 사용이 증가함에 따라 인간-로봇 상호 작용은 점점 더 중요해질 것이다. 최근 효율적인 딥러닝 기술이 연구되고 있다. 본 연구는 인간 컴퓨터 상호 작용을 위해 CNN을 기반으로 한 얼굴 및 손 동작의 인식을 위해 객체 검출 기법의 적용 결과를 제시한다.

Attention 모델을 이용한 단일 영상 초고해상도 복원 기술 (A Study on Single Image Super Resolution Using Attention Model)

  • 문환복;윤상민
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.537-539
    • /
    • 2020
  • 단일 영상 기반 초고해상도 복원은 컴퓨터 비전 및 영상처리 분야의 중요한 기초 및 응용 분야 중 하나이며, 딥러닝에 대한 연구가 발전됨에 따라 이를 이용한 다양한 연구들이 활발히 진행되고 있다. 기존 딥러닝 기반 연구들은 복원 성능을 높이기 위해서 다양한 구조의 네트워크를 설계하거나 네트워크를 학습하는 알고리즘들을 중점으로 연구되어 왔다. 최근 들어 네트워크 구조나 설계 이외에 네트워크를 통과하는 정보의 집합체인 특징 맵에 관한 연구들이 진행되고 있다. Attention은 특징 맵에서 채널 간의 관계를 이용하여 특정 채널을 강조하거나 또는 공간 정보를 강조하는 방식으로 특징 맵의 정보를 잘 활용하도록 하여 전체적인 네트워크의 성능을 향상시킨다. 본 논문은 단일 영상 기반 초고해상도 복원 네트워크를 기반으로 다양한 Attention방법들을 적용하고 성능을 비교 및 분석한다.

  • PDF

YOLO 기반의 광학 음악 인식 기술 및 가상현실 콘텐츠 제작 방법 (YOLO based Optical Music Recognition and Virtual Reality Content Creation Method)

  • 오경민;홍요섭;백건영;전찬준
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.80-90
    • /
    • 2021
  • 딥러닝에 기반한 광학 음악 인식 기술(Optical Music Recognition, OMR)을 사용하여 도출된 결과를 가상현실 (Virtual Reality, VR) 게임에 적용시킨 것을 제안한다. 딥러닝 모델은 YOLO v5를 사용했으며 검출되지 않은 객체를 검출하기 위해 Hough transform 사용, 보표 크기 수정 등을 수행한다. 출력된 결과 파일을 사용하여 VR 게임에서 BPM, 최대 콤보 수, 음정과 박자를 분석하여 사용하고 리소스 관리를 위한 Object Pooling 기술을 통해 노트가 밀리는 현상을 방지한다. 광학 음악 인식 기술을 통해 나온 음악 요소로 VR 게임을 제작하여 VR 콘텐츠 제공과 함께 광학 음악 인식의 활용성을 넓히는 것을 확인하였다.

Segmentation 기반 적대적 공격 동향 조사 (Research Trends of Adversarial Attacks in Image Segmentation)

  • 홍윤영;신영재;최창우;김호원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.631-634
    • /
    • 2022
  • 컴퓨터 비전에서 딥러닝을 활용한 이미지 분할 기법은 핵심 분야 중 하나이다. 이미지 분할 기법이 다양한 도메인에 사용되면서 딥러닝 네트워크의 오작동을 일으키는 적대적 공격에 대한 방어와 강건함이 요구되고 있으며 자율주행 자동차, 질병 분석과 같이 모델의 보안 취약성이 심각한 사고를 불러 올 수 있는 영역에서 적대적 공격은 많은 관심을 받고 있다. 본 논문에서는 이미지 분할 기법에 따른 구별방법과 최근 연구되고 있는 적대적 공격의 방향성을 설명하며 향후 컴퓨터 비전 분야 연구의 효율성을 위해 중점적으로 검토되고 있는 연구주제를 설명한다

사전 학습된 딥러닝 모델들의 피처 레벨 앙상블을 이용한 포트홀 검출 기법 연구 (Research on Pothole Detection using Feature-Level Ensemble of Pretrained Deep Learning Models)

  • 신예은;김인기;김범준;전영훈;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.35-38
    • /
    • 2023
  • 포트홀은 주행하는 자동차와 접촉이 이뤄지면 차체나 운전자에게 충격을 주고 제어를 잃게 하여 도로 위 안전을 위협할 수 있다. 포트홀의 검출을 위한 국내 동향으로는 진동을 이용한 방식과 신고시스템 이용한 방식과 영상 인식을 기반한 방식이 있다. 이 중 영상 인식 기반 방식은 보급이 쉽고 비용이 저렴하나, 컴퓨터 비전 알고리즘은 영상의 품질에 따라 정확도가 달라지는 문제가 있었다. 이를 보완하기 위해 영상 인식 기반의 딥러닝 모델을 사용한다. 따라서, 본 논문에서는 사전 학습된 딥러닝 모델의 정확도 향상을 위한 Feature Level Ensemble 기법을 제안한다. 제안된 기법은 사전 학습된 CNN 모델 중 Test 데이터의 정확도 기준 Top-3 모델을 선정하여 각 딥러닝 모델의 Feature Map을 Concatenate하고 이를 Fully-Connected(FC) Layer로 입력하여 구현한다. Feature Level Ensemble 기법이 적용된 딥러닝 모델은 평균 대비 3.76%의 정확도 향상을 보였으며, Top-1 모델인 ShuffleNet보다 0.94%의 정확도 향상을 보였다. 결론적으로 본 논문에서 제안된 기법은 사전 학습된 모델들을 이용하여 각 모델의 다양한 특징을 통해 기존 모델 대비 정확도의 향상을 이룰 수 있었다.

  • PDF

머신 비전을 위한 열 적외선 영상의 객체 기반 압축 기법 (Object-based Compression of Thermal Infrared Images for Machine Vision)

  • 이예지;김신;임한신;추현곤;정원식;서정일;윤경로
    • 방송공학회논문지
    • /
    • 제26권6호
    • /
    • pp.738-747
    • /
    • 2021
  • 오늘날 딥러닝 기술의 향상으로 영상 분류, 객체 탐지, 객체 분할, 객체 추적 등 컴퓨터 비전 분야 또한 큰 발전을 이루고 있다. 지능적 감시, 로봇, 사물 인터넷, 자율주행 자동차 등 딥러닝 기술이 결합된 다양한 응용 기술들은 실제 산업에 적용되고 있으며, 이에 따라 사람의 소비를 위한 영상 데이터 뿐만 아니라 머신 비전을 위한 영상 데이터의 효율적인 압축 방식에 대한 필요성이 대두되고 있다. 본 논문에서는 머신 비전을 위한 열 적외선 영상의 객체 기반 압축 기법을 제안한다. 효율적인 영상 압축과 신경망의 좋은 성능을 유지하기 위해 본 논문에서는 신경망의 객체 탐지 결과와 객체 크기에 따라 입력 영상을 객체 부분과 배경 부분으로 나누어 서로 다른 압축률로 부호화를 수행하는 방법을 제안한다. 제안하는 방법은 VVC로 영상 전체를 압축하는 방식보다 BD-rate 값이 최대 -19.83%로 압축 효율이 뛰어나다는 것을 확인할 수 있다.

A Study on the Efficacy of Edge-Based Adversarial Example Detection Model: Across Various Adversarial Algorithms

  • Jaesung Shim;Kyuri Jo
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.31-41
    • /
    • 2024
  • 딥러닝 모델(Deep Learning Model)은 컴퓨터 비전(Computer Vision) 분야의 이미지(Image) 분류 및 객체 탐지와 같은 작업에서 뛰어난 성과를 보이며, 실제 산업 현장에서 다양하게 활용되고 있다. 최근 다양한 알고리즘(Algorithm)의 적대적 예제를 이용하여 딥러닝 모델의 취약성을 지적하며, 강건성 향상 방안을 제시하는 연구들이 활발하게 진행되고 있다. 적대적 예제는 오분류를 유도하기 위해 작은 노이즈(Noise)가 추가된 이미지로서, 딥러닝 모델을 실제 환경에 적용 시 중대한 위협이 될 수 있다. 본 논문에서는 다양한 알고리즘의 적대적 예제를 대상으로 에지 학습 분류 모델의 강건성 및 이를 이용한 적대적 예제 탐지 모델의 성능을 확인하고자 하였다. 강건성 실험 결과, FGSM(Fast Gradient Sign Method) 알고리즘에 대하여 기본 분류 모델이 약 17%의 정확도를 보였으나, 에지(Edge) 학습 모델들은 60~70%대의 정확도를 유지하였고, PGD(projected gradient descent)/DeepFool/CW(Carlini-Wagner) 알고리즘에 대해서는 기본 분류 모델이 0~1%의 정확도를 보였으나, 에지 학습 모델들은 80~90%의 정확도를 유지하였다. 적대적 예제 탐지 실험 결과, FGSM/PGD/DeepFool/CW의 모든 알고리즘에 대해서 91~95%의 높은 탐지율을 확인할 수 있었다. 본 연구를 통하여 다양한 적대적 알고리즘에 대한 방어 가능성을 제시함으로써, 컴퓨터 비전을 활용하는 여러 산업 분야에서 딥러닝 모델의 안전성 및 신뢰성 제고를 기대한다.

골프 코스 시뮬레이션을 위한 딥 러닝 기반 이미지 데이터 처리 기법 (Deep Learning-based Image Data Processing for Golf Course Simulation)

  • 김승현;최원제;우홍욱
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.545-548
    • /
    • 2023
  • 본 논문에서는 골프 코스 시뮬레이션을 위해 수집된 데이터의 정제 및 처리에 요구되는 딥 러닝 모델과 모델 적용 과정에 대해서 논의한다. 최근 스크린 골프 시장의 확대와 골프 시뮬레이터 기술의 발전으로, 위성 이미지, 항공 촬영 이미지, 공간 정보 시스템 (GIS) 등 다양한 데이터 소스로부터 골프 코스에 대한 정보를 수집에 대한 요구가 증가하였다. 이번 연구에서는 이러한 데이터 소스로부터 생성된 원시 데이터를 최적의 시뮬레이션 입력으로 변환하기 위한 컴퓨터 비전 기법과 딥 러닝 모델 구조에 대해서 검토한다. 특히, 데이터에서 골프 코스 시뮬레이션에 요구되는 메타 데이터를 도출하기 위해 코스 분할(Segmentation)과 코스 오브젝트 분류(Classification) 모델을 적용하는 과정을 다룬다. 이를 통해, 본 연구는 골프 코스 시뮬레이터의 개발 과정에서 중요한 기술 요소를 제공하며, 이는 시뮬레이션의 정확도와 골프 코스의 다양성을 증진시키는데에 기여한다.

  • PDF

NAFNet 기반 개선된 비디오 프레임 보간 기법 (Enhanced video frame interpolation based on NAFNet)

  • 윤기환;정진우;김성제;허진강
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1333-1335
    • /
    • 2022
  • 최근 딥러닝은 다양한 컴퓨터 비전에 적용되어 높은 성능을 제공하고 있고 이에 따라 중간 프레임을 생성하는 비디오 프레임 보간 기법에도 딥러닝이 적용되고 있다. 많은 딥러닝 기반의 비디오 프레임 보간 기법은 크게 옵티컬 플로우를 추정하는 플로우 추정 네트워크와 합성 네트워크로 구성되며 본 논문에서는 합성 네트워크 부분의 성능향상을 위한 네트워크에 대하여 다룬다. 합성 네트워크에 주로 사용되는 UNet 구조와 GridNet 구조의 장단점과 네트워크에 따른 보간 결과의 차이에 대해서 알아보고 영상 복원에서 제안된 NAFNet 을 비디오 보간 기법에 맞게 변형시켜 합성 네트워크에 적용한 보간 결과의 차이를 보였다. 실험결과는 기존 네트워크 대비 Vimeo90K 데이터셋에 대하여 PSNR 값이 0.63dB 개선됨을 보여준다.

  • PDF

빅데이터 기반 패션 추천 도우미 Shoes Navigator 설계 및 구현

  • 조현우 ;장지완 ;최현선;정목동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.389-390
    • /
    • 2023
  • 본 논문에서는 패션 매칭의 어려움을 해결해주기 위하여 '무신사' 쇼핑몰을 이용하여 크롤링하고 이를 정제한 dataset을 이용하여 패션 스타일의 핵심 요소 중 하나인 신발에 초점을 맞추어, 이미지 기반의 패션 매칭 시스템인 빅데이터 기반 패션 도우미, Shoes Navigator 를 제안한다. 이를 위해 컴퓨터 비전 및 딥 러닝 기술을 활용하여 이미지에서 의류 항목을 자동으로 감지하고, 스타일, 색상과 같은 패션 특성을 추출한다. 또한, 사용자의 개인적인 스타일을 고려하여 최적의 매칭을 제안하기 때문에 패션 코디 문제를 용이하게 해결할 수 있다.