• Title/Summary/Keyword: Learning Media

Search Result 1,614, Processing Time 0.028 seconds

Rotation-robust text localization technique using deep learning (딥러닝 기반의 회전에 강인한 텍스트 검출 기법)

  • Choi, In-Kyu;Kim, Jewoo;Song, Hyok;Yoo, Jisang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.80-81
    • /
    • 2019
  • 본 논문에서는 자연스러운 장면 영상에서 임의의 방향성을 가진 텍스트를 검출하기 위한 기법을 제안한다. 텍스트 검출을 위한 기본적인 프레임 워크는 Faster R-CNN[1]을 기반으로 한다. 먼저 RPN(Region Proposal Network)을 통해 다른 방향성을 가진 텍스트를 포함하는 bounding box를 생성한다. 이어서 RPN에서 생성한 각각의 bounding box에 대해 세 가지의 서로 다른 크기로 pooling된 특징지도를 추출하고 병합한다. 병합한 특징지도에서 텍스트와 텍스트가 아닌 대상에 대한 score, 정렬된 bounding box 좌표, 기울어진 bounding box 좌표를 모두 예측한다. 마지막으로 NMS(Non-Maximum Suppression)을 이용하여 검출 결과를 획득한다. COCO Text 2017 dataset[2]을 이용하여 학습 및 테스트를 진행하였으며 주관적으로 평가한 결과 기울어진 텍스트에 적합하게 회전된 영역을 얻을 수 있음을 확인하였다.

  • PDF

Deep Learning Framework for 5D Light Field Synthesis from Single Video (단안 비디오로부터의 5D 라이트필드 비디오 합성 프레임워크)

  • Bae, Kyuho;Ivan, Andre;Park, In Kyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.150-152
    • /
    • 2019
  • 본 논문에서는 기존의 연구를 극복하여 단일 영상이 아닌 단안 비디오로부터 5D 라이트필드 영상을 합성하는 딥러닝 프레임워크를 제안한다. 현재 일반적으로 사용 가능한 Lytro Illum 카메라 등은 초당 3프레임의 비디오만을 취득할 수 있기 때문에 학습용 데이터로 사용하기에 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 가상 환경 데이터를 구성하며 이를 위해 UnrealCV를 활용하여 사실적 그래픽 렌더링에 의한 데이터를 취득하고 이를 학습에 사용한다. 제안하는 딥러닝 프레임워크는 두 개의 입력 단안 비디오에서 $5{\times}5$의 각 SAI(sub-aperture image)를 갖는 라이트필드 비디오를 합성한다. 제안하는 네트워크는 luminance 영상으로 변환된 입력 영상으로부터 appearance flow를 추측하는 플로우 추측 네트워크(flow estimation network), appearance flow로부터 얻어진 두 개의 라이트필드 비디오 프레임 간의 optical flow를 추측하는 광학 플로우 추측 네트워크(optical flow estimation network)로 구성되어있다.

  • PDF

Encoding Performance Analysis of Deep Learning based SHVC Inter-Layer Reference Picture Generation Method by Luma and Chroma Component (휘도 및 색차 성분에 따른 딥러닝 기반 SHVC 계층간 참조 픽처 생성 방법의 부호화 성능 분석)

  • Lee, Wooju;Lee, Minhun;Hwang, Gisu;Sung, Junyoung;Oh, Seoungjun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.82-83
    • /
    • 2019
  • 본 논문에서는 휘도 및 색차 성분에 따른 SHVC 계층간 참조 픽처 생성 방법의 부호화 성능을 분석한다. SHVC 상위 계층에서는 하위 계층의 픽처를 DCT-IF 기반 업샘플링하여 사용한다. 상위 계층의 부호화 성능을 높이기 위해 딥러닝 기반 필터링을 이용하여 휘도, 색차 성분의 고주파 신호 복원이 부호화 성능에 미치는 영향을 분석한다. 기존 Y 성분에만 VDSR 네트워크를 이용하여 필터링을 적용하였을 때보다 색차 성분까지 필터링을 진행할 경우 최대 2.18%, 평균 1.5% 감소된 결과를 보였다.

  • PDF

Design and Implementation of a Cosmetics Recommendation System Based on Machine Learning in Social Media Environments (소셜 미디어 환경에서 기계 학습을 활용한 화장품 추천 시스템의 설계 및 구현)

  • Shin, Haeran;Lim, Yujung;Hong, Yujin;Lim, Jongtae;Park, Jaeyeol;Lee, Hyeonbyeong;Shin, Bokyoung;Bok, Kyoungsoo;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.289-290
    • /
    • 2019
  • 최근 뷰티에 대한 관심이 증가함으로써 화장품 관련 정보가 대량으로 발생하였다. 사용자는 선택적으로 정보를 얻고자 하기 때문에 사용자 맞춤형 추천 서비스가 부각되고 있다. 본 논문에서는 소셜 미디어 환경에서 기계 학습을 활용한 화장품 추천 시스템을 설계하고 구현한다.

  • PDF

Deep Learning-based SISR (Single Image Super Resolution) Method using RDB (Residual Dense Block) and Wavelet Prediction Network (RDB 및 웨이블릿 예측 네트워크 기반 단일 영상을 위한 심층 학습기반 초해상도 기법)

  • Nguyen, Huu Dung;Kim, Eung-Tae
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.5-8
    • /
    • 2019
  • 단일 영상 초해상도 (Single Image Super-Resolution - SISR)기법은 카메라로 획득된 저해상도 영상에 필터 기반의 연산을 적용하여 좋은 화질의 고해상도 영상을 복원하는 과정이다. 최근에 심층 합성곱 신경망 학습의 발전에 따라 단일 영상 초해상도에 적용되는 심층 학습 기법들은 좋은 성과를 보여 주고 있다. 본 논문은 단일 영상 초해상도 성능을 개선하기 위해 웨이블릿 예측 네트워크를 효율적으로 적용하는 방법에 대해 연구하였으며, 저해상도 입력 영상의 특징을 잘 추출해내기 위해 네트워크 내부에 RDB를 적용하여 기존 방식보다 효율적으로 고해상도 영상 복원하는 기법을 제안한다. 모의실험을 통해 제안하는 방법이 기존 방법보다 화질은 약 PSNR 0.18dB만큼 우수하며 속도는 1.17배 빠른 것을 확인하였다.

  • PDF

Improved Residual Network for Single Image Super Resolution

  • Xu, Yinxiang;Wee, Seungwoo;Jeong, Jechang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.102-105
    • /
    • 2019
  • In the classical single-image super-resolution (SISR) reconstruction method using convolutional neural networks, the extracted features are not fully utilized, and the training time is too long. Aiming at the above problems, we proposed an improved SISR method based on a residual network. Our proposed method uses a feature fusion technology based on improved residual blocks. The advantage of this method is the ability to fully and effectively utilize the features extracted from the shallow layers. In addition, we can see that the feature fusion can adaptively preserve the information from current and previous residual blocks and stabilize the training for deeper network. And we use the global residual learning to make network training easier. The experimental results show that the proposed method gets better performance than classic reconstruction methods.

  • PDF

Senior Life Logging and Analysis by Using Deep Learning and Captured Multimedia Data (딥 러닝 기반의 API 와 멀티미디어 요소를 활용한 시니어 라이프 데이터 수집 및 상태 분석)

  • Kim, Seon Dae;Park, Eun Soo;Jeong, Jong Beom;Koo, Jaseong;Ryu, Eun-Seok
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.244-247
    • /
    • 2018
  • 본 논문에서는 시니어를 위한 라이프 데이터 수집 및 행동분석 프레임 워크를 설명하고, 이의 부분적 구현을 자세히 설명한다. 본 연구는 시니어를 위한 라이프 데이터를 바탕으로 보호자가 없는 시니어를 보살핌과 동시에, 보호자가 미처 인지하지 못하는 시니어의 비정상적인 상태를 분석하여 판단하는 시스템을 연구한다. 먼저, 시니어가 시간을 많이 소요하는 TV 앞 상황을 가정하고, 방영되는 TV 콘텐츠와 TV 카메라를 이용한 시니어의 영상/음성 정보로 이상상태와 감정상태, TV 콘텐츠에 대한 반응과 반응속도를 체크한다. 구체적으로는 딥 러닝 기반의 API 와 멀티미디어 데이터 분석에서 사용되는 오픈 패키지를 바탕으로, 영상/음성의 키 프레임을 추출하여 감정 및 분위기를 분석하고 시니어의 얼굴 표정 인식, 행동 인식, 음성 인식을 수행한다.

  • PDF

Super-resolution of compressed image by deep residual network

  • Jin, Yan;Park, Bumjun;Jeong, Jechang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.59-61
    • /
    • 2018
  • Highly compressed images typically not only have low resolution, but are also affected by compression artifacts. Performing image super-resolution (SR) directly on highly compressed image would simultaneously magnify the blocking artifacts. In this paper, a SR method based on deep learning is proposed. The method is an end-to-end trainable deep convolutional neural network which performs SR on compressed images so as to reduce compression artifacts and improve image resolution. The proposed network is divided into compression artifacts removal (CAR) part and SR reconstruction part, and the network is trained by three-step training method to optimize training procedure. Experiments on JPEG compressed images with quality factors of 10, 20, and 30 demonstrate the effectiveness of the proposed method on commonly used test images and image sets.

  • PDF

Contextual Object Detection using Deep Learning (딥러닝 기반의 객체 맥락정보 탐지)

  • Kim, Geonuk;Sin, Jaeyong;Hwang, Gisu;Huh, Yoojin;Oh, Seoung-Jun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.120-122
    • /
    • 2018
  • 이미지에서 단순히 객체탐지를 하는 것이 아닌, 맥락정보를 탐지하는 해내는 것은 이미지 분석 분야에서 활발히 진행해온 연구분야 중 하나이다. 본 논문은 검출된 객체와 사람 간의 맥락 정보를 실시간으로 검출하기 위해 관심있는 객체와 인체의 키포인트를 탐지한 후, 그 두 영역 사이의 거리정보를 이용하여 맥락정보를 추출하는 알고리즘을 제안한다. 이는 CNN으로 이루어진 단일 구조 방식이기에 낮은 시스템 복잡도를 갖는다. 이 방법을 통하여 사람과 연관된 객체 사이의 맥락 정보와 그 위치정보를 출력함으로써 CCTV내 무장한 테러범의 위치나 축구 경기 내 공을 소유한 선수를 찾는 경우 등의 실질적인 이미지 분석에 활용할 수 있다.

  • PDF

Learning-based Word Segmentation for Text Document Recognition (텍스트 문서 인식을 위한 학습 기반 단어 분할)

  • Lomaliza, Jean-Pierre;Moon, Kwang-Seok;Park, Hanhoon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.41-42
    • /
    • 2018
  • 텍스트 문서 영상으로부터 단어를 검출하고, LLAH(locally likely arrangement hashing) 알고리즘을 이용하여 이웃 단어 사이의 기하 관계를 표현하는 특징 벡터를 계산한 후, 특징 벡터를 비교함으로써 텍스트 문서를 효과적으로 인식하거나 검색할 수 있다. 그러나, 이는 문서 내 각 단어가 정확하고 강건하게 검출된다는 전제를 필요로 한다. 본 논문에서는 텍스트 내 각 라인을 검출하고, 각 라인 내에서 단어 사이의 간격과 글자 사이의 간격을 깊은 신경망(deep neural network)을 이용하여 학습하고 분류함으로써, 보다 카메라와 텍스트 문서 사이의 거리나 방향이 동적으로 변하는 조건에서 각 단어를 강건하게 검출하는 방법을 제안한다. 모바일 환경에서 제안된 방법을 구현하였으며, 실험을 통해 단어 사이의 간격과 글자 사이의 간격을 92.5%의 정확도로 구별할 수 있으며, 이를 통해 동적인 환경에서 단어 검출의 강건성을 크게 개선할 수 있음을 확인하였다.

  • PDF