• Title/Summary/Keyword: Video-conference

Search Result 2,921, Processing Time 0.032 seconds

A Study on Immersive 360-degree Video Application Metadata and Operating System for Interworking with UCI Standard Identification System (UCI 표준식별체계 연동을 위한 실감형 360도 영상 응용 메타데이터 및 운영 시스템에 관한 연구)

  • Park, Byeongchan;Jang, Seyoung;Ruziev, Ulugbek;Kim, Youngmo;Kim, Seok-Yoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.433-435
    • /
    • 2020
  • 본 논문에서 저작권 보호 기술 적용을 위해 실감형 360도 영상의 강인성 정보를 이용하여 UCI 운영을 위한 응용 메타데이터 요소를 제안한다. 오늘날 멀티미디어 콘텐츠의 산업의 규모가 비약적으로 커지고 있음에 따라 이를 효과적으로 관리 및 유통할 수 있는 콘텐츠 고유의 식별체계가 요구되고 있다. 현재 국내에서 운용 중인 대표 식별자는 정통부가 개발한 UCI가 활용되고 있다. UCI는 다양한 멀티미디어 콘텐츠를 효과적으로 관리 및 유통할 수 있으나 저작권 보호 기술에 직접적으로 연관이 되어 있지 않아 이를 보완할 수 있는 기술이 요구된다. 본 논문에서는 UCI와 직접으로 연동할 수 있는 실감형 360도 동영상 응용 메타데이터 요소 및 운영 방법을 제안하여 저작권 보호 기술을 적용할 수 있도록 한다.

  • PDF

A Video Style Generation and Synthesis Network using GAN (GAN을 이용한 동영상 스타일 생성 및 합성 네트워크 구축)

  • Choi, Heejo;Park, Gooman;Kim, Sang-Jun;Lee, Yu-Jin;Sang, Hye-Jun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.727-730
    • /
    • 2021
  • 이미지와 비디오 합성 기술에 대한 수요가 늘어남에 따라, 인간의 손에만 의존하여 이미지나 비디오를 합성하는데에는 시간과 자원이 한정적이며, 전문적인 지식을 요한다. 이러한 문제를 해결하기 위해 최근에는 스타일 변환 네트워크를 통해 이미지를 변환하고, 믹싱하여 생성하는 알고리즘이 등장하고 있다. 이에 본 논문에서는 GAN을 이용한 스타일 변환 네트워크를 통한 자연스러운 스타일 믹싱에 대해 연구했다. 먼저 애니메이션 토이 스토리의 등장인물에 대한 데이터를 구축하고, 모델을 학습하고 두 개의 모델을 블렌딩하는 일련의 과정을 거쳐 모델을 준비한다. 그 다음에 블렌딩된 모델을 통해 타겟 이미지에 대하여 스타일 믹싱을 진행하며, 이 때 이미지 해상도와 projection 반복 값으로 스타일 변환 정도를 조절한다. 최종적으로 스타일 믹싱한 결과 이미지들을 바탕으로 하여 스타일 변형, 스타일 합성이 된 인물에 대한 동영상을 생성한다.

Transfer Learning-based Multi-Modal Fusion Answer Selection Model for Video Question Answering System (비디오 질의 응답 시스템을 위한 전이 학습 기반의 멀티 모달 퓨전 정답 선택 모델)

  • Park, Gyu-Min;Park, Seung-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.548-553
    • /
    • 2021
  • 비디오 질의 응답은 입력으로 주어진 비디오와 질문에 적절할 정답을 제공하기 위해 텍스트, 이미지 등 다양한 정보처리가 요구되는 대표적인 multi-modal 문제이다. 질의 응답 시스템은 질의 응답의 성능을 높이기 위해 다수의 서로 다른 응답 모듈을 사용하기도 하며 생성된 정답 후보군 중 가장 적절할 정답을 선택하는 정답 선택 모듈이 필요하다. 정답 선택 모듈은 응답 모듈의 서로 다른 관점을 고려하여 응답 선택을 선택할 필요성이 있다. 하지만 응답 모듈이 black-box 모델인 경우 정답 선택 모듈은 응답 모듈의 parameter와 예측 분포를 통해 지식을 전달 받기 어렵다. 그리고 학습 데이터셋은 응답 모듈이 학습에 사용했기 때문에 과적합 문제로 각 모듈의 관점을 학습하기엔 어려우며 학습 데이터셋 이외 비교적 적은 데이터셋으로 학습해야 하는 문제점이 있다. 본 논문에서는 정답 선택 성능을 높이기 위해 전이 학습 기반의 멀티모달 퓨전 정답 선택 모델을 제안한다. DramaQA 데이터셋을 통해 성능을 측정하여 제안된 모델의 우수성을 실험적으로 증명하였다.

  • PDF

Real-Time Foreground and Facility Extraction with Deep Learning-based Object Detection Results under Static Camera-based Video Monitoring (고정 카메라 기반 비디오 모니터링 환경에서 딥러닝 객체 탐지기 결과를 활용한 실시간 전경 및 시설물 추출)

  • Lee, Nayeon;Son, Seungwook;Yu, Seunghyun;Chung, Yongwha;Park, Daihee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.711-714
    • /
    • 2021
  • 고정 카메라 환경에서 전경과 배경 간 픽셀값의 차를 이용하여 전경을 추출하기 위해서는 정확한 배경 영상이 필요하다. 또한, 프레임마다 변화하는 실제 배경과 맞추기 위해 배경 영상을 지속해서 갱신할 필요가 있다. 본 논문에서는 정확한 배경 영상을 생성하기 위해 실시간 처리가 가능한 딥러닝 기반 객체 탐지기의 결과를 입력받아 영상 처리에 활용함으로써 배경을 생성 및 지속적으로 갱신하고, 획득한 배경 정보를 이용해 전경을 추출하는 방법을 제안한다. 먼저, 고정 카메라에서 획득되는 비디오 데이터에 딥러닝 기반 객체 탐지기를 적용한 박스 단위 객체 탐지 결과를 지속적으로 입력받아 픽셀 단위의 배경 영상을 갱신하고 개선된 배경 영상을 도출한다. 이후, 획득한 배경 영상을 이용하여 더 정확한 전경 영상을 획득한다. 또한, 본 논문에서는 시설물에 가려진 객체를 더 정확히 탐지하기 위해서 전경 영상을 이용하여 시설물 영상을 추출하는 방법을 제안한다. 실제 돈사에 설치된 카메라로 부터 획득된 12시간 분량의 비디오를 이용하여 실험한 결과, 제안 방법을 이용한 전경과 시설물 추출이 효과적임을 확인하였다.

GAN-based Video Denoising for Robust Pig Detection System (GAN 기반의 영상 잡음에 강인한 돼지 탐지 시스템)

  • Bo, Zhao;Lee, Jonguk;Atif, Othmane;Park, Daihee;Chung, Yongwha
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.700-703
    • /
    • 2021
  • Infrared cameras are widely used in recent research for automatic monitoring the abnormal behaviors of the pig. However, when deployed in real pig farms, infrared cameras always get polluted due to the harsh environment of pig farms which negatively affects the performance of pig monitoring. In this paper, we propose a real-time noise-robust infrared camera-based pig automatic monitoring system to improve the robustness of pigs' automatic monitoring in real pig farms. The proposed system first uses a preprocessor with a U-Net architecture that was trained as a GAN generator to transform the noisy images into clean images, then uses a YOLOv5-based detector to detect pigs. The experimental results show that with adding the preprocessing step, the average pig detection precision improved greatly from 0.639 to 0.759.

Implementing Motion-constrained Tile Set Based Tile Extractor on VVC (VVC 에서의 움직임 제한 타일 셋 기반 타일 추출기 구현)

  • Jeong, Jong-Beom;Lee, Soonbin;Ryu, Il-Woong;Kim, Sungbin;Kim, Inae;Ryu, Eun-Seok
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.6-9
    • /
    • 2020
  • 최근 몰입형 가상 현실을 제공하기 위한 360 도 영상 전송 기술이 활발히 연구되고 있다. 그러나 현재 가상현실 기기가 가지는 연산 능력 및 대역폭으로는 고화질의 360 도 영상을 전송 및 재생하기에 한계가 있다. 해당 문제점을 극복하기 위해 본 논문에서는 사용자 시점의 고화질 360 도 영상 제공을 위해 사용자 시점 타일을 추출하는 움직임 제한 타일 셋 기반 타일 추출기를 구현한다. Versatile video coding (VVC) 기반 타일 인코더를 이용해 360 도 영상에 대한 비트스트림을 생성한 후, 사용자 시점에 해당하는 타일들을 선택한다. 이후 선택된 타일들은 제안하는 타일 추출기에 의해 추출되고 전송된다. 또한, 전체 360 도 영상에 대한 저화질 비트스트림을 전송하여 갑작스러운 사용자 시점 변경에 대응한다. 제안된 타일 추출기를 기반으로 360 도 영상 전송을 수행하면, 기존 VVC 기반 시스템 대비 대비 평균 24.81%의 bjontegaard delta rate (BD-rate) 감소가 가능함을 확인하였다.

  • PDF

Development of PCC data transmission and reception using MMT (MMT를 이용한 PCC 데이터 송수신 기술 개발)

  • Park, Seong-Hwan;Kim, Kyu-Heon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.576-578
    • /
    • 2020
  • 최근 사용자에게 더욱 몰입감 있는 콘텐츠를 제공하기 위한 기술에 대한 관심이 증가하고 있으며 기존의 2D 콘텐츠와는 다른 새로운 방식인 3D 콘텐츠에 대한 연구가 활발히 진행되고 있으며 그 중 가장 대표적인 것이 Point Cloud 영상이라고 할 수 있다. Point Cloud의 경우 수많은 3차원 좌표를 가진 점들로 구성되어 있으며 각 점들마다 Attribute 값을 이용하여 색상 등의 표현이 가능한 구조로 이루어져 있다. 이러한 특성 때문에 Point Cloud 데이터는 방대한 용량을 가지고 있으며 기존의 2D 방식과 데이터 구조가 상이하기 때문에 새로운 압축 표준이 요구되었다. 이에 미디어 표준화 단체인 MPEG(Moving Picture Experts Group)에서는 MPEG-I(Immersive) 차세대 프로젝트 그룹을 이용하여 이러한 움직임에 대응하고 있다. MPEG-I의 part 5(Video-based Point Cloud Compression, V-PCC)에서는 객체를 대상으로 하여 기존의 비디오 코덱을 활용한 Point Cloud 압축 표준화를 진행중이다. V-PCC 데이터의 경우 기존의 2D 영상 데이터와 같이 전송을 통해 소비될 가능성이 아주 높기 때문에 이에 대한 고려가 필요하다. 현재 MPEG에서 표준화를 완료한 MMT(MPEG Media Transport)라는 전송 표준이 존재하기 때문에 이 기술을 활용 가능할 것으로 보인다. 따라서 본 논문에서는 Point Cloud 데이터를 압축한 V-PCC 데이터를 전송 표준 방식인 MMT를 이용하여 전송하는 방안에 대하여 제안한다.

  • PDF

Deep Learning-Based Super Slow Video Service (딥 러닝 기반 Super Slow 비디오 서비스)

  • Lee, DongYeon;Park, JinSu;Nam, JinWoo;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.11a
    • /
    • pp.354-357
    • /
    • 2020
  • 최근 스포츠 경기나 차량 블랙박스 등에서 비디오를 이용한 판정이 점차 확대되고 있지만, 일반 카메라로 촬영된 비디오에서 정확한 판정을 하기 어려울 때가 빈번히 발생한다. 초고속 카메라로 촬영한 슬로우 모션 비디오를 이용할 수 있다면 판정의 정확성을 향상시킬 수 있을 것이다. 본 논문에서는 일반 카메라로 촬영한 비디오로부터 마치 초고속 카메라로 촬영한 것과 같은 슬로우 모션 비디오를 생성하여 제공하는 서비스를 제안한다. 제안 방법은 NVIDIA에서 개발한 Super Slomo 기술을 기반으로, 초당 30장의 표준 비디오를 초당 60장에서 240장까지의 고품질 슬로우 모션 비디오로 변환한다. 이 기술은 시간적으로 이웃한 두 영상을 입력하여 딥 러닝 기반으로 중간 프레임을 보간함으로써 프레임율을 향상시킨다. 또한 본 논문에서는 Super Slomo 기술에 FP16을 적용하여 처리속도를 향상 시켰으며, 웹 서버를 이용하여 비디오를 업로드하고 슬로우 모션으로 변환된 비디오를 다운로드 할 수 있는 사이트를 구현했다.

  • PDF

Fall Detection Algorithm Based on Machine Learning (머신러닝 기반 낙상 인식 알고리즘)

  • Jeong, Joon-Hyun;Kim, Nam-Ho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.226-228
    • /
    • 2021
  • We propose a fall recognition system using the Pose Detection of Google ML kit using video data. Using the Pose detection algorithm, 33 three-dimensional feature points extracted from the body are used to recognize the fall. The algorithm that recognizes the fall by analyzing the extracted feature points uses k-NN. While passing through the normalization process in order not to be influenced in the size of the human body within the size of image and image, analyzing the relative movement of the feature points and the fall recognizes, thirteen of the thriteen test videos recognized the fall, showing an 100% success rate.

  • PDF

Enhancement of Iris Masking Security using DNN and Blurring (DNN과 블러링을 활용한 홍채 마스킹 보안 강화 기술)

  • Seungmin Baek;Younghae Choi;Chanwoo Hong;Wonhyung Park
    • Convergence Security Journal
    • /
    • v.22 no.4
    • /
    • pp.141-146
    • /
    • 2022
  • The iris, a biometric information, is safe, unique, and reliable, such as fingerprints, and is personal information that can significantly lower the misrecognition rate than other biometric authentication. However, due to the nature of biometric authentication, it is impossible to replace it if it is stolen. There is a case in which an actual iris photo is taken and 3d printed so that the eyes work as if they were in front of the camera. As such, there is a possibility of iris leakage through high-definition images and photos. In this paper, we propose to improve iris masking performance by supplementing iris region masking research based on existing blurring techniques. Based on the results derived in this study, it is expected that it can be used for the security of video conference programs and electronic devices.