• 제목/요약/키워드: Video Synthesis Network

검색결과 18건 처리시간 0.023초

적대적 생성 신경망을 통한 얼굴 비디오 스타일 합성 연구 (Style Synthesis of Speech Videos Through Generative Adversarial Neural Networks)

  • 최희조;박구만
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.465-472
    • /
    • 2022
  • 본 연구에서는 기존의 동영상 합성 네트워크에 스타일 합성 네트워크를 접목시켜 동영상에 대한 스타일 합성의 한계점을 극복하고자 한다. 본 논문의 네트워크에서는 동영상 합성을 위해 스타일갠 학습을 통한 스타일 합성과 동영상 합성 네트워크를 통해 스타일 합성된 비디오를 생성하기 위해 네트워크를 학습시킨다. 인물의 시선이나 표정 등이 안정적으로 전이되기 어려운 점을 개선하기 위해 3차원 얼굴 복원기술을 적용하여 3차원 얼굴 정보를 이용하여 머리의 포즈와 시선, 표정 등의 중요한 특징을 제어한다. 더불어, 헤드투헤드++ 네트워크의 역동성, 입 모양, 이미지, 시선 처리에 대한 판별기를 각각 학습시켜 개연성과 일관성이 더욱 유지되는 안정적인 스타일 합성 비디오를 생성할 수 있다. 페이스 포렌식 데이터셋과 메트로폴리탄 얼굴 데이터셋을 이용하여 대상 얼굴의 일관된 움직임을 유지하면서 대상 비디오로 변환하여, 자기 얼굴에 대한 3차원 얼굴 정보를 이용한 비디오 합성을 통해 자연스러운 데이터를 생성하여 성능을 증가시킴을 확인했다.

단안 비디오로부터의 5차원 라이트필드 비디오 합성 (5D Light Field Synthesis from a Monocular Video)

  • 배규호;안드레 이반;박인규
    • 방송공학회논문지
    • /
    • 제24권5호
    • /
    • pp.755-764
    • /
    • 2019
  • 현재 사용 가능한 상용 라이트필드 카메라는 정지 영상만을 취득하거나 가격이 매우 높은 단점으로 인하여 5차원 라이트필드 비디오 취득에 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 단안 비디오로부터 라이트필드 비디오를 합성하기 위한 딥러닝 기반 기법을 제안한다. 라이트필드 비디오 학습 데이터를 취득하기 어려운 문제를 해결하기 위하여 UnrealCV를 활용하여 3차원 그래픽 장면의 사실적 렌더링에 의한 합성 라이트필드 데이터를 취득하고 이를 학습에 사용한다. 제안하는 딥러닝 프레임워크는 입력 단안 비디오에서 $9{\times}9$의 각 SAI(sub-aperture image)를 갖는 라이트필드 비디오를 합성한다. 제안하는 네트워크는 밝기 영상으로 변환된 입력 영상으로부터 appearance flow를 추정하는 네트워크, appearance flow로부터 얻어진 인접한 라이트필드 비디오 프레임간의 optical flow를 추정하는 네트워크로 구성되어 있다.

Triplet CNN과 학습 데이터 합성 기반 비디오 안정화기 연구 (Study on the Video Stabilizer based on a Triplet CNN and Training Dataset Synthesis)

  • 양병호;이명진
    • 방송공학회논문지
    • /
    • 제25권3호
    • /
    • pp.428-438
    • /
    • 2020
  • 영상 내 흔들림은 비디오의 가시성을 떨어뜨리고 영상처리나 영상압축의 효율을 저하시킨다. 최근 디지털 영상처리 분야에 딥러닝이 본격 적용되고 있으나, 비디오 안정화 분야에 딥러닝 적용은 아직 초기 단계이다. 본 논문에서는 Wobbling 왜곡 경감을 위한 triplet 형태의 CNN 기반 비디오 안정화기 구조를 제안하고, 비디오 안정화기 학습을 위한 학습데이터 합성 방법을 제안한다. 제안한 CNN 기반 비디오 안정화기는 기존 딥러닝 기반 비디오 안정화기와 비교되었으며, Wobbling 왜곡은 감소하고 더 안정적인 학습이 이루어지는 결과를 얻었다.

Interaction art using Video Synthesis Technology

  • Kim, Sung-Soo;Eom, Hyun-Young;Lim, Chan
    • International Journal of Advanced Culture Technology
    • /
    • 제7권2호
    • /
    • pp.195-200
    • /
    • 2019
  • Media art, which is a combination of media technology and art, is making a lot of progress in combination with AI, IoT and VR. This paper aims to meet people's needs by creating a video that simulates the dance moves of an object that users admire by using media art that features interactive interactions between users and works. The project proposed a universal image synthesis system that minimizes equipment constraints by utilizing a deep running-based Skeleton estimation system and one of the deep-running neural network structures, rather than a Kinect-based Skeleton image. The results of the experiment showed that the images implemented through the deep learning system were successful in generating the same results as the user did when they actually danced through inference and synthesis of motion that they did not actually behave.

DASH 기반 자유시점 비디오 스트리밍 시스템 구현 (Implementation Method for DASH-based Free-viewpoint Video Streaming System)

  • 서민재;백종호
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.47-55
    • /
    • 2019
  • Free-viewpoint video (FVV) service provides multi viewpoints of contents and synthesizes intermediate video files which are not captured on some view angles so that enables users to watch as they choose wherever they want. Synthesizing video is necessary technique to provide FVV video service, because every video of the FVV contents for different view angles cannot be stored to the content server physically. For the reason, fast view synthesis can improve the quality of video service and increase user's satisfaction. One of the studies for FVV service, a method was proposed to transmit FVV service based on DASH (Dynamic Adaptive Streaming over HTTP). There is big advantage on using DASH that it is commonly used to transport video service. However, the method was only a conceptual proposal, so it is difficult to implement the system using the proposal. In this paper, we propose an implementation method to provide real-time FVV service smoothly. We suggest a system structure and operation method on the server and client side in detail, which is to be applicable to synthesize video quickly. Also, we suggest generating FVV service map additionally which controls a FVV service overall. We manage real-time information of the whole service through the service map. The service can be controlled by reducing the possible delay from network situation.

단안 비디오로부터의 5D 라이트필드 비디오 합성 프레임워크 (Deep Learning Framework for 5D Light Field Synthesis from Single Video)

  • 배규호;;박인규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.150-152
    • /
    • 2019
  • 본 논문에서는 기존의 연구를 극복하여 단일 영상이 아닌 단안 비디오로부터 5D 라이트필드 영상을 합성하는 딥러닝 프레임워크를 제안한다. 현재 일반적으로 사용 가능한 Lytro Illum 카메라 등은 초당 3프레임의 비디오만을 취득할 수 있기 때문에 학습용 데이터로 사용하기에 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 가상 환경 데이터를 구성하며 이를 위해 UnrealCV를 활용하여 사실적 그래픽 렌더링에 의한 데이터를 취득하고 이를 학습에 사용한다. 제안하는 딥러닝 프레임워크는 두 개의 입력 단안 비디오에서 $5{\times}5$의 각 SAI(sub-aperture image)를 갖는 라이트필드 비디오를 합성한다. 제안하는 네트워크는 luminance 영상으로 변환된 입력 영상으로부터 appearance flow를 추측하는 플로우 추측 네트워크(flow estimation network), appearance flow로부터 얻어진 두 개의 라이트필드 비디오 프레임 간의 optical flow를 추측하는 광학 플로우 추측 네트워크(optical flow estimation network)로 구성되어있다.

  • PDF

From Multimedia Data Mining to Multimedia Big Data Mining

  • Constantin, Gradinaru Bogdanel;Mirela, Danubianu;Luminita, Barila Adina
    • International Journal of Computer Science & Network Security
    • /
    • 제22권11호
    • /
    • pp.381-389
    • /
    • 2022
  • With the collection of huge volumes of text, image, audio, video or combinations of these, in a word multimedia data, the need to explore them in order to discover possible new, unexpected and possibly valuable information for decision making was born. Starting from the already existing data mining, but not as its extension, multimedia mining appeared as a distinct field with increased complexity and many characteristic aspects. Later, the concept of big data was extended to multimedia, resulting in multimedia big data, which in turn attracted the multimedia big data mining process. This paper aims to survey multimedia data mining, starting from the general concept and following the transition from multimedia data mining to multimedia big data mining, through an up-to-date synthesis of works in the field, which is a novelty, from our best of knowledge.

다중신호처리를 이용한 인터렉티브 시스템 (Interactive System using Multiple Signal Processing)

  • 김성일;양효식;신위재;박남천;오세진
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.282-285
    • /
    • 2005
  • This paper discusses the interactive system for smart home environments. In order to realize this, the main emphasis of the paper lies on the description of the multiple signal processing on the basis of the technologies such as fingerprint recognition, video signal processing, speech recognition and synthesis. For essential modules of the interactive system, we adopted the motion detector based on the changes of brightness in pixels as well as the fingerprint identification for adapting home environments to the inhabitants. In addition, the real-time speech recognizer based on the HM-Net(Hidden Markov Network) and the speech synthesis were incorporated into the overall system for interaction between user and system. In experimental evaluation, the results showed that the proposed system was easy to use because the system was able to give special services for specific users in smart home environments, even though the performance of the speech recognizer was not better than the simulation results owing to the noisy environments.

  • PDF

멀티미디어 신호처리에 기초한 스마트홈 가상대화 시스템 (Virtual Dialog System Based on Multimedia Signal Processing for Smart Home Environments)

  • 김성일;오세진
    • 한국지능시스템학회논문지
    • /
    • 제15권2호
    • /
    • pp.173-178
    • /
    • 2005
  • 본 논문은 보다 편리한 가정 생활환경 구축을 목적으로 한 가상대화시스템 구현에 관한 연구이다. 이를 실현하기 위하여 본 논문은 음성인식, 음성합성, 비디오 신호 및 센서신호처리 등의 멀티미디어 신호처리에 그 기술적 기반을 두고 있다. 대화시스템의 중요한 모듈로서의 음성합성기, HM-Net(Hidden Markov Network)에 기반한 실시간 음성인식기, 픽셀의 밝기차를 이용한 실시간 움직임 검출 및 터치센서 등을 대화시스템에 통합함으로써 이루어진다. 실제 구동 실험에서 주위 노이즈 환경의 영향으로 시뮬레이션 결과보다는 성능이 떨어지나, 소파에 앉아있는 동안 자동되는 시스템의 실험 평가에서 가전제품 능의 컨트롤이 비교적 사용하기 쉬웠다는 결과를 얻었다.

하이브리드 카메라를 이용한 고해상도 비디오 합성 (High Resolution Video Synthesis with a Hybrid Camera)

  • 김종원;경민호
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제13권4호
    • /
    • pp.7-12
    • /
    • 2007
  • 최근들어 디지털 영상 기술의 발달로 많은 영화들이 디지털화되어 제작되고 있고, 이러한 디지털 영화를 직접 상영할 수 있는 디지털 시네마로의 전환이 빠르게 진행되고 있다. 하지만 아직 까지 디지털시네마에서 요구하는 2K이상의 고해상도를 지원하는 촬영 장비는 매우 고가이기 때문에 디지털 영화의 제작에 걸림돌이 되고 있다. 본 논문에서는 이러한 문제를 저가의 일반 비디오 카메라와 디지털 스틸 카메라의 조합을 통해 해결할 수 있는 방법을 제시한다. 즉, 비디오 카메라로 촬영한 저해상도 비디오 영상과 동시에 일정한 간격의 키프레임마다 함께 촬영된 고해상도 이미지들을 이용하여 새로운 고해상도 비디오 영상을 합성하는 것이다. 비디오 합성은 프레임 단위로 이루어지는데, 먼저 현재 프레임의 픽셀마다 대응되는 점의 위치를 앞뒤 키프레임들에서 찾는다. 대응점은 현재 프레임과 키프레임 간의 광흐름(optical flow)을 계산하여 찾게 된다. 대응점이 구해지면 키프레임의 고해상도 이미지에서 대응점 위치의 이미지 블럭을 가져와 현재 프레임의 해당 픽셀 위치에 복사한다. 만일 키프레임에서의 대응점을 찾을 수 없는 경우에는 현재 저해상도 비디오 프레임의 확대 이미지를 빈곳 채움에 이용하여 이미지를 완성한다. 본 연구의 결과는 고해상도 비디오 합성 외에 비사실적 비디오 렌더링 등과 같은 영상 효과의 구현에도 적용할 수 있다.

  • PDF