Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2019.06a
-
최근에 딥러닝 기술을 적용한 보행자 검출 연구가 활발히 진행되고 있다. 연구자들은 딥러닝 네트워크를 이용하여 보행자 오검출율을 낮추는 방법에 대해 지속적으로 연구하여 성능을 꾸준히 상승시켰다. 그러나 대부분의 연구는 다중 스케일 보행자가 분포되는 저해상도 영상에서 보행자를 제대로 검출하지 못하는 어려움이 존재한다. 따라서 본 연구에서는 기존의 Faster R-CNN구조를 기반으로 하여 새로운 다중 특징 융합 레이어와 다중 스케일 앵커 박스를 적용하여 보행자 오검출율을 줄이는 MS-FRCNN(Multi-scaleFaster R-CNN)구조를 제안한다. 제안된 방식의 성능 검증을 위해 Caltech 데이터세트를 이용하여 실험한 결과, 제안된 MS-FRCNN방식이 기존의 다른 보행자 검출 방식보다 다중 스케일 보행자 검출에서 medium 조건하에 5%, all 조건하에 3.9% 나아짐을 알 수 있었다.
-
단일 영상 초해상도 (Single Image Super-Resolution - SISR)기법은 카메라로 획득된 저해상도 영상에 필터 기반의 연산을 적용하여 좋은 화질의 고해상도 영상을 복원하는 과정이다. 최근에 심층 합성곱 신경망 학습의 발전에 따라 단일 영상 초해상도에 적용되는 심층 학습 기법들은 좋은 성과를 보여 주고 있다. 본 논문은 단일 영상 초해상도 성능을 개선하기 위해 웨이블릿 예측 네트워크를 효율적으로 적용하는 방법에 대해 연구하였으며, 저해상도 입력 영상의 특징을 잘 추출해내기 위해 네트워크 내부에 RDB를 적용하여 기존 방식보다 효율적으로 고해상도 영상 복원하는 기법을 제안한다. 모의실험을 통해 제안하는 방법이 기존 방법보다 화질은 약 PSNR 0.18dB만큼 우수하며 속도는 1.17배 빠른 것을 확인하였다.
-
지난 수 년 동안 계속해서 일반 실상 카메라를 이용한 영상분석기술에 대한 연구가 활발히 진행되고 있다. 최근에는 딥러닝 기술을 적용한 지능형 영상분석기술로 발전해 왔으며 국방기지방호, CCTV, 사용자 얼굴인식, 머신비전, 자동차, 드론 산업이 활성화되면서 많은 시너지를 효과를 일으키고 있다. 그러나 어두운 밤과 안개, 날씨, 연기 등 다양한 여건에서 따라서 카메라의 영상분석 정확성 감소와 오류가 수반될 수 있으며 일반적으로 딥러닝 기술을 활용하기 위해서는 고사양의 GPU를 필요로 하기 때문에 다른 추가적인 시스템이 요구된다. 이에 본 연구에서는 열적외선 영상의 객체 검출에 적용하기 위해 SSD(Single Shot MultiBox Detector) 기반의 경량적인 MobilNet 네트워크로 재구성하여, 모바일 기기 등 낮은 사양의 낮은 임베디드 시스템에서도 활용 할 수 있는 방법을 제안한다. 모의 실험결과 제안된 방식의 모델은 적외선 열화상 카메라에서 객체검출과 학습시간이 줄어든 것을 확인 할 수 있었다.
-
영상이 포함하고 있는 풍부한 정보를 검출하고 이해하기 위해서는, 영상속의 일관된 상호관계를 갖는 영상 객체 그룹을 이해하고 표현하는 영상 구문 검출 기술(Visual Phrase Detecting Technology)이 필수적이다. 영상 구문 검출 기술은, 영상이 포함하고 있는 다양하고 풍부한 정보를 추출하고 활용하기 위한 핵심 기술로 이를 이용한 자동차 주행중 전방 감시, 영상의 자동 주석 달기, 동영상의 검색, 쇼핑 공간에서의 부정행위 검출(fraud detection) 등 다양한 분야에 적용할 수 있다.
-
번호판 자동인식 (ALPR: Automatic License Plate Recognition)은 지능형 교통시스템 및 비디오 감시 시스템 등 많은 응용 분야에서 필요한 기술이다. 대부분의 연구는 자동차를 대상으로 번호판 감지 및 인식을 연구하였고, 오토바이를 대상으로 번호판 감지 및 인식은 매우 적은 편이다. 자동차의 경우 번호판이 차량의 전방 또는 후방 중앙에 위치하며 번호판의 뒷배경은 주로 단색으로 덜 복잡한 편이다. 그러나 오토바이의 경우 킥 스탠드를 이용하여 세우기 때문에 주차할 때 오토바이는 다양한 각도로 기울어져 있으므로 번호판의 글자 및 숫자 인식하는 과정이 훨씬 더 복잡하다. 본 논문에서는 다양한 각도로 주차된 오토바이 데이트세트에 대하여 번호판의 문자 인식 정확도를 높이기 위하여 2-스테이지 YOLOv2 알고리즘을 사용하여 오토바이 영역을 선 검출 후 번호판 영역을 검지한다. 인식률을 높이기 위해 앵커박스의 사이즈와 개수를 오토바이 특성에 맞추어 조절하였다. 그 후 기울어진 번호판을 검출한 후 영상 워핑(Image Warping) 알고리즘을 적용하였다. 모의실험 결과, 기존 방식의 인식률이 47,74%에 비해 제안된 방식은 80.23%의 번호판의 인식률을 얻었다. 제안된 방법은 전체적으로 오토바이 번호판 특성에 맞는 앵커박스와 이미지 워핑을 통해서 다양한 기울기의 오토바이 번호판 문자 인식을 높일 수 있었다.
-
본 논문에서 기존의 이미지 캡셔닝의 문제점인 행동 인식 관련한 문제를 해결한다. 이미지 캡셔닝 모델의 학습 데이터의 행동 부분 즉, 동사 부분으로 행동 인식 데이터 셋을 만들었을 경우 많은 클래스, 각 클래스에는 적은 데이터로 구성됨을 보였다. 따라서, 본 논문에서 행동 인식 모델을 추가하고, 임계값을 두어 이미지 캡셔닝의 동사 부분의 정확도가 낮을 경우, 그리고 행동 인식 모델의 정확도가 높을 경우 두 결과물을 교체하는 방식으로 이미지 캡셔닝의 문제점을 해결한다. 본 논문에서 제안하는 모델에 대한 설명과 구현 과정 및 행동 인식에 강인한 이미지 캡셔닝 실험 결과를 보인다.
-
Kim, Seondae;Ryu, Il-Woong;Ryu, Jaesung;Mujtaba, Ghulam;Park, Eunsoo;Kim, Seunghwan;Ryu, Eun-Seok 25
본 논문은 시니어 라이프 로깅을 위한 데이터베이스를 효과적으로 구축하기 위해 영상의 심미적 특징을 통한 행동 별 영상 요약을 소개한다. 실내의 TV 앞에서 오랜 시간을 보내는 시니어의 상태를 체크하기 위해 일반 카메라 또는 360 카메라를 통해 HD 급 화질 이상의 영상을 주기적으로 수집하고, 이를 머신러닝 또는 딥러닝 기반의 행동인식 시스템에 이용하기 위한 전처리 단계에 응용할 수 있는 방법을 서술한다. 이 연구에서는 영상 데이터에서 얻을 수 있는 색상을 이용한 HSV 히스토그램, 영상신호의 Jitter 를 줄이는 고정도, 움직임 에너지 등을 이용하여 짧은 시간 내에 행동별로 구분된 영상(샷, shot)을 자르고 요약하는 방법을 서술한다. -
샷 경계 검출(Shot Boundary Detection)은 영상 콘텐츠 분석을 위한 필수적인 기술이며, 다양한 방식으로 편집된 영상의 샷 경계를 정확하게 검출하기 위한 연구가 지속되어 왔다. 그러나 기존에 연구들은 고정된 샷 경계 검출 알고리즘이나 매뉴얼한 작업과 같이 학습이 불가능한 과정이 포함되어 있어 성능 개선에 한계가 있었다. 본 논문에서는 이러한 과정을 제거한 End-to-End 모델을 제안한다. 제안하는 모델은 시공간 정보 추출성능을 높이기 위해 행동 인식 데이터셋을 이용한 전이학습을 사용하고, 샷 경계 검출 성능을 높이기 위해 개선된 지식의 증류기법(Knowledge Distillation)을 결합한다. 제안하는 모델은 ClipShots 데이터셋에서 DeepSBD 에 비해 cut transition 과 gradual transition 이 각각 5.4%, 41.29% 높은 성능을 보였고, DSM 과의 비교에서 cut transition 의 정확도가 1.3% 더 높은 결과를 보였다.
-
최근 딥러닝 기반의 다양한 물체 검출 알고리즘이 제안되어 높은 성능을 보이고 있다. 본 논문은 이러한 딥러닝 기반 물체 검출의 성능을 향상시키기 위해 입력영상에서 추출된 특징 지도를 강화하는 비지역적 특징 융합과, 이를 이용한 물체 검출 기법을 제안한다. 제안 기법은 입력영상에서 CNN 을 통해 추출한 특징 지도를 비지역적 특징 강화 블록을 통해 강화한다. 해당 블록 내에서 입력된 특징 지도는 먼저 여러 리셉티브 필드를 갖는 특징 지도로 분기된다. 그리고 분기된 특징 지도들은 비지역적 특징 융합 모듈에 의해 융합되어 강화된다. 이러한 과정을 통해 강화된 특징 지도는 비지역적 문맥 정보가 강화된 특성을 가지며, 해당 특징 지도를 이용하여 최종적으로 물체 검출을 수행한다. Pascal VOC 공인 데이터세트를 통한 실험 결과, 제안 기법은 기존 비교 기법 대비 향상된 검출 성능을 보인다.
-
최근 딥 러닝의 급격한 발전과 함께 얼굴표정인식 기술이 상당한 진보를 이루었다. 그러나 기존 얼굴표정인식 기법들은 제한된 환경에서 취득한 인위적인 동영상에 대해 주로 개발되었기 때문에 실제 wild 한 환경에서 취득한 동영상에 대해 강인하게 동작하지 않을 수 있다. 이런 문제를 해결하기 위해 3D CNN, 2D CNN 그리고 RNN 의 새로운 결합으로 이루어진 Deep neural network 구조를 제안한다. 제안 네트워크는 주어진 동영상으로부터 두 가지 서로 다른 CNN 을 통해서 영상 내 공간적 정보뿐만 아니라 시간적 정보를 담고 있는 특징 벡터를 추출할 수 있다. 그 다음, RNN 이 시간 도메인 학습을 수행할 뿐만 아니라 상기 네트워크들에서 추출된 특징 벡터들을 융합한다. 상기 기술들이 유기적으로 연동하는 제안된 네트워크는 대표적인 wild 한 공인 데이터세트인 AFEW 로 실험한 결과 49.6%의 정확도로 종래 기법 대비 향상된 성능을 보인다.
-
본 논문에서 개발하고자하는 다시점 스테레오 영상 기반의 3차원 깊이 정보 획득 기술은 스테레오 비전, light field, 가상시점, 방송 콘텐츠, 등 다양한 분야의 기술이 융합된 기술로 연구의 중요성이 매우 높다. 본 논문에서는 SGM 기반의 멀티베이스 라인 스테레오 정합 기술을 개발하고 다시점 스테레오 영상에 적용하여 깊이 정보를 획득하였다. 두 시점 간의 스테레오 정합에 있어서 다방향의 에너지 최소화 기술을 적용하고 시점 간의 정합비용함수를 누적하여 마지막으로 S공간 누적방법으로 최적의 깊이영상을 획득하였다. 기존의 스테레오 정합에 비하여 멀티베이스라인 스테레오 정합의 성능 향상을 확인하고 Middlebury 스테레오 영상을 이용하여 성능을 분석하였다.
-
본 논문에서는 계층구조 합성곱 신경망 기반의 고해상도 동영상 프레임 고속 보간 방법을 제안한다. 기존의 고해상도 동영상 프레임 보간 방법은 시간 해상도와 공간 해상도를 분리하여 보간 하기 때문에, 예측된 보간 프레임이 블러(blur) 열화를 갖는 문제를 보인다. 제안하는 방법에서는 이러한 문제를 해결하기 위하여 계층구조 합성곱 신경망 기반의 보간 방법을 이용한다. 제안하는 계층구조 합성곱 신경망은 우선 저해상도의 광학 흐름 추정지도를 생성하고 이를 고해상도로 복원하여 프레임 보간을 수행한다. 이때, 저해상도 광학 흐름 지도를 추정할 때 사용된 특징 정보들을 활용하여 고품질의 고해상도 광학 흐름 지도를 추정한다. 실험을 통하여 제안하는 방법이 고해상도 프레임을 고속으로 보간하며, 동시에 블러 열화에 대한 성능 향상을 가짐을 보였다.
-
인터레이스 영상은 지난 수 십 년간 방송 및 비디오 레코딩 등에 광범위하게 사용되고 있으며 디인터레이스의 성능을 향상 시키기 위한 많은 연구가 이루어졌다. 이를 위한 것으로써 본 논문에서는 컨볼루션 신경망을 이용한 비디오 디인터레이스 기법을 제안한다. 제안한 방법은 SKIP 연결을 사용하여 낮은 수준 특징 정보를 뒷 단의 레이어까지 전달함으로써 성능 향상을 달성하였다. 실험 결과는 FFMPEG 에서 제공하는 디인터레이스 기법에 비해 전 영상에 걸쳐 우수한 성능을 제공하며, 특히 복잡한 영상에서 기존 알고리즘 대비 큰 폭의 성능향상을 보인다.
-
본 논문에서는 얼굴 검출에서 좋은 성능을 보이는 Dual Shot Face Detector (DSFD)을 WIDER FACE 데이터 기반으로 네트워크의 성능 및 특성을 분석한다. 얼굴 검출 엔진의 동작 및 학습을 확인하기 위해 WIDER FACE 데이터를 기반으로 DSFD 를 학습한 후 기존 논문에서 발표되었던 성능을 보이는지 확인한다. 성능 확인된 얼굴 검출기 DSFD 를 세부적으로 분석하기 위하여 테스트 데이터를 10 개 그룹으로 분할하여 AP 측정 후 성능 열화가 높은 그룹의 이미지를 집중적으로 분석하였다. 분석 결과 얼굴 영역 주변에 모자 헬멧, 방패 등에 의해 가려진 경우 얼굴 검출에 많은 어려움이 발생했다. 또한 이미지에 있는 상황을 61 개로 구분하여 정량적 분석을 수행하며 분석 결과 Car Accident 와 People Marching 상황에서 성능이 열화되는 것을 확인하였다. 본 논문에서는 DSFD 네트워크의 성능 열화 부분 및 경향 등을 분석하였다. 이러한 내용은 DSFD 얼굴 검출기의 성능을 개선하거나 특정 도메인에 맞는 검출기를 개발하는데 매우 중요한 자료가 될 것으로 생각한다.
-
본 논문에서는 자연스러운 장면 영상에서 임의의 방향성을 가진 텍스트를 검출하기 위한 기법을 제안한다. 텍스트 검출을 위한 기본적인 프레임 워크는 Faster R-CNN[1]을 기반으로 한다. 먼저 RPN(Region Proposal Network)을 통해 다른 방향성을 가진 텍스트를 포함하는 bounding box를 생성한다. 이어서 RPN에서 생성한 각각의 bounding box에 대해 세 가지의 서로 다른 크기로 pooling된 특징지도를 추출하고 병합한다. 병합한 특징지도에서 텍스트와 텍스트가 아닌 대상에 대한 score, 정렬된 bounding box 좌표, 기울어진 bounding box 좌표를 모두 예측한다. 마지막으로 NMS(Non-Maximum Suppression)을 이용하여 검출 결과를 획득한다. COCO Text 2017 dataset[2]을 이용하여 학습 및 테스트를 진행하였으며 주관적으로 평가한 결과 기울어진 텍스트에 적합하게 회전된 영역을 얻을 수 있음을 확인하였다.
-
본 논문에서는 휘도 및 색차 성분에 따른 SHVC 계층간 참조 픽처 생성 방법의 부호화 성능을 분석한다. SHVC 상위 계층에서는 하위 계층의 픽처를 DCT-IF 기반 업샘플링하여 사용한다. 상위 계층의 부호화 성능을 높이기 위해 딥러닝 기반 필터링을 이용하여 휘도, 색차 성분의 고주파 신호 복원이 부호화 성능에 미치는 영향을 분석한다. 기존 Y 성분에만 VDSR 네트워크를 이용하여 필터링을 적용하였을 때보다 색차 성분까지 필터링을 진행할 경우 최대 2.18%, 평균 1.5% 감소된 결과를 보였다.
-
MPEG-NNR (Compression of Neural Network for Multimedia Content Description and Analysis) aims to define a compressed and interoperable representation of trained neural networks. In this paper, we present a low-rank approximation to compress a CNN used for image compression, which is one of MPEG-NNR use cases. In the presented method, the low-rank approximation decomposes one 2D kernel matrix of weights into two 1D kernel matrix values in each convolution layer to reduce the data amount of weights. The evaluation results show that the model size of the original CNN is reduced to half as well as the inference runtime is reduced up to about 30% with negligible loss in PSNR.
-
최근 다양한 VR/AR HMD 장비의 등장으로 영상표준에서는 3DoF 영상인 360 영상에 관한 표준이 정립되었다. 또한 이후 추가적인 표준인 3DoF+, 6DoF 로의 표준화가 계획 중이며 진행 중이다. 하지만 현제 실질적으로 6DoF 영상을 제작하거나 전송할 수 있는 표준은 존재하지 않으며, 표준화가 진행 되더라도 전송에 적합한 형태를 찾는 과정까지 오래 걸릴 것으로 예상된다. 따라서 본 논문에서는 기존에 표준화된 360 영상 표준과 전송 표준인 DASH를 활용하여 3DoF+ 이상의 6DoF를 구현하기 위한 DASH의 MPD 구조를 제안하여 실감 미디어 전송을 할 수 있도록 한다.
-
객체 추적 기술은 컴퓨터 비전 분야에서 활발하게 연구되고 있는 분야로, 인간-컴퓨터 상호작용(HCI)이나 로보틱스, 그리고 자율주행 자동차와 같은 곳에 유용하게 사용될 수 있다. 그중에서도 열화상 객체 추적 기술은 빛이 전혀 없는 어두운 밤에도 적용 가능하기 때문에, 감시 시스템이나 사고 현장의 구조 상황, 또는 군사적 응용에 더욱 유용하다. 그러나 일반적으로 열화상 영상은 컬러 영상보다 해상도가 낮고, 객체의 경계가 흐릿하며, 텍스쳐가 거의 없다는 점 때문에 기존 추적 방법들의 성능 저하의 원인이 된다. 이에 본 논문은 기존 Correlation Filter 기반 추적기에 객체성 특징을 함께 이용하여, 열화상 영상에서의 객체 추적 성능을 향상 시키는 방법을 제안하였다. 또한 실험을 통해 기존 방법보다 열화상 영상에서의 객체 추적 성능이 향상된 것을 보였다.
-
본 논문에서는 서브 블록별 상대적 거리에 따라 적응적으로 가중된 히스토그램 기반 지역적 대조비 향상 기법을 제안한다. 기존 지역적 대조비 향상 기법은 제한적인 공간의 정보만을 이용하기 때문에 과잉 대조비 향상, 결과 영상의 부자연스러움을 초래하는 반면, 제안하는 방법은 서브 블록별 상대적 거리에 반비례하는 가중치를 통해 더 넓은 공간의 정보를 적응적으로 이용하여 과잉 대조비 향상, 결과 영상의 부자연스러움을 효과적으로 방지한다. 실험 결과를 통해 제안하는 방법은 지역적 특성을 강화해주는 동시에 전역적인 자연스러움을 보존하는 것을 확인할 수 있다.
-
본 논문에서는 비디오 데이터를 이용한 감독 학습 프레임 워크를 제안한다. 최근 Deep Convolutional Neural Networks의 성공으로 많은 분야에서 사용되고 있다. DCNNs 모델 성능의 중요한 요소 중 하나는 Large-cale Dataset을 구축하는 것으로 Small-scale Dataset으로 모델을 학습한다면 과적합 및 일반화 오류를 해결하기 어렵다. 이러한 문제점을 해결하는 방법으로 이미지 왜곡을 통한 데이터 셋을 증가 또는 Dropout 기법 등을 사용하였지만 원본 데이터가 적은 경우에는 모델이 일반화 능력을 갖기 어렵다. 따라서 본 논문에서는 이러한 문제점을 보완하고자 Web으로부터 얻은 비디오에서 해당 Class와 관련된 프레임들을 추출하여 보다 쉽게 데이터 셋을 확장하고, 모델의 성능을 향상 시키는 방법을 제안한다.
-
At present, deep convolutional neural networks have made a very important contribution in single-image super-resolution. Through the learning of the neural networks, the features of input images are transformed and combined to establish a nonlinear mapping of low-resolution images to high-resolution images. Some previous methods are difficult to train and take up a lot of memory. In this paper, we proposed a simple and compact deep recursive residual network learning the features for single image super resolution. Global residual learning and local residual learning are used to reduce the problems of training deep neural networks. And the recursive structure controls the number of parameters to save memory. Experimental results show that the proposed method improved image qualities that occur in previous methods.
-
In the classical single-image super-resolution (SISR) reconstruction method using convolutional neural networks, the extracted features are not fully utilized, and the training time is too long. Aiming at the above problems, we proposed an improved SISR method based on a residual network. Our proposed method uses a feature fusion technology based on improved residual blocks. The advantage of this method is the ability to fully and effectively utilize the features extracted from the shallow layers. In addition, we can see that the feature fusion can adaptively preserve the information from current and previous residual blocks and stabilize the training for deeper network. And we use the global residual learning to make network training easier. The experimental results show that the proposed method gets better performance than classic reconstruction methods.
-
본 논문은 안드로이드 환경에서 사용자의 피부색으로부터 퍼스널 컬러를 추정하고, 퍼스널 컬러와 함께 조화 색상을 추천하는 것을 목표로 한다. 이를 위해 기존 영상 처리를 이용한 퍼스널 컬러 분석 방법[1]에 색채 이론을 도입하여 입력 영상으로부터 보다 정확하게 퍼스널 컬러를 추정하는 방법을 제안한다. 결과적으로, 기존 퍼스널 컬러 이론이나 방법보다 더 개인에게 최적화된 색상을 추천할 수 있었다.
-
AM 라디오방송은 통상 수십~수백 KW 급의 대출력으로 송신을 하여 타 지상파 방송 매체에 비해 많은 전력을 필요로 하며, 이는 방송사의 재정적 부담을 안겨주고 있다. 본 연구에서는 AM 라디오 방송의 전력은 낮추고 음질과 서비스 커버리지는 동일하게 유지할 수 있는 송출효율을 높여 방송하는 방법들에 대해 고찰하고 적용 가능성을 검토하였다. 연구 결과 국내 AM 방송에 고효율방식의 송출이 기술적으로 가능하며, 이런 방식을 적용할 경우 송출 전력을 30% 이상 절감할 수 있을 것으로 예측되었으나, 현행 AM 라디오 방송에 관한 국내 기술기준으로는 적용이 불가하여 이의 개정이 전제되어야 함을 알 수 있었다. AM 라디오방송에 고효율송출방식을 적용할 경우 송출전력을 대폭 낮추어 방송사의 송출 전력요금 부담을 경감하고 유사 시 국민들을 위한 재난경보매체로서 활용이 가능할 것으로 기대된다.
-
본 논문에서는 최근 부족한 전파자원을 대체할 수 있는 대안으로 부상하고 있는 가시광 통신을 이용하여 실내에서의 멀티미디어 컨텐츠 전송 방안을 제시한다. 건물내의 조명들을 가시광 모뎀으로 이용하고, 조명들이 연결된 전력선을 통신 선로로 이용한 전력선 통신을 이용하여 건물 내 통신망을 구성하였다. 본 연구에서 제시하는 가시광 통신을 이용한 건물 내에서의 멀티미디어 컨텐츠 전송 방법은 일반 건물 내에서의 멀티미디어컨텐츠 전송 및 전자기파 등의 사용이 제한되는 병원 내에서의 진단 영상정보 등의 전송에 활용이 가능할 것으로 기대된다.
-
유무선 정보통신환경에 맞춰 제한된 비트율로 압축된 CCTV 영상의 화질은 좋지 않을 수 있다. 본 논문은 제한된 비트율로 압축된 영상내 관심영역의 화질개선을 위해, 영상압축을 수행 하기 전의 카메라 센서로 획득한 영상에 전처리를 수행하는 방법을 제안한다. 제안하는 알고리즘은 관심영역 및 비관심영역에 차등적 필터를 적용하여 화소 별 공간적 상관도를 향상시킨다. 제안된 방법을 사용한 결과 관심영역에서의 텍스처 손실을 최소화 할 수 있었으며 전처리 과정을 적용하지 않은 영상과 비교하여 객관적 화질이 향상됨을 확인할 수 있다.
-
This paper introduces an adaptive scalar quantization scheme for video coding technology. The method utilizes the property of the coefficient groups (CG) inside each transform block so that the dead-zone interval of the scalar quantizer is adaptively set up for different CGs. Its experimental results show that our proposed quantization scheme can achieve BDBR reduction of 4.75%, 5.93, and 5.16% for Y, Cb, and Cr channel respectively when encoding with HEVC.
-
새로운 비디오 부호화 표준으로 JVET 에서 표준화 중인 VVC(Versatile Video Coding)에서는 더욱 유연한 화면간 예측을 위해 TPM(Triangular Partitioning Mode)을 채택하여 적용하고 있다. 하지만, TPM을 위한 추가적인 움직임 탐색 및 움직임 정보 저장은 VVC 부/복호화기의 복잡도를 증가시킨다. 본 논문에서는 TPM의 복잡도를 줄이기 위한 간소화 기법을 제안한다. 제안기법은 분할된 두개의 삼각 블록에 대한 움직임 정보 조합의 수를 줄여 움직임 탐색의 수를 줄이고 전송되는 데이터의 오버헤드도 함께 줄이는 TPM 간소화 기법이다. 실험결과, 제안기법은 RA(Random Access)와 LDB(Low-Delay B) 부호화 모드에서 미미한 성능 감소가 있었지만 4~6%의 두드러진 부호화 수행 시간 감소를 확인할 수 있었다.
-
본 논문에서는 비디오 제작 및 유통의 활성화에 따라 필요성이 높아지고 있는 장면 전환을 검출하는 방법을 제안한다. 유통 과정에서 해상도 변환, 자막 삽입, 압축, 영상 반전 등의 다양한 변형이 추가되더라도 동일하게 장면 전환을 검출해야 하므로 전처리 과정과 SIFT를 이용한 특징 추출, 변형을 고려한 매칭 방법을 이용하여 프레임 간의 매칭률을 계산한다. 또한 매칭률의 임계값을 기준으로 장면 전환 여부를 판단한다. 원본 비디오에서의 특징을 가지고 다양한 변형이 가해진 비디오에서의 특징과 매칭률을 계산하여 유효성을 판단한다.
-
본 논문은 보행자 재 검출 알고리즘, 즉 person Re-Identification 알고리즘에 대하여 다루고 있다. 기존의 CNN 네트워크를 이용한 보행자 재 검출 알고리즘의 경우, 실제 감시 카메라 네트워크를 이용하여 보행자 재 검출을 할 경우 주변 환경 조건이 급격하게 변하는 경우 잘못 검출하는 경우가 발생하는 것을 확인할 수 있다. 이는 보행자 검출 후 해당 영역에 대하여 보행자 재 검출을 하는데 있어서 배경 부분의 변화에 영향을 받는다는 것을 의미한다. 따라서 본 논문에서는 배경 부분의 영향에 의한 효과를 줄이기 위하여, 보행자 영역 분리 알고리즘을 이용하여 보행자 영역을 분리한 후, 보행자 재 검출을 수행하는 연구를 진행한다.
-
본 논문에서는 다중 깊이 및 RGB 카메라의 캘리브레이션 최적화 알고리즘을 제안한다. 컴퓨터 비전 분야에서 카메라의 자세 및 위치를 추정하는 것은 꼭 필요한 과정 중 하나이다. 기존의 방법들은 핀홀 카메라 모델을 이용하여 카메라 파라미터를 계산하기 때문에 오차가 존재한다. 따라서 이 문제점을 개선하기 위해 깊이 카메라에서 얻은 물체의 실제 거리와 함수 최적화 방식을 이용하여 카메라 외부 파라미터의 최적화를 진행한다. 이 알고리즘을 이용하여 카메라 간의 정합을 진행하면 보다 더 좋은 품질의 3D 모델을 얻을 수 있다.
-
현재 상업적으로 널리 쓰이는 CCTV 용 카메라는 충분한 광량이 보장된 환경에서는 가시영역 영상을, 저조도 환경에서는 적외선 영상을 획득한다. 적외선 영상은 색채정보를 갖고 있지 않아 객체의 색채 정보를 이용하여야 하는 응용에 활용하기 어렵다. 본 논문에서는 ND 필터를 사용하여 가시광선 및 근적외선 영역의 영상정보를 분리하여 취득하는 가능성에 대한 연구를 하였다. 먼저 카메라 내부의 Hot Mirror 필터를 제거하여 가시영역 및 근적외선 신호 모두가 카메라에 들어오도록 한 후 ND 필터를 사용하여 영상을 취득한 후, 본 논문에서 제안하는 분리방식을 사용하여 가시영역 및 근적외선 영역으로 분리하였다.
-
우리나라는 현재 지상파 UHDTV 재난경보 방송서비스에 관한 연구를 진행 중에 있다. 한편, 노인, 장애인 등 재난취약계층은 재난 발생 시 최초 상황의 인지와 대응에 어려움을 겪어 일반 대중과의 재난 대응 격차는 커지고 있는 상황이다. 본 논문에서는 연구가 진행중인 지상파 UHDTV 재난경보 방송서비스를 기반으로 재난약자 그룹의 재난 상황 판단, 피난에 도움이 되는 맞춤형 미디어 전달이 가능한 재난메시지 확장 방안을 제안하며, 재난약자의 최적대피 및 대피형평성을 확보하기 위한 연구로 활용될 것을 기대한다.
-
최근 자연어 처리 기술에 대한 중요도가 높아지고, 발전 속도가 빨라지면서, 산업 전반에 걸쳐 챗봇에 대한 수요가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포, 그리고 이를 활용하여 사용자에게 텍스트를 음성으로 변환하여 동영상의 형태로 전달해 주는 시스템을 다루고 있다. 챗봇이 사용자 대화를 수집, 분석하여 상황에 맞는 키워드를 추출하고, 중복 콘텐츠 제거, 텍스트 요약 등 일련의 과정을 거쳐 소셜 매거진을 생성 및 배포하는 서비스와, 매거진의 각 콘텐츠를 구성하는 이미지, 텍스트 정보를 가지고 음성 합성, 자막 생성, 영상 효과 등을 이용하여 영상을 합성하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.
-
최근 들어 다양한 초 고화질 스트리밍 서비스의 보급과 통신기술의 급격한 발전에 따라 고화질 비디오 신호를 포함하는 멀티미디어 데이터의 이용과 전송의 중요성이 급속도로 증가하고 있으며, 동시에 동영상에 대한 수요도 지속적으로 증가하고 있어, 더욱 효과적인 동영상의 압축기법이 요구되고 있는 실정이다. 본 논문에서는 최근 VVC 표준화 회의에서 채택된 다중 변환 선택 기술의 적용범위를 확장하여 기존의 방법처럼 휘도채널에 적용하는 것뿐만 아니라 특정한 조건 하에서는 동일한 방법을 색차채널에도 적용하도록 하여 압축 효율을 향상하는 방법을 연구하였다. 실험결과, 기존 VVC 방법 대비 BDBR 측면에서 Y(0.00 %), Cb(-0.26%), Cr(0.08%)의 결과를 얻을 수 있었다.
-
본 논문에서는 스마트폰을 이용한 3 차원 인체 복원 시스템을 제안한다. 모바일에서의 인체 복원은 디바이스상의 한계로 인해 기기와 서버 간에 인체 모델링 과정을 분할하여 처리한다. 분할된 인체모델링 과정은 복원 과정과 출력 과정으로 나뉘게 되며 안드로이드 기반의 스마트폰을 사용하여 취득한 영상을 서버로 전송하고 3 차원 인체 복원을 수행하게 된다. 3 차원 복원 알고리즘은 인체 변형 모델을 기반으로 3 차원 모델로부터 2 차원 영상으로의 투영을 통해 최적의 자세 및 체형 매개변수를 추정하고 복원된 결과는 모바일로 전송되어 복원된 모델링 결과를 출력한다.
-
완전 입체 3차원 영상을 구현할 수 있는 디지털 홀로그래픽 디스플레이에서 테이블위에 실제 물체가 있는 것과 같이 수평 방향 360도 전 영역에서 홀로그램을 볼 수 있도록 하기 위해서는, 홀로그램 영상을 수십 KHz정도의 프레임률로 시공간 다중화하여야 하며 동영상 재현을 위해서는 스트리밍 방식의 고속 대용량 홀로그램 데이터의 전송이 요구된다. 본 연구에서는 이를 위하여 홀로그램 데이터를 저장할 수 있는 스트리밍 서버를 구축하였고 서버내의 비디오 플레이어에서는 사전 정의된 데이터 포맷에 맞추어 제작된 CGH 데이터를 고속으로 전송하고, 설계 제작된 인터페이스 보드를 통하여 데이터를 수신하여 실시간으로 컬러 홀로그램을 재현하는 기능을 구현하였다.
-
Jeong, Jong-Beom;Lee, Soonbin;Jang, Dongmin;Ryu, Il-Woong;Le, Tuan Thanh;Ryu, Jaesung;Ryu, Eun-Seok 140
본 논문에서는 사용자 시점에 대응하는 고화질 360 비디오 제공을 위해 다시점 360 비디오 중복성 제거기법을 적용하고 잔여 비디오를 하나의 영상으로 병합하여 압축 후 전송하는 시스템을 구현한다. 사용자 움직임 적응적 360 비디오 스트리밍을 지원하는 three degrees of freedom plus (3DoF+)를 위한 시스템은 다시점에서 촬영된 다수의 고화질 360 비디오 전송을 요구한다. 이에 대한 방안으로 다시점 비디오 간 중복성 제거를 위한 3D warping 을 기반으로 하는 뷰 간 중복성 제거 기술과 비디오 복원에 필요한 타일들만 추출 및 병합해주는 잔여 뷰 병합 기술에 대한 구현 내용을 설명한다. 제안된 시스템을 기반으로 다시점 360 비디오 전송을 수행하면, 기존 high-efficiency video coding (HEVC)을 사용하여 전송했을 때 대비 최대 20.14%의 BD-rate 감소가 가능함을 확인하였다. -
Recently, according to the rapid development of surveillance information, closed-circuit television (CCTV) has become an indispensable component in security systems. A lot of advanced technologies of encryption and compression are implementing to improve the performance and security levels of the CCTV system. Especially, 360 video CCTV streaming is promising for surveillance without blind areas. However, compared to previous systems, 360 CCTV requires large bandwidth and low latency. Therefore, it requires more efficiently effort to improve the CCTV system performance. In order to meet the demands of 360 CCTV streaming, transcoding is an essential process to enhance the current CCTV system. Moreover, encryption algorithm is also an important priority in security system. In this paper, we propose a real-time transcoding solution in combination with the ARIA and AES algorithms. Experimental results prove that the proposed method has achieved around 195% speed up transcoding compared to FFMPEG libx265 method. Furthermore, the proposed system can handle multiple transcoding sessions simultaneously at high performance for both live 360 CCTV system and existing CCTV system.
-
가상현실 기술의 발전으로 보다 많은 사람이 가상현실 콘텐츠를 즐길 수 있게 되었다. PC나 스마트폰과 같은 이전의 콘텐츠 플랫폼과 달리 가상현실에서는 3차원 정보를 전달할 수 있는 인터페이스가 요구된다. 2차원에서 3차원으로의 변화는 보다 높은 자유도를 가지는 반면, 사용자는 새로운 인터페이스에 적응해야 하는 불편함 또한 존재한다. 이러한 불편함을 해소하기 위하여 본 논문에서는 가상현실상에서 음성과 손동작을 결합한 인터페이스를 제안한다. 제안하는 인터페이스는 음성과 손동작은 현실 세계에서의 의사소통을 모방하여 구현하였다. 현실 세계의 의사소통을 모방하였기 때문에 사용자는 추가적인 학습이 없이 가상현실 플랫폼에 보다 쉽게 적응할 수 있다. 또한, 본 논문에서는 가상객체를 생성하는 예제를 통하여 기존의 3차원 입력장치를 대신할 수 있음을 보인다.
-
본 논문에서는 기존의 연구를 극복하여 단일 영상이 아닌 단안 비디오로부터 5D 라이트필드 영상을 합성하는 딥러닝 프레임워크를 제안한다. 현재 일반적으로 사용 가능한 Lytro Illum 카메라 등은 초당 3프레임의 비디오만을 취득할 수 있기 때문에 학습용 데이터로 사용하기에 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 가상 환경 데이터를 구성하며 이를 위해 UnrealCV를 활용하여 사실적 그래픽 렌더링에 의한 데이터를 취득하고 이를 학습에 사용한다. 제안하는 딥러닝 프레임워크는 두 개의 입력 단안 비디오에서
$5{\times}5$ 의 각 SAI(sub-aperture image)를 갖는 라이트필드 비디오를 합성한다. 제안하는 네트워크는 luminance 영상으로 변환된 입력 영상으로부터 appearance flow를 추측하는 플로우 추측 네트워크(flow estimation network), appearance flow로부터 얻어진 두 개의 라이트필드 비디오 프레임 간의 optical flow를 추측하는 광학 플로우 추측 네트워크(optical flow estimation network)로 구성되어있다. -
본 논문에서는 컨볼루션 신경망을 이용하여 예측 된 공간 오디오 큐를 이용한 오디오 채널 확장 기술을 소개한다. 오디오 채널 확장 기술은 일반적인 스테레오 신호에 적용되어 5.1 레이아웃과 같은 고차원 오디오 신호를 생성하는 기술이다. 스테레오 신호에서 채널을 확장하기 위해 스테레오 신호에서 공간 큐를 예측하고 예측 공간 큐의 방향에 따라 5.1 채널 신호의 스펙트럼 구성 요소를 할당하여 다중 채널 신호를 합성한다. 제안된 방식으로 생성된 5.1 채널 신호는 원 5.1 채널과 유사한 공간 정보 합성 능력과 스테레오 대비 주관적 선호도가 개선된 음질을 제공한다.
-
본 논문에서는 스파이크그램 기반의 주파수 및 시간 특성을 이용한 음속 인식 방법을 제안한다. 기존의 MFCC 특성은 프레임 단위의 평균 특성이기 때문에 시간 해상도가 낮고, 짧은 음소의 특성을 반영하기에는 어렴움이 있다. 반면, 스파이크그램은 청각 모델을 기반으로 샘플 단위로 계산하기 때문에높은 시간 해상도를 가진다. 고 해상도의 스파이크그램을 분석하면 음소 인식에 특화된 특성 벡터를 추출할 수 있다. 추출된 특성으로 심층 신경망을 학습시켜 음소 인식기를 구현하였고, TMIT 테이터 세트로 성능을 평가하였다. 성능 평가를 통하여 스파이크그램 기반의 새로운 시간-주파수 특성을 사용하여 MFCC 특성과 유사한 성능의 음소인식이 가능한 것을 확인하였다.
-
본 논문에서는 심층 신경망을 기반으로 하는 감정 인식을 위해 스파이크 특성을 추출하는 기술을 제안한다. 기존의 심층 신경망을 이용한 감정 인식 기술은 대부분 MFCC를 특성 백터를 사용한다. 그러나 프레임 단위의 연산인 MFCC는 높은 시간 해상도를 확보하기 어려워 시간적 특성의 영향을 받는 감정 인식에 한계가 있다. 이를 해결하기 위해 본 논문에서는 인간의 청각 필터를 모델링한 ERB에 따라 샘플 단위로 주파수의 특성을 나타내는 스파이크그램을 이용한 감정 인식 기술을 제안한다. 제안하는 방법이 감정 인식의 대표적 특성인 MFCC보다 높은 인식률을 제공하는 것을 확인하였다.
-
음향 이벤트 인식 기술은 오디오 신호에서 음향 이벤트를 예측하는 기술로, 최근 대용량 데이터베이스의 배포, 인식 알고리즘과 하드웨어의 발전, 관련 인식 대회 등에 힘입어 많은 연구가 이루어지고 있는 분야이다. 본 논문에서는 음향 장면 및 이벤트 인식 관련 대회인 DCASE 챌린지에 대하여 기술하고, 약한 레이블 기반의 데이터를 학습해 강한 레이블을 예측하는 DCASE 챌린지 과제 4에 대하여 설명한다. 또한 DCASE 챌린지 과제 4에 제출된 다양한 음향 이벤트 인식 알고리즘과 데이터베이스의 종류에 따른 성능을 비교하여 음향 이벤트 인식 성능을 분석한다.
-
The task of image denoising is gaining popularity in the computer vision research field. Its main objective of restoring the sharp image from given noisy input is demanded in all image processing procedure. In this work, we treat the process of residual hair removal on faces images similar to the task of image denoising. In particular, our method removes the residual hair that presents on the frontal or profile face images and in-paints it with the relevant skin color. To achieve this objective, we employ a deep neural network that able to perform both tasks in one time. Furthermore, simple technic of residual hair color augmentation is introduced to increase the number of training data. This approach is beneficial for improving the robustness of the network. Finally, we show that the experimental results demonstrate the superiority of our network in both quantitative and qualitative performances.
-
본 논문에서는 타일(tile) 기반 360 영상 스트리밍을 위해 Motion Constrained Tile Set(MCTS)을 적용하여 부호화된 영상을 독립적으로 전송하였을 때 독립적인 타일들을 하나의 영상으로 병합하는(merge) 기법의 제한점을 논의하고 타일 병합기를 구현한다. 360 영상 스트리밍 환경에서 타일 병합 기법을 적용하기 위한 방안으로, 시간적 및 공간적 독립성을 가진 타일들로 구성된 영상들을 이용하여 영상의 특성과 슬라이스 정보를 대체하여 병합된 영상을 생성하는 방법을 제안한다. 또한, 타일들을 병합을 하기 위해 일부 영상의 정보를 파싱하여 병합되는 영상 정보를 생성함으로써 송신단의 영상 정보를 이용하지 않고도 영상 병합이 가능해진다. 따라서, 제안하는 방식을 이용하면 미리 구성된 영상 정보로 병합하는 방법으로부터 더 나아가 영상 특성으로 인한 제한점을 해결하여 서로 다른 영상으로부터 분할된 타일들을 하나의 영상으로 병합할 수 있다.
-
360 영상을 이용한 실감형 미디어에 대한 관심이 날로 높아지고 있지만 높은 대역폭 요구사항으로 인해 원활히 보급되지 못하고 있는 실정이다. 이에 따라 360 영상을 타일 분할 기법을 적용한 뒤 각 영역의 중요도에 따라 독립적으로 품질을 조절하여 서비스하는 타일 기반 방법이 활발히 연구되고 있다. 그러나 사용자 시점에서 타일 경계에 있는 영상 지점을 바라볼 경우 다양한 품질의 영역이 부분적으로 존재하여 사용자 경험 평가가 어려운 문제가 발생한다. 본 논문에서는 360 영상을 비균등 품질의 타일들로 구성한 후 시선 위치 데이터를 통해 사용자 시점의 영상을 렌더링하는 과정에 대해 설명한다. 또한 다양한 품질의 영역으로 존재할 수 있는 사용자 시점의 영상의 두드러지는 영역에 대해 가중치를 적용하는 방법을 제안한다. 제안한 방법을 통하여 사용자 경험을 크게 해치지 않으면서 동시에 대역폭을 낮출 수 있는 360 영상 타일의 최적 구성을 찾기 위한 방향을 제시한다.
-
Animated images formats such as WebP are highly portable graphics formats that are being used everywhere on the Internet. Despite their small sizes and duration, WebP image previews the video without watching the entire content with minimum bandwidth. This paper proposed a novel method to generate personalized WebP images in the client side using its computation resources. The proposed system automatically extracts the WebP image from climax point using music analysis. Based on user interest, the system predicts the genre using Convolutional Neural Network (CNN). The proposed method can easily integrate with streaming platforms such as YouTube, Netflix, Hulu, and others.
-
360 도 VR (Virtual Reality) 영상을 기존의 비디오처럼 재생하고 전송하기 위해서는 아직까지도 논의 되어야할 많은 문제들이 존재한다. 특히 보는 장면에 비하여 전방위의 영상을 보내야하는 VR 영상은 매우 큰 용량을 가질 수 밖에 없다. 그럼에도 불구하고 사용자의 불편함을 덜기 위해서는 HMD (Head-Mounted Displays) 의 빠른 반응 속도가 필요하다. 따라서 QER (Quality Emphasized Region)기반의 전송 기법은 영역별로 차별화된 화질의 영상을 전송하여 실감미디어의 몰입감을 유지하고 대역폭의 낭비를 줄이는 뷰포트 적응적 360 도 비디오 스트리밍 시스템 (Viewport-Adaptive 360-Degree Video Streaming System)의 일종으로 제안되었다. 그러나, 사용자의 시점 정보를 계산하기 위해서는 매 프레임마다 차원 변환을 위한 복잡하고 많은 계산이 필요하고, 이러한 중복된 계산은 시스템의 성능을 저하시키는 요인이 될 수 있다. 본 논문에서는 이러한 차원 변환에 따른 자원낭비를 줄이기 위하여 QER 선택을 위한 개선 방법을 제안한다.
-
포인트 클라우드 콘텐츠는 3D 포인트 집합으로 이루어진 3D 데이터로, 일반적으로 3D 포인트 클라우드는 하나의 객체를 표현하기 위하여 수십, 수백만 개의 3차원 포인트(Point) 데이터가 필요하며, 각 포인트 데이터는 3차원 좌표계의 (x, y, z)좌표와 포인트의 색(color), 반사율(reflectance), 법선벡터(normal) 등과 같은 속성(attribute)으로 구성되어 있다. 따라서 기존 2D영상보다 한 단계 높은 차원과 다양한 속성으로 구성된 포인트 클라우드를 사용자에게 제공하기 위해서는 고효율의 인코딩/디코딩 기술 연구가 필요하며, 다양한 대역폭, 장치 및 관심 영역에 따라 차별화된 서비스를 제공하기 위한 품질 확장성 기능의 개발이 요구된다. 이에 본 논문에서는 포인트 클라우드 압축에 사용되는 V-PCC에서 3차원 미디어인 포인트 클라우드의 3D 공간 내 포인트 간의 밀도를 변경하여, 새로운 품질 변화를 달성하고 비트전송률 변경을 추가 지원하는 방법을 제시하였다.
-
최근 사용자에게 더욱 몰입감 있는 콘텐츠를 제공하기 위한 기술에 대한 관심이 증가하고 있으며 그 중 가장 대표적인 것이 360 VR 영상이라고 할 수 있다. 미디어 표준화 단체인 MPEG(Moving Picture Experts Group)에서는 MPEG-I(Immersive) 차세대 프로젝트 그룹을 이용하여 이러한 움직임에 대응하고 있다. MPEG-I는 2021년 말 6DoF VR 영상을 목표로 8개의 파트가 표준화를 진행중이다. 360 VR 영상의 경우 획득시 영상의 픽셀들이 3D 공간 상에 존재하게 되는데, 이를 처리 및 출력 하귀 위해서는 2D 영상으로 전환이 필요하며 이 때 사용되는 것이 Projection format이다. 현재 JVET(Joint Video Exploration Team)에서는 3D에서 2D로 전환이 이루어 질 때 손실을 최소화 하기 위한 Projection format들에 대한 연구가 이루어 지고 있다. 본 논문에서는 현재까지 제안된 다양한 Projection format들에 대하여 소개하고 이에 대한 성능 측정 방식에 대하여 소개한다.
-
3D 영상 데이터 중 하나인, 포인트 클라우드는 3 차원 데이터를 정밀하게 획득 할 수 있다는 장점으로 인해 군사, 교육, 의료, 건축 등의 다양한 분야에서 사용되고 있다. 특히, 자율 주행 분야에서 사용되는 동적 획득 포인트 클라우드는 광범위한 영역을 표현하므로 방대한 양의 데이터를 갖고 있어, 효율적인 압축이 필수적이다. 비디오 코덱을 활용하여 3 차원 데이터 압축을 진행하는 V - PCC 의 경우, 신뢰성과 범용성이 높다는 장점이 있으나, 2D 비디오 영상을 활용하기 때문에 대용량 및 광범위한 데이터의 압축이 불가능하다는 한계를 지니고 있다. 따라서, 본 논문에서는 V- PCC 의 한계를 극복하고, 광범위한 영역의 정보를 표현하는 동적 획득 포인트를 압축하기 위해 포인트 클라우드를 분할 및 양자화하는 방안을 제시하였다.
-
현재 국내에서 방송과 통신에서 제공할 수 있는 재난경보서비스 플랫폼 현황을 알아보고, 심각한 재난으로 인하여 재난경보 정보를 송출하는 진원지인 방송국이나 통신사에 장애가 발생하여 재난경보 송출이 불가하여 재난상황에 관한 정보가 TV 나 휴대단말로 전달되지 못하는 상황이 발생할 수 있다. 이러한 긴급 상황을 대비하여 지상파 UHD 방송과 CBS 를 상호연동하여 이중안전망을 구축함으로써 재난경보 전달이 최대한 이루어질 수 있도록 하는 방안을 제안한다.
-
최근 우리나라는 대형 산불 화재, 지진 및 복합 재난등 많은 위험에 노출이 되어 있는 상태이다. 대형 초고층 화재 및 산불 발생시 국민들에게 상황을 전달할 수 있는 시스템이 미비하여 신속하고 효과적으로 상황을 전파하고자, 현재 운영중에 있는 재난경보방송시스템과 화재플랫폼을 연계하여 상황을 신속하게 전파하고자 연구하였다. 본 논문에서는 초고층 빌딩화재와 재래시장화재 그리고 터널화재와 산불화재 가능성이 혼재되어 있는 테스트베드를 선정하여 화재 유형별로 전파되는 장소에 맞춰서 대비요령과 안내방송을 전파하는 것을 중점적으로 연구하였다.
-
본 연구에서는 재난문자에 대한 뉴스양과 주요 이슈에 대해 알아보았다. 뉴스 빅데이터 서비스인 빅카인즈를 통해 분석을 실시한 결과, '재난문자' 관련 뉴스가 2016년에 186건으로 전년대비 약 18.6배 증가하는 급격한 성장세를 보였다. 이후 '재난문자' 관련 뉴스는 높은 수치를 유지하는 것으로 나타났다. 지진이 다른 재난에 비해 많은 비중을 차지하였지만 지진이 다수를 차지한 2016년 대비 2017년과 2018년은 지진 외에 다양한 재난에 대해 다루어졌다. 그리고 '재난문자' 연관어 중 행정안전부(국가안전처, 행안부 용어 포함)가 가장 비중 있게 다루어졌고, 기상청과 국민도 비중 있게 다루어진 용어로 나타났다.
-
최근 국내 재난유형별 사회재난 발생 현황을 살펴보면 다중밀집시설에 대한 대형화재의 발생 비율이 가장 높은 비율을 차지한다. 이는 대규모 재난 발생에 대한 광범위한 재난정보 전달뿐만 아니라 한정된 지역에 재난정보를 전달하는 방안이 필요함을 시사한다. 현재 지역적 재난정보전달이 가능한 방안으로는 긴급재난문자(CBS) 방식이 있으나, 기술적 한계로 기지국 간의 셀을 그룹화하는 클러스터링 방식으로 전달을 하고 있다. 이로 인해 최소 발령 범위는 시 군 구 단위로 한정할 수밖에 없으며, 재난 발생 지역에서 벗어난 영향이 적은 지역까지 발령하는 문제점들이 존재한다. 본 논문에서는 이러한 문제점을 해결하기 위한 방안으로 건물, 구역 등 한정된 지역에 정보전달을 위한 긴급재난문자 표준 기술에 대해 조사하고 적합한 기술에 대해 논하고자 한다.
-
최근 경주 포항 지역에 지진피해 등 대구 경북권의 잦은 재난 발생으로 인해 증대되고 있는 노후학교 건축물의 안전성 위험 문제에 대한 선제 대응이 필요한 상황이 요구되고 있다. 학교 건축물에 건물의 위험도를 파악할 수 있는 센서들을 부착하고, 실시간 모니터링을 통해 건물의 구조적 위험성을 판단한다. 건물의 위험도가 심각한 단계에 이르면 스마트폰(Smart Phone) 앱(Application)과 음성안내방송을 통해 건물의 재실자와 관리자에게 즉시 경보를 발령하며, 대피할 수 있도록 가이드를 제시 한다. 이에 본 논문에서는 스마트 재난경보방송을 위한 스마트폰 애플리케이션(application)을 통해 재난 상황을 전파하고 대응할 수 있게 건물의 위험성 발생 위치정보를 제공하며 대피 안내 정보를 제공한다. 동시에 건물의 구내방송 시스템과 연계를 통해 음성 안내방송을 자동으로 수행하며, 두 가지 방식으로 재난 메시지를 전파하여 중복성을 가지고 경보 전파를 수행한다.
-
최근 재난 발생 빈도가 증가함에 따라 재난이 발생 시 사람들에게 재난에 대한 정보를 전달하는 중요성이 부각되고 있다. 기존에는 재난이 발생 시 지역단위로 다양한 매체를 통해 사람들에게 정보를 제공 하고 있다. 하지만 지역단위(시군구 or 읍면)로 정보를 제공하고 있어 위험 발생지역과 동일 지역에 있더라도 위험 영향범위 내에 있지 않는 사람에게도 동일한 재난정보를 제공하고 있어 혼란을 야기 할 수 있는 문제점이 있다. 이에 본 논문에서는 재난 발생 지점을 기반으로 Segment 를 생성하고 관리 하여 위험지역의 사람들에게만 정보를 제공할 수 있는 Segment 기반 재난 정보 제공 시스템을 설계 한다. 제안한 시스템은 재난 발생 시 재난 종류에 따라 위험 지역을 세분화 하고 발생 지점을 중심으로 Segment 를 생성한다. Segment 에 포함된 인구를 추출하고 위험 지역 별로 재난 정보를 제공한다.
-
본 논문에서는 미국 재난문자방송 서비스인 WEA의 개선 사항 중 지역맞춤형 서비스를 중점적으로 서술한다. WEA에서 정의하는 지역맞춤 서비스, 이를 위한 미국 연방 규칙에 대해 서술한다.
-
최근 들어 지진이나 국지적 폭우 등 자연재해로부터 발생하는 재난뿐만 아니라 미세먼지나 화재와 같은 다양한 형태의 사회재난이 빈번하게 발생함에 따라 재난경보서비스에 대한 많은 관심이 고조되고 있다. 본 논문에서는 ATSC 3.0 전송방식에 기반한 지상파 UHD 방송망을 통하여 신속하게 재난방송 서비스를 제공하기 위한 전송시스템의 구조에 대하여 설계하고, 이를 수행하기 위한 기능사항을 제안한다. 제안한 내용은 이미 서비스되고 있는 지상파 UHD 방송망을 통하여 국가 재난경보를 위한 중요한 매체로 활용될 것으로 기대한다.
-
뉴스, 광고, 도서에 이르는 디지털 정보들은 멀티미디어 기술로 진화하고 있다. 하지만 재난 상황에서 신속히 전달되는 재난 경보는 아직까지 멀티미디어 기술이 거의 적용되지 않았다. 이미 사람의 대응 행동을 유발하는 재난상황에서 효과적인 경보를 위한 멀티미디어 기술의 선행 연구가 있다. 본 연구는 2016년 경주지진, 2017년 포항지진 상황을 유사하게 가정하여 모바일 재난경보에서 멀티미디어 기술을 접목하는 방안을 도출하였다. 제작된 시나리오는 적용 가능한 멀티미디어 기술 중에서 국내에도 필요한 기능을 중심으로 기술 구현 가능성을 고려하여 6가지 멀티미디어 기술을 적용하였다. 본 논문에 기술은 기존의 재난문자방송과 대비하여 도입이 필요한 6가지 멀티미디어 기술의 차별적 특징을 담고 있다.
-
지난 4월4일 고성 산불로 사망자 2명과 부상자 1명, 가옥 500여 채, 삼림 1757ha가 불에 탔다. 강원 산불에 이어 영덕지진 등에서 늑장대응을 보여준 재난방송시스템에는 많은 국민들에게 실망감을 안겨주었다. 재난방송 주관방송사인 KBS는 물론, MBC, SBS의 경우도 재난방송시스템에 관련 된 측면에서 본다면 아직 이웃나라 인 일본에 비해서는 매우 열악한 형편이다. 그럼에도 불구하고 점점 대형화, 다발화 하는 재난발생에 대응하기 위해서는 국가적인 차원에서도 특단의 조치가 필요하다. 미국의 경우는 차세대 재난정보 전달체계인 IPAWS(Integrated Public Alert and Warning System)를 개발해 지상파뿐만 아니라, 케이블TV, SNS 등 다양한 매체를 통해 재난정보를 신속하게 전달하고 있다. 일본도 이와 유사한 재난경보전달시스템인 J-Alert를 개발해 2020년까지는 '재난 약자 제로(Zero)시대'를 목표로 구현하고 있다. 우리나라는 지난 아현동 KT 화재사건에서도 경험했듯이 통신이 먹통이 되는 통신블랙아웃도 경험했다. 따라서 대형재난발생 시는 신속한 재난경보전달시스템이 재난피해를 줄일 수 있는 가장 중요한 생명줄이 될 수 있다. 미국이나 일본의 경우는 재난방송전달시스템을 관련법령으로 제도화 하고 있다. 특히, 일본에는 재난에 관한 모법이라고 할 수 있는 (1)"재해대책기본법"이 있는데, 이는 재해로부터 국토, 국민의 생명과 재산을 보호하기 위한 기본법으로 규정되어 있다. 그 밖에도 (2)방송법 (3)대규모지진대책특별 조치법 (4)국민보호법 (5)소방조직법 (6)수해방지법 등으로 규정하고 있다. 과거 일본도 우리나라와 같이 대형 산불이 잦았으나 요즘은 소형 산불만 발생하는 추세다. 이는 NHK가 보유한 700여 대의 로봇카메라와 전 국토를 샅샅이 감시하는 CCTV 덕택이다. 또한, NHK 보도국의 '기상 재해센터'는 재난에 대비해 40여 명의 전문 인력이 24시간 대응체제를 갖추고 있다. 나아가 NHK는 전국 12개의 거점지역에 헬리콥터 15대를 배치하여 신속하게 취재하고 있다. 이 뿐만 아니라, 46개의 지역방송국을 7개의 거점방송국으로 분할하여, 거점방송국마다 40여명의 카메라맨을 상주시켜 언제든지 재난을 취재할 수 있도록 하고 있다. 세계 각국에서 사용하고 있는 방송 주파수는 공공재(公共材)다. 국제전기통신연합(ITU : International Telecommunication Union)으로부터 주파수를 할당받아 사용하고 있기 때문에 주파수에 관한 사용 권한은 각국의 국민 모두에게 있다. 그러나 효과적인 주파수 활용을 전제로 정부가 일정한 자격을 갖춘 방송사업자에게 일시적으로 주파수 사용권을 위임하고 있다. 따라서 일본 정부도 국가적인 위기나 대형 재난발생으로 국민들의 생명과 재산이 위협받고 있을 때에는 공공재인 주파수를 즉시 재난방송으로 사용할 수 있도록 <재해대책기본법 제6조>와 방송법 제108조에 규정하고 있다.
-
Light Field (LF) image can be understood as a set of images captured by a multi-view camera array at the same time. The changes among views can be modeled by a general motion model such as affine motion model. In this paper, we study the impact of affine coding tool of Versatile Video Coding (VVC) on LF image compression. Our experimental results show a small contribution by affine coding tool in overall LF image compression of roughly 0.2% - 0.4%.
-
본 논문은 최근 MPEG-I 에서 논의되고 있는 전방위 6 자유도 영상의 가상시점 합성의 기존 공개 소프트웨어의 문제점 해결방안을 제안한다. 참조시점을 사용하여 합성된 가상시점의 영상을 대상으로 묶음 조정(bundle adjustment) 개념의 딥 러닝을 적용하여 영상 간 시공간적 품질 차이를 낮춘다. 실험에 따르면 중간시점 영상 합성 후 같은 시간적 특성을 같은 묶음을 MF-CNN (Multi-Frame Convolutional Neural Networks)에 적용함으로써 단순 VVS2.0 의 합성 결과 대비 평균 공간적으로 0.34dB, 시간적으로 0.81dB의 성능 향상을 제공하였다.
-
Light Field (LF) camera captures not only the light intensity but also the light direction coming to camera. While the rich information captured by LF camera enables many interesting applications such as digital refocusing, viewpoint changing, and 3D reconstruction, but it also requires powerful coding tools to reduce its large volume of data. In this paper, we investigate using the intra prediction scheme of the versatile video coding (VVC), which is the most recent video coding technology currently under developing, to compress the LF image. The Intra Block Copy (IBC) technique in VVC is exploited considering special LF image structure. The experimental result shows that VVC intra predict ion outperforms the H.265/HEVC intra coding technique in encoding LF data irrespective of using the IBC mode or not.
-
본 논문에서는 JPEG Pleno에서 표준 데이터세트로 제공되고 있는 랜덤 위상 홀로그램의 압축 방법을 제시한다. 일반적으로 영상의 노이즈 성분은 압축의 효율을 크게 떨어트린다. 스페클 노이즈가 심한 홀로그램의 경우 일반 영상에 비해 압축률 대비 화질이 좋지 않다. 홀로그램의 시각화를 위한 랜덤 위상의 추가는 스페클 노이즈와 더블어 홀로그램의 압축 효율을 더욱이 떨어트린다. 랜덤 위상 홀로그램에 웨이블릿 기반의 다중 필터링 방법을 적용한다. 다중 필터링 방법은 홀로그램의 특성을 고려하여 에너지 집중도를 최대한 높이는 방법이다. 에너지 집중도가 높을수록 압축 효율이 좋은 Zero-Tree 방식의 압축을 통해 홀로그램을 압축하고 압축률 대비 정량적 화질평가로 그 효율을 분석한다.
-
본 논문에서는 딥 러닝을 기반으로 홀로그램의 연산 간소화를 제안한다. 딥 러닝 중에서도 GAN model을 기반으로 진행된다. Point source 에 대응되는 홀로그램 모델링 식을 이용하여 Amplitude 와 Phase의 Component 들을 각각의 GAN 으로 훈련시켜 얻는 방법을 제안한다.
-
실사 기반의 VR (Virtual Reality) 영상을 생성하기 위해서는 카메라 리그 (rig) 설계 기술, 스티칭(stitching) 기술, 3 차원 공간 정보 추정 기술 등 여러 기술이 필요하다. 이러한 기술에 대한 연구를 진행하려면 카메라 위치, 피사체 거리, 조명 정도 등 다양한 요소를 고려한 수 많은 실험을 수행해야 하는데, 실사 조건에서 이를 직접 수행하려면 상당한 시간과 노력이 소요된다. 따라서 원하는 실험 조건을 쉽게 구성할 수 있는 컴퓨터 그래픽스 (CG: Computer Graphics) 환경 상에서 먼저 실험을 진행한 이후 실사로 확장하는 것이 더욱 효율적인 접근법이 될 것이다. 본 논문에서는 VR 영상의 생성에 요구되는 다양한 기술을 연구할 때 활용할 수 있는 CG 기반의 툴을 소개하고자 한다.
-
본 논문에서는 다시점 영상과 스테레오 매칭을 수행하여 얻은 깊이 정보를 통해 가상시점을 합성할 때 적용되는 블렌딩 기법을 제안한다. 다시점 영상에서 스테레오 매칭으로 얻을 수 있는 깊이정보는 물체와 배경의 경계부분에서 큰 오차를 갖는다. 이러한 이유로 원본 시점들의 영상을 깊이정보를 통해 특정 가상시점으로 워핑할 때 물체의 경계 부분에 배경의 화소가 일부 포함되는 문제가 발생한다. 이 문제는 워핑된 영상들을 블렌딩하여 하나로 합성 시 영상의 품질에 영향을 주는 요인이 된다. 본 논문에서 제안하는 방법은 깊이정보와 함께 영상의 수퍼픽셀 분할에서 얻은 정보를 이용하여 블렌딩 대상이 되는 영상에 화소 단위로 가중치를 부여하여 해당 문제의 영향을 완화한다.
-
본 논문은 실사 객체를 360도 전방위에서 관찰이 가능한 3D 그래픽 모델로 변환하는 시스템에서 뼈대를 추출하는 방법을 제시한다. 각 카메라로부터 촬영된 텍스쳐 영상을 이용하여 뼈대를 추출하고, 깊이 정보로부터 얻어진 포인트 클라우드 정보를 이용하여 뼈대 정보를 정합, 보정하는 과정을 수행한다. 카메라로부터 촬영된 텍스쳐 영상에 대해 딥러닝 기술 등을 이용하여 뼈대를 획득한다. 텍스쳐 영상으로부터 획득된 뼈대 정보는 동일 위치에서 획득된 외부 파라미터를 이용하여 월드좌표계로 변환하여 공간상에 위치시킨다. 이러한 과정을 모든 카메라로부터 획득된 뼈대 정보에 동일하게 적용함으로써 모든 뼈대 정보를 공간상에 표현하여 최종적인 뼈대 정보를 추출하는 방법을 제시한다.
-
본 논문에서는 가상의 체스보드판을 이용한 카메라 캘리브레이션 방법을 제안한다. 제안된 방법에서는 카메라 포즈나 체스보드판의 움직임을 모사하기 위해 가상 카메라로 획득한 여러 포즈의 체스보드 이미지를 디스플레이에 표시하고 디스플레이를 캘리브레이션 대상이 되는 카메라로 촬영한다. 가상 체스보드 격자점좌표와 촬영된 이미지의 체스보드 격자점좌표 사이의 homography 행렬로부터 카메라 파라미터에 대한 제한조건을 추출할 수 있음을 보였고, 렌즈 왜곡을 고려한 전체 카메라 캘리브레이션 방법 또한 제안하였다.
-
현재 MPEG은 최대 6DoF(Degrees of Freedom) 사용자 운동시차를 지원함과 동시에 고해상도의 360VR 서비스를 제공하기 위한 영상 포맷, 부호화 등 요소기술에 대한 MPEG-I(Immersive) 표준화를 진행 중에 있다. 6DoF는 가상 공간 내 임의의 위치에서 운동시차를 제공하는 것으로 이를 획득 및 재현하기 위한 360VR 영상 표현 및 포맷에 대한 연구가 필수적으로 요구된다. 이에 본 논문은 제한된 공간 내 임의의 위치에서 사용자에게 자연스러운 6 자유도를 제공하기 위한 360VR 영상 포맷을 제안한다. 실험결과 제한된 공간 내에서 사용자에게 자연스러운 운동시차를 제공할 뿐만 아니라 향후 실사 환경에서도 획득 및 적용 가능성을 확인하였다.
-
본 논문에서는 대한민국 국토에 대한 토지피복지도를 인공위성 영상으로부터 생성하는 기술을 제안한다. 제안하는 방법은 먼저 합성곱 신경망을 이용하여 인공위성 영상의 각 패치를 4 종류의 토지 용도로 분류한다. 이후 인공위성 영상과 토지 용도 분류 결과를 조건부 랜덤 필드에 적용하여 픽셀 단위로 색상과 질감이 유사한 영역을 같은 토지 용도로 분류될 수 있도록 하여 정확한 토지피복지도를 생성한다. 현재 대한민국 국토에 대한 토지피복지도 생성을 위해 구축된 데이터 세트가 없기 때문에 본 연구에서는 합성곱 신경망 학습을 위한 데이터 세트를 직접 구축하였다. 이를 위해 환경공간정보 서비스 웹사이트로부터 인공위성 영상을 취득하고, 각 영상을 패치 단위로 나누어 토지 용도를 직접 분류하였다. 실험 결과를 통해 제안하는 토지 용도 분류 합성곱 신경망의 성능을 평가하였으며, 최종 생성된 토지피복지도는 제안하는 방법이 효과적으로 토지 용도를 분류할 수 있음을 나타낸다.
-
영상 주석 생성 기술은 주어진 영상에 대하여 최대한 자세히 묘사하는 문장을 생성하는 것을 목표로 한다. 따라서, 이 분야에서는 생성된 주석과 입력 영상 간의 연관성이 가장 중요하다. 영상 주석 생성과 관련된 최근 연구들은 영상 내에서 집중해야 될 후보 영역들을 먼저 추출한 뒤, 이들을 LSTM 디코더 등에 입력하여 주석을 생성한다. 비록, 최근에 제안된 방법들이 입력 영상과 매우 연관성 높은 주석들을 생성하지만, 아직 영상 안에 존재하지 않는 물체가 종종 생성된 주석에 포함되는 환각(Hallucination) 문제가 발생하고 있다. 본 논문에서는 이를 해결하기 위하여 Beam search를 이용하여 기존 방법들보다 더 정확한 여러 주석 후보 군을 생성한 뒤, 각각의 주석을 객체 검출기에서 나온 객체 후보군과 비교하는 방법을 제안한다. 우리는 제안한 방법을 최근에 제안된 주석 생성 기술에 접목한 결과, 환각 문제가 효과적으로 제거되는 것을 확인할 수 있었다. 또한, MS COCO 온라인 서버 제출을 통하여 주석 생성기술의 성능이 향상되는 것을 확인하였다.
-
최근 딥 러닝을 이용한 방법들이 이미지 분류에서 뛰어난 성능을 보임에 따라, 컴퓨터 비전의 중요한 문제 중 하나인 이미지 검색에도 이를 활용하고 있다. 특히, 이미지 검색에 사용할 수 있는 이미지 기술자 (Image descriptor)를 깊은 신경망 구조의 일부분인 Fully-connected layer에서 추출하여 사용하는 방법들이 제시되고 있고, 이를 위해 알맞은 목적함수를 설계하여 깊은 신경망을 학습하는 것이 중요해지고 있다. 딥 러닝을 통해 얻은 이미지 기술자는 실수형 데이터로서, 한 장의 이미지를 수치화하여 표현하는 데 많은 메모리를 소모하게 된다. 이를 보완하기 위해 이미지 기술자를 작은 용량의 이진코드로 mapping 하는 해싱 (hashing) 이라는 과정이 필수적이나 이에 따른 한계점이 발생한다. 본 연구에서는 실수형 데이터가 갖는 거리 계산에서의 이점과 이진코드의 장점을 동시에 살릴 수 있는 Product Quantization 방식의 이미지 검색 방법을 이용하여 한계점을 극복하였다. 우리는 제안한 방법을 얼굴 이미지 데이터 셋에 실험하였고 기존 방식보다 뛰어난 성능을 보이는 것을 확인할 수 있었다.
-
본 논문에서는 CNN 기반 스테그아날리스 방법을 이용하여 입력 영상에 비밀 메시지가 삽입되었는지를 판별하고, 비밀 메시지가 삽입되었을 경우 WOW 와 UNIWARD 방법 중에 어떤 방법으로 삽입되었는지를 분류하고자 한다. 이를 위해 입력 영상으로부터 특징 정보를 추출하기 위해 사용되는 전처리(prepropcessing) 필터의 수가 분류 성능에 미치는 영향에 대해 분석한다. SRM 필터를 사용한 실험에서 필터의 수를 단순히 증가시키는 것은 성능 향상이 도움이 되지 않으며, 효과적인 필터를 선별해서 사용하는 것이 보다 우수한 성능을 가짐을 확인하였다.
-
본 논문은 합성곱 기반의 Single Shot Multibox Detector(SSD) [1] 의 구조를 이용하여 다양한 스케일의 얼굴들을 잘 검출하도록 하였다. 얼굴 검출은 물체 검출과는 다르게 얼굴의 높이와 너비의 비율이 다소 일정하고 크기가 작은 경우가 많은데, 이에 맞게 얼굴 검출이 용이하도록 anchor의 스케일, 비율, 크기를 변경하였다. 특징점 추출 네트워크는 깊은 네트워크의 최적화를 용이하게 하는 skip connection을 이용한 ResNet-50 [2] 기반을 사용하였다. 다양한 크기, 조명, 환경, 각도의 얼굴들을 포함하는 영상들로 이뤄진 Wider Face[3] 데이터 셋의 easy validation set으로 실험한 결과 0.782과 hard validation set에서 0.611의 average precision을 보였다.
-
본 논문에서는 초고해상도 기술의 복잡도를 줄이기 위하여 픽셀단위 생략 방법을 제안한다. 제안하는 방법은 픽셀 단위로 수평, 수직 방향의 밝기에 대한 2 차 미분치에 기반하여 생략을 결정한다. 제안하는 방법의 성능 평가를 위하여 가장 간단한 초고해상도 알고리즘인 SRCNN 과 제안하는 방법의 PSNR 비교한다. 그 결과 제안하는 방법이 평균적으로 약 47%의 픽셀이 생략이 되면서 SRCNN 대비 0.2dB PSNR 감소를 보인다.
-
이 논문에서는 가정내 음향 상황에 대한 사운드 이벤트 검출을 수행하는 시스템을 개발하는 내용을 담고 있다. 사운드 이벤트 검출 시스템은 마이크로폰 입력에 대해서 입력신호로부터 특징을 추출하고, 특징으로부터 이벤트가 있었는지 아닌지를 분류하는 형태를 가지고 있다. 본 연구에서는 독립형 디바이스가 가정내 위치한 상황을 가정하여 개발을 진행하였다. 가정내에서 일어날 수 있는 음향 상황을 가정하고 데이터셋 녹음을 진행하였다. 데이터셋을 기반으로 특징과 분류기를 개발하였으며, 적은 계산량으로 결과를 출력해야 하는 독립형 디바이스에 활용하기 위해서 특징셋을 간소화하는 과정을 거쳤다. 개발결과는 가정의 거실환경에서 녹음된 소리를 스피커로 출력하여 테스트하였으며, 다양한 음향 상황에 대한 개발이 추가적으로 필요하다.
-
본 논문에서는 RGB-IR 이미징 센서가 탑재된 드론을 사용하여 태양광 발전소의 태양광(PV) 패널을 탐지하는 방법을 제안한다. 태양광 발전소에서 드론에 설치된 IR 영상의 활용은 PV 패널의 결함 여부를 판단하는데 큰 도움이 된다. 그러나 IR 영상만을 사용해서 태양광 패널을 탐지하고 결함 여부를 판단하는 것은 태양광에 의해 생긴 정반사로 인해 정확도가 떨어진다. 본 논문에서 제안하는 시스템은 드론을 이용해서 IR 영상과 RGB 영상을 동시에 획득하고 활용하는 시스템을 제안한다. 제안된 시스템으로부터 IR 영상과 RGB 영상으로 패널 탐지의 정확도를 향상시키고, 태양광에 의한 정반사와 같이 오검출 될 수 있는 문제를 극복할 수 있다.
-
본 논문에서는 뉴로모픽 시스템 구현을 위해 시냅스 소자의 비선형적인 전도도를 고려한 균일 양자화 방식을 제안한다. 소프트웨어로 학습시킨 가중치에 최댓값을 나누는 것으로 정규화를 수행한다. 그 다음, 제안하는 균일 양자화 방식을 수행한다. 양자화를 수행할 때 소자의 제한적인 전도도 레벨을 고려하여 5 부터 25 레벨로 설정하여 실험하였다. 그 결과 MNIST 시험 데이터 세트의 정확도가 10 레벨에서 95.75%로, 소프트웨어의 정확도와 1%미만의 차이를 가진다.
-
드론에 프로젝터를 탑재한 드론 프로젝터 시스템을 활용한 이동형 프로젝션 디스플레이를 사용할 경우, 드론의 비행시 발생하는 흔들림이 그대로 프로젝터에 전달되기 때문에 프로젝터에 의해 투영된 영상에 왜곡이 발생하게 된다. 본 논문에서는 종래에 사용되던 드론의 비행정보 기반 투영영상 변환행렬을 실제 영상에 적용해보고 비행 움직임에 의해 발생하는 실제 투영영상에서 발생하는 오차를 평가하기 위한 방법을 제안한다.
-
TV홈쇼핑 생방송 제작 시 스튜디오 방송용 카메라 외에 추가로 다양한 카메라가 활용된다. 현재 지상파 방송 등에서 많이 활용되는 5D카메라는 홈쇼핑 생방송 제작 시 활용되어지고 그 활용도는 더욱 증가되고 있다. 본 논문에서는 활용도가 높아지고 있는 5D카메라 유선 인터페이스 활용이 아닌 60GHz 주파수 대역의 무선 영상 전송 시스템 생방송 제작에 관한 것이다.
-
본 논문에서는 최신 비디오 압축 표준인 HEVC 를 기반으로, 영상의 부호화 과정에서 블록 사이에 형성되는 잡음을 감소시키기 위하여 합성곱 신경망을 학습시켜 영상의 품질과 예측 성능을 향상시키는 기법을 제안한다. 실험 결과 본 제안 기법은 기존의 HEVC 대비 평균 0.06dB 의 PSNR 개선을 보였고, 원본 값과 예측 값의 오차는 0.5%만큼 감소하였다.
-
VVC(Versatile Video Coding)는 YUV 입력 영상에 대하여 Luma 성분과 Chroma 성분에 대하여 각각 다른 최적의 방법으로 블록분할 후 해당 블록에 대해서 화면 내 예측 또는 화면 간 예측을 수행하고, 예측영상과 원본영상의 차이를 변환, 양자화하여 압축한다. 이 과정에서 복원영상에는 블록화 노이즈, 링잉 노이즈, 블러링 노이즈 발생한다. 본 논문에서는 인코더에서 원본영상과 복원영상의 잔차신호에 대한 MAE(Mean Absolute Error)를 추가정보로 전송하여 이 추가정보와 복원영상을 이용하여 Deep Learning 기반의 신경망 네트워크로 영상의 품질을 높이는 방법을 제안한다. 복원영상의 노이즈를 감소시키기 위하여 영상을
$32{\times}32$ 블록의 임의로 분할하고, DenseNet기반의 UNet 구조로 네트워크를 구성하였다. -
2017년 5월31일부터 지상파 초고화질방송(UHDTV)이 시작되었다. 이미 고화질방송(HDTV)으로 디지털화 되어 선명한 화질과 품질을 방송으로 보고 있으나 세계의 축제인 2018년도 동계올림픽을 위하여 방송을 송출하였다. 그러나 현재의 수신은 수도권과 일부 대도시 그리고 평창 등의 일부지역으로 한정되고 2021년까지 전국 시 군 지역까지 방송이 될 것이며, 특히나 지상파 최고화질방송은 최근에 빈번하게 발생하고 있는 재난의 대응을 위하여 재난경보방송을 제시하고 있다. 공동주택에서 방송공동수신설비는 지상파 텔레비전방송, 에프엠라디오, 이동멀티미디어방송 및 위성방송을 활용하는 필수 설비이다. 방송공동수신설비는 최근에 다양한 재난상황을 실시간으로 상황전파를 하는 중요한 시설이 되고 있다고 본다. 그러나 방송공동수신설비는 구내통신설비와 함께 공동으로 사용되고 있으며 일원화된 채널로 되어 있어 단선되는 경우 재난방송을 듣거나 볼 수가 없게 된다. 따라서 본 논문에서는 방송공동수신설비를 이중화할 수 있도록 제안을 하고자 한다. 먼저, 기존의 방송공동수신설비를 알아보고, 제안방식으로 소출력중계기를 활용하거나 극소 소출력중계기 또는 비상방송과 결부시켜서 이중화를 하는 방안을 제시한다. 몇 가지 제약적인 사항이 있으나 국민의 생활 안전을 위해서는 고려가 되어야 한다고 본다.
-
현재 IoT 분야에서는 블록 체인 도입을 적극적으로 하고 있으며 자동화된 거래를 활성화하기 위해 스마트 컨트랙트를 적극 활용하려는 움직임이 많다. MPEG-IoMT(Internet of Media Thing)는 미디어를 다루는 사물인터넷 간에 미디어 데이터 또는 가공된 데이터를 전송하는 표준이다. MPEG-IoMT 에서 블록체인을 도입하기 전에 앞서 컨트랙트와 관련된 MPEG-21 에 대해 전반적으로 살펴보고 MPEG-21 를 활용하여 MPEG-IoMT 내 블록체인 도입 및 스마트 컨트랙트 표현에 대한 표준화 방향성을 제시하고자 한다.
-
수 십년 전 경제 불황을 극복하기 위한 공유 경제 개념이 생겨났으며 수 년 전부터 에어비엔비나 우버와 같은 공유 경제를 위한 플랫폼이 등장하였다. 공유 경제 플랫폼은 잘 쓰이지 않는 자신의 물건을 공유함으로써 물건을 사용하고자 하는 사람이 비싸게 물건을 구매하지 않고 물건을 사용할 수 있다는 것이 특징이다. 본 논문에서는 에어비엔비나 우버 등과 같은 플랫폼과 유사한 공유 경제를 위한 컴퓨터 자원 공유 플랫폼을 제안한다. 제안하는 플랫폼은 잘 사용하지 않는 컴퓨터 자원을 공유하게 함으로써 사용자가 원격으로 제공자의 컴퓨터 자원을 저렴하게 활용하게 하며, 제공자는 부가 가치를 창출할 수 있다는 장점이 있다.
-
본 논문에서는 최근 인공지능 기반의 자연어이해기술을 활용한 자연어 인터페이스 표준화 현황을 소개하고 사물기반의 미디어 사물간의 기능들을 표준화하고 있는 MPEG IoMT 표준에서의 자연어 인터페이스 구현 내용을 소개한다. 자연어 인터페이스에는 음성인식 기술, 음성합성 기술, 언어처리 기술, 질의응답기술, 음성 자동통역 기술등이 포함되며 언어지능으로서의 자연어 인터페이스를 사물 인터넷 환경에서 구현하기 위해 MPEG IoMT 의 표준화된 포맷과 활용 방식을 소개한다.
-
MPEG - IoMT(Internet of Media Things) 는 사물 인터넷 및 웨어러블 환경에서의 효율적인 미디어 서비스 제공을 위한 데이터 포맷 및 API(Application Programming Interface) 표준을 제공하고 있다. 본 논문에서는 MPEG - IoMT 에 채택된 헬스케어(healthcare) 정보 서술 툴에 대한 IoMT 참조 SW 에서의 검증 실험내용을 기술한다. IoMT 는 의료영상 저장/관리 및 통신을 위한 표준인 DICOM (Digital Imaging a nd Communication in Medical)을 기반으로 의료 미디어 정보를 기술하기 위한 Healthcare Information 스키마(schema)와 이를 기반으로 서술된 정보를 IoT 및 웨어러블 환경에서 활용하기 위한 API 표준을 포함하고 있다. 본 논문에서는 IoMT 참조 SW 를 이용하여 헬스케어 스키마에 따른 헬스케어 정보의 생성 및 파싱(parsing) 을 검증하고, 서술정보를 MThing (Media Thing) 들 간의 교환을 위한 API 에 대한 검증 내용을 보인다.
-
본 논문에서는 블록체인 및 암호화폐(토큰)를 이용해 미디어사물인터넷 내 카메라로부터의 비디오 스트리밍 서비스를 제공하는 시스템을 제안한다. 사용자가 분산형 애플리케이션을 통해 블록체인 상에 작성되어 있는 스마트 컨트랙트의 계약조건에 따라 토큰을 지불하고, 토큰을 지불 받은 IP 카메라는 촬영하고 있는 동영상을 실시간으로 사용자에게 스트리밍하는 시나리오를 구성하였다. 블록체인 카메라 스트리밍 서비스의 가능성을 알아보기 위해, 이더리움 기반의 블록체인 위에 스트리밍 서비스를 위한 스마트 컨트랙트를 업로드하고, 거래에 필요한 ERC20 토큰을 제작하여 시스템을 구현하였다.
-
4차 산업혁명과 더불어 1인 미디어 시대를 맞아 개인의 미디어 컨텐츠 제작과 소비가 간편해졌다. 이에, 유튜브, 트위치 등의 플랫폼을 통해 엄청난 양의 미디어 컨텐츠가 생성 소비되고 있다. 이와 관련하여 미디어 컨텐츠의 저작권에 대한 분쟁이 뜨겁다. 특히, 뮤직(음원)컨텐츠의 경우, 동영상을 비롯한 거의 모든 컨텐츠의 제작에 있어 없어서는 안 될 요소로 자리 잡고 있기 때문에 뮤직 컨텐츠와 관련된 저작권 분쟁은 더욱 치열하다. 이에, 본 논문에서는 뮤직 컨텐츠에 대한 저작권 분쟁을 블록체인을 적용하여 해결할 수 있는 방안을 제안한다.
-
최근의 IoT 기술의 발전은 다양한 형상, 네트워크 특징 및 서비스 아키텍쳐를 가지는 IoT 기기, 서비스 및 단말을 활용한 서비스의 발전을 가져오고 있다. 특히 OneM2M, OCF 등의 표준기구등은 다양한 IoT 기기 및 서비스 아키텍쳐에 대한 정의를 최근 수년간 진행해 오고 있으며, 이러한 IoT 서비스는 단순히 기기의 원격 상태 확인 및 제어 뿐만 아니라, 클라우드 및 AI 기술과의 연계를 통하여 그 서비스 영역을 지속적으로 확장 중에 있다. 이 중 Internet of Media Things 표준은 다양한 미디어 기반 서비스를 Thing으로 표현하여 다양한 Thing과의 연계 방안을 제시하고 있다. 본 논문에서는 기존에 다양한 기법을 통하여 연구 및 구현되고 있는 영상 기반 서비스를 Internet of Media Things 표준 기반으로 구현하기 위한 방법을 제시한다. 기존 영상 분석 기술은 대부분 정확도의 향상에 그 목적을 가지고 있어 서비스 형태로 제공하고 타 기기와의 연계성을 제공하기 위한 추가적인 기술간 연계가 필요하다. 본 논문에서는 Yolo v3 기반의 Face Detection 기술에 대하여, 해당 기술을 Internet of Media Things 표준으로 표출하기 위한 요구사항을 파악하고 실제 구현하기 위한 방안에 대하여 검토한다.
-
이미지 스티칭은 다수의 이미지를 합성하여 카메라의 좁은 시야각(Field of View) 문제를 해결하는 기술이다. 최근 동영상 기반 Panorama, Super Resolution, 360 VR (Virtual Reality) 등의 컨텐츠 사용이 증가함에 따라, 보다 빠르고 정확한 이미지 스티칭 기술의 필요성이 커지고 있다. 지금까지 필요 성능을 만족시키기 위해 많은 알고리즘이 제안되고 있지만, 정확성을 측정하는 객관적 평가 방법은 표준화되지 않고 있다. 최근에서야 PSNR (Peak Signal-to-Noise Ratio) 과 SSIM (Structural Similarity index method) 측정값을 제시하는 방법이 주를 이루고 있지만, 본 논문에서는 PSNR 과 SSIM 측정 방식의 문제점을 밝히고 지역 차분 픽셀 평가 방법을 제안한다. 기하적 유사성과 광도 측정 정보를 포괄하는 LDPM(Local Differential Pixel Mean) 평가 방식을 테스트 이미지를 통해 증명하고 SSIM 과 비교를 통해 해당 평가 방법의 이점을 밝힌다.
-
최근 영상처리 기술의 발달로 기존의 콘텐츠 대비 더욱 생생한 현장감을 주는 초고해상도 콘텐츠에 대한 관심이 증가하고 있다. 이에 맞춰, 초고해상도 콘텐츠의 라이브 스트리밍 서비스에 대한 요구사항 역시 꾸준히 증가 하고 있다. 라이브 스트리밍 서비스를 위한 다수의 HyperText Transfer Protocol (HHTP) 기반 적응형 스트리밍 서비스가 있으나, Dynamic adaptive streaming over HTTP (DASH)가 가장 대중적으로 사용되고 있다. 본 논문에서는 DASH기반 Spatial Relationship Description (SRD) 방법을 사용하여 원본 영상과 초고해상도 콘텐츠를 시그널링(signalling) 하고, 이를 통해 네트워크 상황에 맞는 영상을 재생할 수 있는 서비스 플랫폼을 설계하고, 이를 위한 MPD 기술방법을 제안 및 검증한다.
-
최근 네트워크 기술이 발달함에 따라 실시간 스트리밍 서비스의 사용이 증가하고 있다. 이에 따라, 스트리밍에 있어 복잡성 및 대기시간 등의 문제점을 해결하고자 공통 미디어 포맷에 관한 연구가 진행되고 있다. 또한, 통신망을 활용한 고품질 AV(Audio-Video) 콘텐츠 전송이 가능해짐에 따라, 국내 UHD(Ultra High Definition) 방송 전송 표준은 방송망과 통신망을 활용한 하이브리드 서비스 규격을 제정하였다. 하이브리드 서비스는 통신망을 활용함에 따라, 방송망 관련 부가 데이터 및 사용자 맞춤형 콘텐츠 제공과 같은 다양한 서비스가 가능하게 되었다. 본 논문에서는 국내 지상파 UHD 전송 표준인 MMT(MPEG Media Transport)와 모바일 망에 특화된 기능을 제공하기 위해 제안된 Mobile MMT의 시그널링 메시지를 활용한 콘텐츠 삽입 기술을 제안한다. 또한, 이종망 환경에서 콘텐츠 삽입 기술 시스템 모델 및 서비스 시나리오를 제안하고, 제안한 시스템 모델 기반의 검증플랫폼을 통해 제안 기술의 타당성을 확인한다.
-
본 논문에서는 계산의 복잡성을 줄이고 피크 신호 대 잡음 비율(PSNR) 성능을 개선하기 위한 새로운 프레임 상향 변환 (Frame Rate Up Conversion) 알고리즘을 제안한다. 제안된 알고리즘을 사용하기 위한 모션 추정 과정(Motion Estimation) 은 이전 프레임과 현재 프레임에서 마크로블록(Macroblock) 값의 최소 차이값(Sum of absolute differences) 을 이용하여 보간된 프레임(Interpolated Frame) 의 마크로블록이 가지게 되는 모션 벡터 값을 추출한다. 이 때 반복된 배경 패턴 및 여러 움직임들 때문에 모션 추정 과정에서 출력되는 벡터값이 비정상적으로 출력되는 경우가 있다. 여기서 제안된 알고리즘을 통해 모션 벡터값들의 특이치(Outlier) 를 검출하고 이를 교정하기 위한 분산값(Variance) 을 이용하여 모션 벡터 평활화 작업(Motion Vector Smoothing) 을 거친다. 이와 같이 제안된 알고리즘을 이용하여 실험한 결과값으로 프레임률 상향 변환 과정을 통해 상대적으로 계산의 복잡성은 낮으면서 양호한 PSNR 값이 출력됨을 확인할 수 있다.
-
IT기술의 발전으로 다양한 디바이스들이 출현하고 있고, 디바이스들의 디스플레이 크기와 해상도가 증가하는 경향을 보임에 따라 파노라마 영상에 대한 필요성이 대두되고 있다. 현 상황에서 영상 소비 목적과 사용 디바이스에 맞는 영상을 제공하기 위하여 불특정 해상도를 가진 영상들을 정합하여 파노라마 영상을 제작하는 것이 필수적이다. 이와 같은 파노라마 영상을 제작하기 위해서는 영상 간 스티칭 기술이 필요하며, 해당 스티칭 기술은 영상 전체에 대한 정보를 사용하기 때문에 많은 시간이 소요된다. 이러한 문제점을 해결하기 위하여, 스티칭 대상 영역을 특정하는 영상 간 공간유사도 평가를 활용하면 스티칭 시간의 감소를 가져올 수 있다. 본 논문에서는 추출된 특징점을 대상으로 삼각형 닮음 조건을 적용하여 영상 간 공간유사도를 평가하는 알고리즘을 개발하고자 한다.
-
국내를 시작으로 2020년 북미에서도 ATSC 3.0 기반 차세대 방송 서비스를 준비하고 있는 상황에서, 본 논문은 실제 상용 서비스 수신기를 검증하기 위한 비디오 테스트 패턴과 시험도구를 소개하고 있다. 본 논문에서 소개되는 비디오 테스트 패턴은 단순 수신기에서의 수신을 육안으로 확인하는데 그치지 않고 복호화 성능과 관련된 몇 가지 지표들을 평가할 수 있도록 개발되었다. 시험도구의 구조는 방송망(Broadcast)과 통신망(Broadband)을 이용하여 ATSC 3.0 표준에서 정의하고 있는 다양한 Media Essence(비디오, 오디오, 자막, 시그널링)의 복조화 기능에 초점이 맞춰져 있으며, 방송망과 통신망을 동시에 활용할 수 있는 구조로 구성되어 있다.
-
최근 4K UHD로 방송환경이 변화함에 따라 방송 제작 시스템도 기존의 SDI 전송에서 IP 전송을 이용한 시스템으로 변화하고 있다. 다양한 국내외 방송사들은 전송 대역폭을 높이고, 비용 효율화를 하고, 특정 벤더에 종속적이지 않고 시스템 유연성을 높이기 위해, 방송 제작 시스템을 IP 기반으로 구축하고 있다. 하지만 IP 기반 방송제작 시스템은 기존의 방송장비 하드웨어의 종속화로 인해 범용성과 확장성을 높이는데 한계가 있다. 본 논문에서는 소프트웨어 정의 방송 제작 워크플로우의 필요성에 대해 기술하고, 관련 공개 표준의 표준화 동향 및 기술 동향에 대해 알아보고, 소프트웨어 정의 방송 제작 워크플로우와 그 세부요소들을 정의하고 향후 연구 과제를 도출한다.
-
본 논문은 2016 년 제정된 "개방형 클라우드 기반 스마트 방송 플랫폼" 표준(TTAK.KO-07.0129)을 준용하여 개발된 클라우드 방송 플랫폼이 표준의 기술 요구사항을 준수하여 적합하게 구현되었는지 테스트 하기 위한 시험환경 구현에 대해 다룬다. 적합성 시험을 위한 시험항목, 기준, 절차 등이 정의되어 있는 "개방형 클라우드 기반 스마트 방송 플랫폼 표준 적합성 시험" 표준(TTAK.KO-07.0135) 은 2017 년 제정되었으며 이를 기반으로 130 여 개의 테스트케이스가 함께 개발되었다. 테스트케이스를 실제 클라우드 방송 환경과 유사한 조건에서 실행시키기 위하여 방송 송출서버, 이미지 클라우드 서버, 비디오 클라우드 서버, 관리서버 등의 장비로 시험환경을 구축하였다. 그리고 표준기반으로 개발된 클라우드 방송 표준기반 테스트 플랫폼을 통하여 클라우드 방송 적합성 시험환경의 유효성을 검증하였다.