Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2017.06a
-
본 논문에서는 2014년도 몽골에 구축된 지진조기경보시스템(EDWS : Earthquake Disaster Warning System)을 효율적으로 운영하기 위한 방안에 대하여 연구하였으며 우리나라 기업에서 구축 운영 중인 몽골 지진조기경보시스템은 VHF망과 위성망을 이용하여 재난 상황 발생 시 즉각적으로 옥외 경보방송과 TV, 라디오를 이용하여 상황을 전파 할 수 있도록 구성되어 있다. 그러나 울란바토르 시내 중심부에는 많은 관공서와 사무실, 극장, 쇼핑몰, 아파트 등이 밀집되어 있어 실내에서 재난경보 방송을 청취하기가 쉽지 않아 재난경보 사각 지대 및 음영지역이 존재하는 상태이다. 본 연구를 통해 정부 유관기관 및 인구밀집지역 건물 내부에 효과적인 옥내경보방송 방법을 제시하여 각종 재난 재해시 경보방송의 활용성을 높이고 몽골 정부기관과 대형 공공 건물에 의무적으로 옥내경보방송 장치 설치를 유도하여 보다 효율적인 경보방송 시스템을 제시하고자 한다.
-
본 논문은 무선 인지 네트워크에서 에너지 하베스팅을 하는 다수의 단말이 하나의 중계기를 사용하여 양방향 통신을 하는 시스템을 다룬다. 한 신호 전송 프레임은 에너지 하베스팅 단계와 신호 전송 단계로 이루어 진다. 에너지 하베스팅 단계에서 각 단말은 일차 사용자의 송신기에서 보내는 무선 에너지 신호를 이용하여 신호 전송에 필요한 에너지를 저장한다. 신호 전송 단계에서 중계기는 처리량이 가장 높은 하나의 유저 쌍을 선택하며, 선택된 유저는 중계기를 통하여 세 단계를 거쳐 정보를 교환한다. 이 때 각 단말에서의 불능 확률을 1) 중계기에서의 전송 전력이 변화할 때, 2) 단말 수가 변화할 때로 나누어 시뮬레이션 하고, 결과를 분석한다.
-
비디오 시퀀스에서 3D 모델을 복원하기 위해서는 기하 모델 추정이 용이한 프레임을 선택해야 한다. 본 논문에서는 안정 장치 도움을 받는 전문 비디오가 아닌 일반 비디오에서 고품질의 프레임을 손쉽게 자동 추출하는 방법을 제안한다. 제안하는 기법은 optical flow 기반 매칭 분석, 프레임 간 적당한 기준선 거리 판단, 비디오 내에서 빠른 탐색을 위한 고속 도약, 두 프레임 간의 호모그래피와 기본 행렬에 대한 GRIC 점수, 모션 블러 프레임 제거 방법 모두를 결합한다. 실내 공간에 촬영된 비디오를 이용한 실험을 통해, 우리의 방법이 모션 블러와 저하 움직임이 있는 상황에서 더 강건하게 3D point cloud 를 생성하는 것을 보여준다.
-
자율 주행 자동차에서 스테레오 카메라를 이용하여 실시간으로 깊이 정보를 추출하는 것은 매우 중요한 문제 중 하나이다. 널리 사용되는 방법 중에 하나인 Semi-Global Matching (SGM)은 영상에서 여러 방향에 대한 비용 함수를 이용하여 평탄한 변이 지도를 획득하는 알고리즘이다. 알고리즘의 특성 상 병렬화가 용이하기 때문에 실시간으로 구동해야 되는 어플리케이션에 자주 사용되는 알고리즘이다. 하지만 픽셀 단위로 표현되는 dense한 특성은 영상 내의 관심 객체를 추출하고 추적하기에는 부적합하다. 따라서 제안하는 기법에서는 픽셀과 객체 레벨 사이의 표현인 stixel을 이용하여 관심 객체들을 추출하고 NVIDIA에서 출시한 Jetson TX1을 이용하여 실시간으로 구동한다.
-
인터넷의 발달과 스마트 디바이스의 등장은 기존의 쇼핑구조 및 쇼핑방식에 큰 변화를 가지고 왔으며, 소비자의 일상생활에도 주목할 만한 질적 성장과 발전을 이루게 하였다. 특히, 쇼핑구조는 소매점에서 대형 쇼핑몰로 오프라인 구매에서 인터넷과 스마트 디바이스를 통한 온라인 구매로 변화하고 있고, 쇼핑방식도 오프라인 매장에서 인터넷, 모바일 등 복수 채널을 종합해 고객경험 관리를 최대화하기 위한 옴니 채널의 형태로 급격하게 변하고 있다. 그러나 기존의 옴니 채널은, 고객의 상품 구매 경험을 극대화 시키는 데 중점을 두었기 때문에, 고객 입장에서 보면 채널별 제품정보(가격, 환불정책, 배송정보, 공급점포의 위치 등)의 부족 및 일관성이 결여되어 있어 최종 구매결정까지는 시간이 걸리고, 구매한 제품에 대한 만족도가 낮아서 반품 비율이 상당히 높은 것이 현실이다. 마찬가지로, 유통업체 입장에서 보면 제품의 유효기간, 재고 관리 등 유통과정에 있어서의 제품정보의 일관성이 결여되어 있어, 완전하고 정확한 최신 제품정보의 제공을 통한 소비자의 구매 유도에 큰 어려움을 겪고 있다. 본 논문은 멀티미디어(영상 및 음성) 식별기술을 이용하여, 기존(고객중심)의 옴니 채널이 가지고 있는 문제점을 해결하여, 소비자 및 유통업체에게 구매 및 관리에 충분하고 일관성이 있는 "제품정보 중심의 옴니 채널" 유통모델 및 구현에 관한 방법을 설명한다.
-
클라우드 방송은 서버에서 방송 서비스를 구동한 후 실시간으로 실행 화면이나 정보를 TV 셋톱박스로 전송하는 가상화 방송 서비스로 많은 방송 사업자들의 관심을 끌고 있으며, 이미 상용화를 진행 중인 사업자도 있다. 한국정보통신기술협회(이하, TTA)에서는 클라우드 방송 서비스를 특정 사업자에 종속된 기술이 아닌 개방형 기술로 확장시키고자 "개방형 클라우드 기반 스마트 방송 플랫폼 (TTAK.KO-07.0129)"표준(이하, 클라우드 방송 1.0 표준)을 2016 년 12 월에 제정하였다. 본 논문에서는 클라우드 방송 1.0 표준의 다양한 기술범위 중 표준기반 서비스를 실행하고 서비스와 플랫폼 사이의 인터페이스 등을 정의한 클라우드 방송 1.0 플랫폼 애플리케이션 실행환경에 대한 내용과 그 구현에 대하여 소개한다.
-
본 논문은 " 개방형 클라우드 기반 스마트 방송 플랫폼" 표준에 따라서 개발될 수 있는 다양한 클라우드 기반 스마트 방송 애플리케이션의 형식과 관계를 규정하기 위한 애플리케이션 모델을 소개한다. 스마트 방송용 애플리케이션이 다양한 클라우드 방송 플랫폼에서 일관된 사용자 경험을 제공하며 동작하기 위해 클라우드 방송환경의 특성을 고려해야 하며, 이에 따라 애플리케이션의 형식을 분류하고 실행 및 종료 방법과 생명 주기를 정의하며 애플리케이션 사이에서 동작 관계를 규정하는 등의 모델 정립이 필요하다. 본 논문에서는 클라우드 방송 애플리케이션을 방송 수신 기능의 활성화 여부에 따라 방송 독립형 및 연동형으로 분류하고, 각 애플리케이션의 생성과 종료를 위한 생명주기와 각 애플리케이션 사이에서 우선 순위를 기반으로 한 상호 작용정책을 규정한다. 또한, 클라우드 애플리케이션의 형식 및 우선순위 등을 애플리케이션에 지정할 수 있는 관리정책을 정의한다. 이러한 모델 정의를 바탕으로 표준을 적용한 클라우드 방송 테스트 플랫폼을 구현하고 다양한 형태의 클라우드 방송 애플리케이션을 개발하여 모델 정의에 따르는 기본 동작 시나리오 및 유효성을 검증한 사례를 소개한다.
-
스마트폰 보유율과 모바일 이용 행태가 급변함에 따라 방송사에서는 양방향 서비스를 포함한 다양한 방송 서비스를 제공하려고 노력하고 있다. 양방향 서비스 방송에서 시청자가 보낸 문구를 실제 화면에 보여주기까지 PD 와 담당자들의 수작업이 필요하다. 하지만 하루 평균 약 7,200 건 (MBC 오늘아침 소통중계)의 양방향 서비스 관련 로그가 남게 되어, PD 가 일일이 판별하기에는 많은 노력이 따른다. 이러한 불필요한 노력을 줄이기 위해 본 논문에서는 감정 분석을 이용한 딥러닝 인공지능 기반 양방향 서비스 방송 소프트웨어 시스템을 제안한다. 첫째, 시청자들이 전송한 의견, 건의사항, 내용 등을 전처리 과정을 진행한다. 둘째, 감정 사전을 이용해 전처리 된 단어와 비교하여 시청자가 보낸 문구의 감정 점수를 계산한다. 셋째, 과거 실제 방송에 송출된 시청자 문구를 감정 점수와 함께 딥러닝을 이용하여 훈련시킨다. 본 논문의 성능을 평가하기 위해, 2017 년 생방송 오늘아침 소통중계에 사례연구를 진행하였고 효율성을 보였다. 앞으로 이러한 양방향 서비스 방송 소프트웨어 시스템 도입으로, PD 가 방송 제작에 더욱 집중 할 수 있도록 차별화된 방송을 준비하는데 크게 기여할 것이라 기대한다.
-
본 논문에서는 인간의 청각 기관을 모델링 한 스파이크그램 (spikegram)을 이용한 심층 신경망 기반의 음악 장르 분류 기술을 제안한다. 분류 대상은 GTZAN 데이터 세트의 10개 장르로 정의한다. 본 논문에서는 청각 기관의 인식 방법을 모델링한 방법을 이용하여 스파이크그램을 구하고, 스파이크그램에서 새로운 특성 벡터를 추출하는 방법을 제안한다. 제안하는 방법을 통해 심층 신경망에 적합한 특성 벡터를 구하고 이렇게 구한 특성 벡터로 신경망을 학습시켜 기존에 사용하던 다양한 방법들보다 높은 성능을 얻을 수 있다.
-
본 논문에서는 심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술을 제안한다. 심층 신경망은 인간의 신경망을 모델링 하기 때문에 인간의 인식을 기반으로 하는 특성을 사용한다면 더 적합한 학습을 할 수 있다. 기존 방법인 MFCC와 스펙트로그램과는 달리 스파이크그램은 인간의 청각 시스템을 기반으로 파형을 해석하는 방법이기 때문에 심층 신경망에 더 효율적인 특성이라고 할 수 있다. 따라서 본 논문에서는 사운드 분류 기술의 특성으로 스파이크그램을 이용하는 방법을 제안한다. 제안한 방법을 사용하면 MFCC와 스펙트로그램을 사용하는 것보다 더 높은 분류 성능을 얻을 수 있다.
-
최근 영상 내에서 보행자를 검출하는 기술이 발전하면서 보행자 검출 기술이 다양한 분야에서 응용되고 있다. 영상 내에서 보행자들을 검출함으로써 보행자의 통행량이나 이동경로를 분석할 수 있고, 위험 지역이나 보안 지역에 진입하려는 보행자에게 경고를 줄 수도 있다. CCTV와 같이 고정된 카메라를 이용하여 촬영된 영상의 경우 배경 분리 기술을 적용할 수 있는데, 배경 분리 기술을 통해 영상 내에서 움직이는 물체의 영역을 검출해 낼 수 있다. 본 논문에서는 영상의 배경 분리 결과를 이용하여 보행자 검출의 정확도를 높이고자 한다. 영상 내에서 보행자를 검출 했을 때, 보행자 외에 다른 영역이 보행자로 검출되는 상황이 발생할 수 있다. 이로 인해 보행자 검출의 정확도가 낮아진다. 하지만 배경 분리 결과를 이용하여 전경 부분에서만 보행자가 검출되도록 하고 배경 부분에서는 보행자가 검출되지 않도록 한다면, 보행자가 아닌 영역이 보행자로 검출되는 현상을 막을 수 있다. 실제 HDA Person Dataset에서 실험을 해본 결과, 정량적인 성능 향상을 확인 할 수 있었다.
-
2014 년 Ian Goodfellow 가 발표한 한편의 논문은 머신러닝 분야에 새로운 방향을 제시하였다. Generative Adversarial Networks, 일명 GAN 이라 불리는 이 논문은 이전까지 딥러닝으로 하지못했던 새로운 것을 창조해내는 작업을 하는 첫번째 딥러닝 알고리즘이다. 이전까지는 딥러닝을 통해 영상에서 객체의 종류를 판단하는 Classification 문제나, 영상에서 특정 객체를 검출하여 위치를 찾는 Object detection, 영상 내 특정 객체만 분리해내는 Image segmentation 문제를 해결하고 있었다. GAN 의 등장으로, 다양한 방면에서 GAN 을 적용하여 기존에는 하지 못했던 새로운 분야에 딥러닝을 적용한 사례들이 등장하고 있다. 본 논문에서는 GAN 의 원리 분석과 GAN 을 응용하여 여러 분야에 적용한 사례들을 살펴보고자 한다.
-
본 논문은 딥러닝을 이용하여 대장통과시간(Colon Transit Time, CTT) 검사를 위한 단순복부 X-Ray 영상에서 방사선 비투과성 표지자(Radio-opaque Marker)를 자동으로 검출하는 기법을 제시한다. 대장통과시간 검사는 대장의 운동질환을 평가하는데 있어 가장 기본적인 방법으로 특히 만성 변비증 환자의 병태생리에 따른 유형 분류와 치료 계획을 설정하는데 큰 도움을 주고 있으며, 내과적 또는 외과적 치료 후 평가에도 유용한 검사이다. 대장통과시간 검사는 방사선 비투과성 표지자가 내재되어 있는 캡슐을 복용한 뒤 주기적으로 단순복부 X-Ray 촬영을 통해 구간별로 남아있는 표지자의 수를 세고, 이를 통해 구역별 통과시간을 측정한다. 이 과정에서 판독의가 직접 표지자의 위치 및 개수를 세기 때문에 많은 시간이 필요하게 된다. 따라선 본 논문에서는 이러한 단점을 보완하기 위해 딥러닝 기법을 사용하여 X-Ray 영상 내에서 표지자의 위치를 자동 파악하는 기법을 제시한다.
-
최근 등장한 지상파 UHDTV 에서는 A/V 미디어 전송을 위해서 기존 MPEG-2 TS 대신으로 ROUTE 와 MMT 기술을 채택하고 있다. 따라서 국내에서는 실시간 UHD 방송 서비스를 위해 ROUTE 또는 MMT 중의 하나를 선택하여 UHD 미디어를 전송할 수 있으며, 이에 따라 MPEG-2 TS 와 ROUTE, MMT 세 가지 프로토콜의 실질적 전송 효율에 대한 성능 비교가 요구되고 있다. 본 논문에서는 실제 UHD 방송 기반 A/V 스트림을 분석해 전송 오버헤드를 나타내고 결과를 비교 분석하여 전송 효율을 비교하고자 한다.
-
본 논문에서는 ATSC 3.0 시스템의 고품질 서비스를 위한 채널 본딩 (channel bonding) 송수신기 구조를 제시하고 성능을 확인한다. 채널 본딩은 ATSC 3.0 시스템의 물리 계층 규격에서 두 개 이상의 주파수 대역을 묶어서 더 많은 데이터를 동시에 전송할 수 있다. 시뮬레이션 결과는 채널 본딩을 사용하여 단일 채널을 사용하는 시스템에 비해 데이터율을 최대 2 배 증대시킬 수 있음을 보여준다.
-
본 논문에서는 ATSC 3.0 시스템의 2x2 MIMO (multiple input multiple output) 방식을 적용한 송수신기 구조에 대해서 살펴본다. ATSC 3.0 시스템의 MIMO 에서 적용된 프리코더 (precoder)는 스트림 결합기(stream combining), IQ 편파 인터리빙 (I/Q polarization interleaving), 위상 홉핑부 (phase hopping)로 구성된다. 또한, ATSC 3.0 의 2x2 MIMO 방식을 사용함으로써 공간 다중화 (spatial multiplexing) 이득과 공간 다이버시티 (spatial diversity) 이득을 얻을 수 있다.
-
한국에서 세계 최초의 지상파 UHD 본방송이 시작되었다. 국내의 지상파 UHD 방송은 북미의 ATSC 3.0 기술 표준에 기반한 것으로, 방송 콘텐츠의 압축부터 신호를 송출하는 물리계층까지 완전히 다른 방식을 사용하고 있어 현재 사용하고 있는 디지털 방송 시스템을 이용한 방송 수신은 불가능하다. 본 논문에서는 기존의 디지털 방송 장비를 새로운 방송환경에서도 계속 사용할 수 있도록 ATSC 3.0 기반 방송서비스를 기존 디지털 방송 방식으로 변환하여 재전송하는 방법에 대해 살펴보기로 한다.
-
본 논문에서는 넓은 동적 영역(High Dynamic Range: HDR) 이미지에 지역 엣지 보존 필터를 적용한 개선된 다중 스케일 톤 매핑 기법을 제안하고자 한다. 기존 알고리듬의 다중 스케일 분해 과정에서는 과도하게 많은 정보를 보존하여 결과 이미지가 비현실적으로 표현되고 일부 테스트 이미지에서는 화소 값 변화량이 큰 엣지 영역에서 후광 효과가 발생하는 단점이 있다. 본 논문에서는 기존 알고리듬의 다중 스케일 분해 과정을 개선하여 엣지를 적절히 보존함으로써 후광 효과를 제거함과 동시에 주관적 화질을 향상시켰다.
-
본 논문에서는 평균 밝기 부분에 가중치 맵으로써 감마 변환에 기반한 선형 결합을 제안하고자 한다. 기존의 패치를 기반으로 한 가중치 맵은 평균 밝기 부분에서 영상 내 밝기 값이 한쪽으로 치우쳐 영상의 밝은 부분이 과포화 상태가 되어 세부 정보가 손실되는 단점이 있다. 이에 본 논문에서는 전역적 및 지역적 영상의 평균 밝기 값을 이용하여 감마 변환된 값을 선형 결합 시켜줌으로써 영역 내 세부 정보를 보존시키고 주관적 화질을 향상시켰다. 실험을 통해 결과를 분석하고 성능을 비교하여 기존 알고리듬에 비해 제안한 알고리듬이 우수함을 증명하였다.
-
본 논문에서는 동영상의 조작 시 발생하는 High Efficiency Video Codec (HEVC) 부호화 패턴의 변화를 감지하여 동영상의 조작 여부를 검출하는 기법에 대하여 소개한다. 동영상의 일부가 삭제되고 재 압축될 경우, 삭제 이후 여러가지 부호화 정보의 패턴 변화가 발생하게 됨을 특징정보로 하여 기계학습 기반의 분류 알고리즘을 이용해 조작유무를 검출한다. 실험 결과, 제안한 방식이 동영상 조작 검출을 효과적으로 수행하는 것을 확인하였다.
-
본 논문에서는 프레임율 향상 기법 (Frame Rate Up-Conversion, FRUC)에 사용되는 새로운 움직임 예측(motion estimation)알고리즘을 제시한다. 제안된 알고리즘은 단 방향 움직임 예측(unilateral motion estimation)에 의해 순방향 및 역방향의 움직임 벡터(motion vector)를 독립적으로 추정한다. 움직임 벡터를 찾은 후, weighted motion vector smoothing(WMVS)가 적용된다. 다음으로, 보간 프레임 (interpolated frame)의 관점에서 현재 블록의 인접 블록들의 모션 벡터들을 후보들로 사용하여 현재 블록과 가장 잘 일치하는 움직임 벡터를 찾는다. 그 후, 선택된 움직임 벡터를 현재 블록의 유도 움직임 벡터 (guidance motion vector)로 정한다. 그런 다음 motion vector shifting error 를 없애기 위해 motion vector refinement (MVR)가 진행된다. 마지막 단계에서는 각 움직임 벡터의 신뢰도를 계산하여 순방향 및 역방향 움직임 벡터 중 최종 움직임 벡터를 선택한다.
-
본 논문에서 프레임 율 향상을 위한 새로운 움직임 추정 알고리즘에 대해 제안한다. 계산량을 줄이고 다해상도의 영상을 이용하기 위하여 원본 프레임들을 계층적 구조로 형성하고, 최상위 계층에서 단방향 움직임 추정을 수행한다. 최상위 계층은 낮은 해상도 때문에 움직임 벡터의 정확도가 낮아지므로, 정확도를 향상시키기 위해 각각의 블록은 5 개의 움직임 벡터 후보들을 가진다. 이 후보들은 아래 계층들에서 수정되며, 움직임 추정이 완료되면 최하위 계층의 움직임 벡터들은 SAD (sum of absolute difference) 값을 이용해서 최종적으로 수정된다. 이렇게 구해진 단방향 움직임 벡터들은 양방향 움직임 벡터로 변환되고 양방향 보간법을 사용하여 보간 프레임을 생성한다. 결과적으로, 제안하는 알고리즘은 기존 알고리즘들에 비해 낮은 계산량을 나타내면서 PSNR (peak signal-to-noise ratio) 수치에서 최대 1.3 dB 의 향상을 나타냈고, 주관적으로도 더 선명한 결과를 보여주었다.
-
원의 대칭을 이용하는 회전 스캔 방식으로 원의 중심을 인식하는 기술을 제안한다. 컴퓨터 비전에서 원을 인식하는 기술은 매우 중요한 기술이다. 원 인식 기술은 높은 정확성을 위해 계속해서 연구되어왔다. 기존의 대표 기술인 Circle Hough transform(CHT)은 원을 인식하기 위해서 3차원의 축적 배열이 필요하며 실영상에서 원근 왜곡이 있는 경우에는 원이 인식되지 않는다. 원근 왜곡이 있는 경우에도 원 중심을 인식 할 수 있는 회전 스캔 방식을 제안한다. 제안하는 기술의 정확성을 입증하기 위해서 기존 기술 중 하나인 Open CV가 제공하는 gradient-CHT기술과 비교하는 실험을 진행하였다. 실험 결과는 제안하는 기술이 Open CV보다 우수하다는 것을 보여준다.
-
본 논문에서는 집적 영상에서 렌즈 배열의 격자를 정확하게 검출하기 위한 캘리브레이션 패턴 영상을 제안한다. 렌즈 배열의 격자를 검출하기 위해서 수직, 수평 방향의 에지 영상이 필요하다. 입력 영상의 에지를 잘 검출하지 못하면, 렌즈 배열의 요소 영상 크기를 결정할 때 오류가 발생할 수 있다. 이를 위해, 본 논문에서는 에지를 잘 검출할 수 있는 캘리브레이션 패턴 영상을 제안하여 정확도를 향상 시킨다. 본 논문에서는 실험을 통하여 제안하는 방법이 기존의 방법보다 집적 영상에서 렌즈 배열의 격자를 검출할 때 우수하게 적용될 수 있음을 보여주었다.
-
본 논문에서는 Joint Exploration Model (JEM)을 위한 고속 화면내 부호화 알고리즘을 제안한다. 제안 방법은 JEM의 화면내 부호화 과정에서 Most Probable Mode와 Sum of Absolute Transformed Differences(SATD) 과정의 결과로 얻어지는 후보 모드들의 SATD 비용 비교를 통하여 화면내 부호화에서 높은 계산 복잡도를 요구하는 Rate-Distortion Optimization 과정의 후보 개수를 줄여 전체 부호화기의 부호화 복잡도를 낮추고자 한다. 실험 결과에서는 제안 방법이 BD-Rate 평균 0.38%의 부호화 손실만으로 평균 17%의 부호화 복잡도를 감소시킬 수 있음을 확인하였다.
-
본 논문에서는 PSNR 을 높이도록 최적화된 HEVC 의 율-왜곡 최적화(RDO)를 MS-SSIM 를 높이도록 하여 RDO 를 수행 하도록 한다. 구현 방법으로는 MS-SSIM 도출 방법과 비슷하도록 원본과 4 단계의 저역 통과 필터(LPF)를 통과한 결과에 대한 DCT(Discrete Cosine Transform) 를 수행하고 그 AC 계수의 비율로 lagrange multiplier(
${\lambda}$ )를 수정하는 방식이다. AC 계수 비율과 MS-SSIM 에서 도출 된 가중치, LPF 특성 등에 따라 새롭게 각 스케일의 가중치를 결정하여 최종적으로${\lambda}$ 가중치를 결정하여 그 결과를 바탕으로 RDO 를 수행한다. 시뮬레이션을 통해 제안의 방법과 HEVC reference software 의 BD-rate 계산 결과 7%의 PNSR, -13.2%의 MS-SSIM 를 얻을 수 있었고 이에 따라 주관적 화질을 개선했다고 할 수 있다. -
We propose a novel high dynamic range (HDR) video synthesis algorithm from alternatively exposed low dynamic range (LDR) videos. We first estimate correspondences between input fames using an illumination invariant descriptor. Then, we synthesize an HDR frame with the weights computed to maximize detail preservation in the output HDR frame. Experimental results demonstrate that the proposed algorithm provides high-quality HDR videos without noticeable artifacts.
-
보행자 검출을 위한 기술이 많이 개발되고 있으며 HOG(Histograms of oriented)와 haar-like feature를 이용한 특징값 검출을 통해 보행자를 검출하는 방법들이 대표적이라 할 수 있다. 하지만 이 방법들은 보행자가 사물에 가려졌을 때 보행자를 검출하지 못한다는 단점이 있다. 이에 본 논문에서는 haar-like feature와 adaboost 학습알고리듬을 이용하여 보행자를 검출하고 kalman filter를 이용하여 보행자가 특정 사물에 가려지는 것 과 같은 occlusion 문제를 해결하여 보행자 검출 성능을 높이고자 하였다.
-
본 논문에서는 평균이동 (mean shift) 기법을 이용하여 랜덤포레스트 (random forest) 기반 실시간 얼굴 특징점 추적 (facial features tracking) 방법을 제안한다. 우선, 눈의 위치를 이용하여 검출된 얼굴영역을 적절한 크기와 위치로 개선하여 랜덤포레스트를 이용한 얼굴 특징점 추적 알고리즘이 받는, 얼굴검출 (face detection) 과정에 얻어지는 얼굴영역 상자 (face bounding box) 크기와 위치의 영향을 감소 하였다. 또한 랜덤포레스트의 얼굴 특징점 추정결과에서 추정평균 대신 평균이동기법을 이용하여 잘못된 추정결과들을 제거하고 제대로 된 추정결과만 사용하여 얼굴 특징점 검출 정확도를 개선하였다. 따라서 제안하는 방법들을 이용하여 기존의 랜덤포레스트 기반 얼굴 특징점 검출 기법의 성능을 제고하고 실시간으로 얼굴 특징점을 추적할 수 있다.
-
본 연구에서는 Component-Substitution (CS)기반 영상 융합 방법 중 가장 빠른 처리 속도를 보이는 IHS 기법의 분광 왜곡 현상을 해결하기 위하여 히스토그램을 통해 분광 왜곡 현상을 분석하고 평균 필터링을 통해 분광 왜곡 현상을 해결한다. 제안하는 방법의 성능 평가를 위하여 아리랑 3 호로 촬영한 서울 지역 위성 영상에 IHS 방법과 제안하는 방법을 적용하여 주관적으로 비교하고 객관적으로는 Q4, SAM, ERGAS 의 지표를 사용하여 비교한다. 주관적 비교 결과 제안하는 방법이 분광 왜곡을 감소시킴을 보이며, 객관적 비교 결과 IHS 기법 대비 향상된 Q4, SAM, ERGAS 을 보인다.
-
기존의 자연영상에 초점이 맞춰져 있던 HEVC 동영상 압축 표준은 스크린 콘텐츠 코딩(SCC)을 제안하여 문자와 그래픽 효과가 많이 포함된 스크린 콘텐츠 영상의 압축 성능을 향상시켰다. SCC의 화면 내 블록 카피 기법은 스크린 콘텐츠 영상의 특성상 한 화면 내 반복되는 무늬들을 찾아 예측에 활용한다. 이에 본 논문은 화면 내 블록 카피 기법에서 사용되는 블록 탐색 방법에 대해 연구하였다. 특히, 전역 탐색에서 사용되는 해시 기반의 탐색기법의 해시 값 구성의 분석을 통해, 해시 구성 요소들의 비중을 감소와 새로운 해시 구성 요소를 활용하여 최대 0.330% 비트레이트율 감소 및 0.328% 비트레이트율 감소 효과를 확인할 수 있었다.
-
최근 딥러닝을 이용한 SAR 영상의 목표물을 인식하는 알고리즘이 괄목할만한 성능을 보여주었다. 이러한 알고리즘들은 포즈 각도 정보를 무시한 채 목표물의 종류를 추정하는 것에만 초점을 맞춘다. 포즈 각도 추정 알고리즘은 단지 SAR 영상 목표물 인식 알고리즘의 전처리 과정으로 연구되었다. 하지만 감시 시스템에서, 목표물이 향하고 있는 방향을 추정하는 것 또한 중요하다. 먼저, 포즈 각도 추정을 통하여 적의 전술 배치를 계획을 추정할 수 있다. 또한 목표물이 아군 쪽을 바라보면 큰 위협이 되는데, 포즈 각도 추정을 통하여 이러한 정보를 알 수 있다. 따라서 본 논문은 목표물이 향하고 방향을 추정할 수 있는 콘볼루션 네트워크를 고안하였다. 네트워크를 학습시키기 위하여 SAR 영상의 목표물의 포즈 각도를 양자화하여 포즈 각도 label 을 구성하였다. 또한 이러한 포즈 각도 추정을 정제하는 알고리즘을 고안하였고 이는 보다 정확한 포즈 각도 추정을 가능하게 하였다. 그 결과, 제안된 네트워크는 포즈 각도 추정에 높은 정확도를 보여준다.
-
최근 Convolutional neural network (CNN)을 도입하여, SAR 영상의 목표물 인식 알고리즘이 높은 성능을 보여주었다. SAR 영상은 4 종류의 polarization 정보로 구성되어있다. 기계와 신호처리의 비용으로 인하여 일부 데이터는 적은 수의 polarization 정보를 가지고 있다. 따라서 우리는 SAR 영상 data 를 멀티모달 데이터로 해석하였다. 그리고 우리는 이러한 멀티모달 데이터에 잘 작동할 수 있는 콘볼루션 신경망을 제안하였다. 우리는 데이터가 포함하는 모달의 수에 반비례 하도록 scale factor 구성하고 이를 입력 크기조절에 사용하였다. 입력의 크기를 조절하여, 네트워크는 특징맵의 크기를 모달의 수와 상관없이 일정하게 유지할 수 있었다. 또한 제안하는 입력 크기조절 방법은 네트워크의 dead filter 의 수를 감소 시켰고, 이는 네트워크가 자신의 capacity 를 잘 활용한다는 것을 의미한다. 또 제안된 네트워크는 특징맵을 구성할 때 다양한 모달을 활용하였고, 이는 네트워크가 모달간의 상관관계를 학습했다는 것을 의미한다. 그 결과, 제안된 네트워크의 성능은 입력 크기조절이 없는 일반적인 네트워크보다 높은 성능을 보여주었다. 또한 우리는 전이학습의 개념을 이용하여 네트워크를 모달의 수가 많은 데이터부터 차례대로 학습시켰다. 전이학습을 통하여 네트워크가 학습되었을 때, 제안된 네트워크는 특정 모달의 조합 경우만을 위해 학습된 네트워크보다 높은 성능을 보여준다.
-
본 논문에서는 최대 우도 기반 파라미터 생성 알고리즘을 적용하여 인공 신경망의 출력인 음향 파라미터 열의 정확성 및 자연성을 향상시키는 방법을 제안하였다. 인공 신경망의 출력으로 정적 특징벡터 뿐 만 아니라 동적 특징벡터도 함께 사용하였고, 미리 계산된 파라미터 분산을 파라미터 생성에 사용하였다. 추정된 정적, 동적 특징벡터의 평균, 분산을 EM 알고리즘에 적용하여 최대 우도 기준 파라미터를 추정할 수 있다. 제안된 알고리즘은 파라미터 생성 시 동적 특징벡터 및 분산을 함께 적용하여 시간축에서의 자연성을 향상시켰다. 제안된 알고리즘의 객관적 평가로 MCD, F0 의 RMSE 를 측정하였고, 주관적평가로 선호도 평가를 실시하였다. 그 결과 기존 알고리즘 대비 객관적, 주관적 성능이 향상되는 것을 검증하였다.
-
횡단보도 인근에서는 보행취약자의 사고가 끊이지 않고 있으며 사고예방 및 사고의 절감을 위하여 선제적안 안전시스템의 개발이 요구되고 있다. 선제적 안전시스템의 개발을 위하여 빅데이터를 이용한 안전 데이터 도출, 영상분석을 이용한 보행자 행동특성 모니터링 시스템의 개발 및 사고감소를 위한 안전 시스템 개발이 진행되고 있다. 보행취약자 위험상황 판단에 대한 정의를 빅데이터 분석을 통해 도출하고 횡단보도 주변 안전 시스템의 개발을 기존 시스템에 적용 및 새로운 시스템을 개발하며 이에 적합한 딥러닝 영상분석 시스템을 개발하였다. 본 논문에서는 딥러닝 모델을 이용하여 객체의 검출, 분석을 수행하는 객체 검출부, 객체의 포즈와 행동을 보여주는 영상 분석부로 구성되어 있으며 기존 모델을 응용하여 최적화한 모델을 적용하였다. 딥러닝 모델의 구동은 리눅스 서버에서 운용되고 있으며 딥러닝 모델 구동을 위한 여러 툴을 적용하였다. 본 연구를 통하여 보행취약자의 검출, 추적, 보행취약자의 포즈 및 위험상황을 인식하고 안전시스템과 연계할 수 있도록 구성하였다.
-
파노라마 영상은
$360^{\circ}$ 방향의 모든 경치를 담는 기법을 말한다. 파노라마 영상은 전문적 기술자들이 여러 영상을 정합하여 제작되었지만, 기술이 점차 발전하여 현재는 일반 사용자들도 스마트 폰을 이용하여 손쉽게 파노라마 영상을 제작할 수 있다. 하지만 이는 파노라마 정지영상에 한해있으며 아직까지 파노라마 동영상은 제작에 있어서 기술적 어려움이 있다. 최근 들어서 파노라마 동영상 제작을 위한 여러 동영상 간의 시간축 동기화는 연구되었는데 연속되는 프레임들을 하나의 시퀀스로 묶어 시퀀스 단위로 키포인트 및 디스크립터를 추출 및 비교를 통해 동영상 간의 시간축을 동기화시키는 방향으로 나갔다. 하지만 동영상 시퀀스 간의 간격이 좁아 중복되는 데이터의 양이 많아 디스크립터 비교 연산 시간이 오래 걸리고, 동영상 간의 시퀀스 단위만으로 비교하기 인해 프레임 단위의 정확한 시간축 동기화에 어려움이 있었다. 본 논문에서는 이전 연구의 단점을 개선하여 여러 동영상 간의 시간축을 하나로 동기화시키는 기술을 최적화하는 방법을 제안한다. -
본 논문은 동영상 스티칭의 속도 정확도를 향상시키기 위해 호모그래피 행렬 생성과 센서 데이터 활용을 통한 동영상 스티칭 방법을 제안한다. 본 논문에서는 임의의 호모그래피 행렬을 선형으로 생성하여 이미지를 스티칭 하는 방법을 설명하고, 이 과정에서 스티칭 정확도가 낮아지는 단점을 센서 데이터 활용을 통해 보완하는 방법을 소개한다. 1만 쌍의 모든 프레임에서 호모그래피 행렬을 생성 시키는 방법과 본 논문에 제안한 임의의 호모그래피 생성 방법을 비교하였을 때 평균 2.6초 걸리는 스티칭 시간을 약 1.5초 단축시켜 빠른 스티칭을 가능하게 하였다. 또한 선형 호모그래피 행렬만을 사용한 스티칭 한 결과보다 선형 호모그래피 행렬과 센서데이터를 함께 사용하였을 때의 정확도가 28.2% 개선되었음을 확인하였다.
-
본 논문에서는 HEVC(High Efficiency Video Coding)의 독립적 복호화를 위한 부호화 방법을 제안한다. 제안방법은 HEVC Tile기반 부호화에서 화면간 부호화 과정의 결과인 움직임 벡터를 Tile 내부로 한정하게 한다. 이를 위하여 움직임 추정 과정의 초기 움직임 벡터와 탐색 범위를 조정하고 Merge 모드에서 고려하는 후보 중 독립적 복호화가 불가능한 모드를 선택에서 제외한다. 실험결과에서는 제안방법이 적용된 부호화기로 생성된 비트스트림에 대해서 Tile별 독립 복호화를 수행하였을 때, 영상의 깨짐없이 재생됨을 볼 수 있다.
-
본 논문은 스테레오 영상을 이용하여 3 차원 영상을 제공하기 위한 과정에서 중요한 변위 지도 생성 과정의 개선을 목적으로 한다. 변위 지도란, 서로 다른 시점의 두 영상 내에 매칭되는 대응점을 찾고 이와 같은 대응점들 간의 차를 통해 상대적 거리정보를 얻은 후, 이를 정규화하여 픽셀 값으로 나타낸 지도이다. 이에 본 논문에서는 변위 지도 생성 시, 물체들 간 대응점 매칭율을 높이기 위해 물체들의 외곽을 보존하여 형태를 뚜렷하게 하는 전처리 과정을 제안한다. 제안하는 방안은 제한 적응 히스토그램 평활화를 통해 물체들의 세부적인 특징들을 부각시키고, 양방향 필터를 통해 외각을 뚜렷하게 하는 전처리 과정을 포함한다. 본 논문에서는 제한 적응 히스토그램 평활화와 양방향 필터의 처리 과정을 분석하고, 실험결과를 통해 제안하는 전처리 과정을 검증하였다.
-
미래창조과학부는 우리나라 최고의 ICT 제품과 서비스를 활용하여 평창동계올림픽을 성공적으로 지원하고, 향후 주요 경기개최국과 해외시장에 수출전략을 품목화하여 올림픽의 부가가치를 창출함으로써 돈버는 올림픽을 완성하겠다는 계획하에 5G, IoT, UHD, VR, AI 5개 분야에 대한 시범서비스를 준비하고 있다. 한국전자통신연구원은 UHD급 초고화질 영상과 100도 이상의 시야각을 이용하여 현장감을 극대화하는 UWV(Ultra Wide Vision) 기술을 개발하고 있으며, 평창동계올림픽 기간 동안 UWV 상영관을 운영하여 기존의 TV나 영화와 차별화된 몰입감을 제공하는 초실감 미디어 서비스를 제공하고자 한다. 또한 방송서비스로의 적용가능성을 타진하기 위한 주요 올림픽 경기실황중계 시범서비스를 추진하고 있다.
-
UWV(Ultra Wide View) 미디어 전송 시 서버의 부하를 줄이고 단말기의 자원 소모를 줄이기 위해서는 사용자의 관심 영역만을 제공해야 한다. 즉, 사용자가 원하는 범위의 영상들을 선택할 수 있도록 영상들의 공간적 위치정보를 제공하는 기술이 필요하다. 본 논문에서는 MMT(MPEG Media Transport)의 CI(Composition Information) 문서를 이용하여 UWV 를 구성하는 미디어들의 공간적 위치정보를 전송하고, 사용자에게 관심 영역의 미디어들을 제공하는 기법을 제안한다. 이를 위해 서버가 사용자에게 미디어들의 화면 구성에 대한 공간적 정보와 재생에 필요한 시간적 정보를 MMT CI 문서에서 제공한다. 그리고 사용자의 관심 영역을 서버로 전송하기 위한 Signaling Message 를 정의한다. 서버는 본 논문의 기법을 통해 MMT 를 그대로 사용하면서 사용자에게 관심 영역의 미디어들을 제공할 수 있다.
-
본 논문은 UWV 서비스의 다양한 시나리오들을 소개하고 UWV서비스의 제공측 구성과 소비측 재생에 따라 개시되는 멀티미디어 콘텐츠 파일 전송의 형태를 검토한다. UWV 서비스의 전송 개시에 따라 적어도 하나 이상의 서비스 구성요소(멀티미디어 콘텐츠 파일)가 전송될 때 수신측에서의 엄밀한 동기화가 수행되지 못하면 전체 장면의 일부를 표시하는 View간의 일치가 이루어지지 않으며 이로 인해 사용자의 경험 측면에서 임장감이 낮아지거나 또는 불일치의 정도가 심한 경우 전체 장면을 이해하는데 어려움이 발생한다. 이에 본 논문에서는 기존의 전송 방식인 TS와 최근 MPEG에서 완료된 MMT를 사용해 UWV 서비스를 구성하는 콘텐츠의 전송시, 소비측에서의 동기화된 View 콘텐츠 재생을 달성하기 위한 전송 방법을 알아본다. 또한 시스템 구성을 통해 실제 전송시 요구사항의 달성여부와 함께 추가로 고려해야 할 사항들을 알아본다.
-
본 논문에서는 차세대 ATSC 3.0 표준 기반 단일주파수망 (Single frequency network, SFN) 지상파 방송시스템에서의 송신기 식별 (Transmitter identification, TxID) 기술을 살펴보고 그 성능을 분석한다. SFN 기반 지상파 방송은 복수의 송신기를 동일한 주파수 대역에서 운용하는 것에서 발생하는 간섭으로 인한 영향을 최소화하기 위해 적절한 망 설계를 필요로 한다. 용이한 망 설계를 위해, ATSC 3.0 물리계층 표준은 TxID 기술을 통해 개별 송신기에서 전송된 신호를 판별할 수 있도록 지원한다. 이에 본 논문에서는 ATSC 3.0 표준에서 지원하는 TxID 신호 생성 및 검출 기술을 소개한다. 더불어, 전산 실험을 통해 해당 TxID 기술의 식별 성능이 TxID 신호의 삽입 준위가 매우 낮은 환경에서도 보장됨을 확인한다.
-
본 논문에서는 차세대 방송 표준 ATSC (Advanced Television Systems Committee) 3.0 기반 LDM (Layered Division Multiplexing) 및 스케일러블 비디오 코덱 (Scalable Video Codec) 을 활용한 지상파 방송시스템 기술을 살펴보고 그 성능을 비교 분석한다. 코어 레이어 (Core Layer)와 인핸스드 레이어 (Enhanced Layer)로 구성된 LDM 기반 PLP (Physical Layer Pipe)에, 스케일러블 비디오 코딩이 적용된 베이스 레이어 (Base Layer)와 인핸스먼트 레이어 (Enhancement Layer) 스트림을 각각 전송함으로써 하나의 RF 채널에 두 개 이상의 서비스를 전달할 경우 채널 효율을 극대화 할 수 있다. 본 논문에서는 이동 및 고정용 서비스, 즉 두 개의 서비스를 전송할 때 제안된 LDM 및 스케일러블 비디오 코덱을 사용한 기술과 TDM (Time Division Multiplexing) 및 Simulcast 를 적용한 기술과의 성능 비교를 통해 제안된 기술의 우수성을 검증하고자 한다.
-
본 논문에서는 국내 지상파 UHD 본방송을 위해 채택한 차세대 방송 규격인 ATSC 3.0 시스템의 전송 다중화 기술을 기반으로 다채널 방송 제공을 위한 서비스 기술에 대해 살펴본다. 기존의 지상파 DTV 방송은 고정 HDTV 방송 서비스에 최적화된 시스템으로 다양한 방송 서비스에 한계를 가지고 있는데 반해 ATSC 3.0 시스템에서는 다양한 방송 서비스를 위한 전송 다중화 기술들을 포함하고 있다. 특히, 하나의 RF 채널 내에서 고정 방송과 이동 방송을 동시에 제공 가능한 시간분할다중화 및 계층분할다중화 기술을 가지고 있으며, 이러한 기술을 적용하여 다채널 방송 서비스의 모델을 제시하고 미래의 지상파 방송 서비스 발전 전망에 대해 알아본다.
-
ATSC 3.0 방송게이트웨이는 원격의 송신소에 설치된 다수의 송신기들(transmitters)과의 안정된 통신 링크(광케이블, M/W, 위성 등)을 통해 방송 미디어 패킷 스트림을 내보낸다. ATSC 3.0 표준에서는 방송 게이트웨이와 송신기 간 STL (Studio to Transmitter Link) 구간에 STLTP (STL Transport Protocol)를 정의하고, 멀티캐스트 구조 내에 IP 터널링(Tunneling) 형태로서 BB 프레임과 L1 시그널링 정보, 시간 정보를 싣도록 한다. 본 논문에서는 ATSC 3.0 기반의 방송 게이트웨이의 주요 기능 역할로서 단일주파수망(SFN)을 위한 패킷 스트림 구성 및 이를 위한 기능 구조에 대해 기술한다.
-
Jeon, Seong-Ho;Lee, Jae-Gwon;Sin, Yu-Sang;Choe, U-Sik;Lee, Heon-Ju;Jang, Jin-Yeong;O, Ju-Bong;Lee, Jae-Ho;Gang, Dae-Gap 139
지상파 방송 3사(KBS, MBC, SBS)는 2017년 5월 31일부터 지상파 UHD(Ultra High Definition Television) 본방송을 개시하였다. ATSC(Advanced Television Systems Committee) 3.0 표준방식으로 이루어진 세계 최초 지상파 UHD 본방송으로써, 국내뿐만 아니라 미국, 일본, 유럽의 DTV선진국에서도 많은 관심을 보이고 있다. 본 논문에서는 시험방송 기간에 방송사와 가전사가 공동으로 실시한 ATSC 3.0 기반 지상파 UHD 본방송을 위한 물리계층 필드테스트 결과에 대해 살펴보고자 한다. -
다양한 응용 매체의 유비쿼터스(ubiquitous) 연결을 위한 사물 인터넷 (Internet-of-Thing; IoT) 시스템은 저전력 광역 통신 (Low Power Wide Area; LPWA) 기술을 기반으로 한다. 저전력 광역 통신 시스템의 충족조건인 전송 거리 확대와 낮은 전력 사용은 시스템 전력 운용 관점에서는 상호 충돌하는 조건이다. 이를 위해 신호대역폭을 줄여 수신기 감도 (receiver sensitivity) 를 개선하는 초협대역 (Ultra Narrow Band; UNB) 기술이 주목받고 있다. 여기서는 이러한 저전력 광역 통신을 위한 초협대역 변조 기술의 신호 대 잡음 비(Signal-to-Noise Ratio; SNR)에 대해 분석한다.
-
본 논문에서는 남성의 하반신을 촬영한 MRI 영상으로부터 전립선을 분할하는 알고리즘을 제안한다. 우선 3 차원 입체 영상을 학습하기 위해 3D 컨볼루션 계층(convolutional layer) 및 3D 풀링 계층(pooling layer)에 기반한 네트워크를 제안한다. 다음으로 네트워크의 최후단에 해당하는 전연결 계층(fully connected layer)의 강인한 학습을 돕는 잡음 계층을 제안한다. 잡음 계층은 네트워크의 학습 파라미터 혹은 출력 영상에 가우시안 잡음를 더함으로써 드롭 아웃과 같이 훈련 영상에 대한 과적합(overfitting)을 막고 테스트 영상에 강인한 네트워크의 학습을 돕는다. 마지막으로 실험을 통해 제안하는 기법이 기존 기법에 비해 우수한 분할 성능을 보임을 확인한다.
-
본 논문에서는 간단한 사용자 입력과 다중 랜덤 워크(multiple random walker) 기법을 기반으로 동영상 내의 주요 객체를 분할하는 알고리즘을 제안한다. 우선 동영상의 첫 프레임에서 점 형태의 사용자의 입력을 받아 대략적인 객체와 배경의 위치를 얻고, Lab 색상의 측지거리를 이용하여 객체와 배경의 중요도 지도를 얻는다. 다음으로 영상을 슈퍼 픽셀 단위로 분할하고, 다중 랜덤 워크 기법을 적용하여 객체 분할을 수행한다. 랜덤 워크 기법 적용 시, 중요도 지도를 각 랜덤 워커의 초기 분포로 설정하고, 노드간 색상과 움직임 차이를 이용하여 전이 행렬을 계산한다. 마지막으로 결과를 정련한 뒤, 다음 프레임으로 분할 결과를 전파하여 시간적 일관성을 유지한다. 실험을 통하여 제안 기법이 기존 기법에 비하여 우수한 객체 분할 성능을 보임을 확인한다.
-
본 논문에서는 RGB-stripe 부화소 구조를 갖는 디스플레이에서 인지 화질을 향상시키면서, 색 왜곡을 저감할 수 있는 부화소 렌더링을 수행한다. 우선 인지 화질을 향상 시키는 주 필터와, 색 왜곡을 억제하는 비음수 필터를 디자인한다. 색 왜곡 가능성의 계산에 따라, 두 필터를 조합하고 영상을 렌더링 한다. 실험 결과, 본 논문의 부화소 렌더링 방법이 비교 방법에 비해 좋은 인지 화질을 얻으면서도 색 왜곡을 억제함을 보여준다.
-
최근에 제4차 산업혁명을 거론하면서 사물인터넷(IoT)을 하나의 중요한 요소로 보고 있으며, 사물인터넷의 한 방향으로 홈네트워크인 홈IoT가 주목을 받고 있다. 최근의 경제적, 사회적인 변화로 1인 가구, 독거노인, 맞벌이 가구의 증가로 인한 주거환경 변화가 사물인터넷 디바이스의 새로운 수요 증가를 시키고 있는 상황이다. 따라서 홈IoT와 관련하여 다양한 이슈화가 있지만 크게 두 부분으로 제언을 하고자 한다. 하나는 사물인터넷(IoT)가 가지고 있는 근본적인 문제인 전원으로 에너지 자립형 IoT와 관련하여 에너지 하베스팅을 기반으로 연구되고 있으나, 홈IoT 설비의 관점에서 단순하게 접근하고자 한다. 두번째로 정보보안 관련으로 최근에 랜섬웨어와 같은 네트워크 침입을 통한 해킹 및 접근이 지속적으로 이루어지고 있음으로 네트워크 보안관점을 보고하고자 한다. 결과적으로 홈IoT는 무선전력방식이나 전원접근방식을 저전력 방식으로 새롭게 표준화나 전원 서비스를 함으로서 좀 더 용이하게 IoT를 설치할 수 있도록 하여야 하며, 네트워크 보안은 개인의 경각심과 더불어서 IoT 장비 개발사의 지속적인 보안 업데이트가 가능하도록 인증절차가 필요할 것으로 판단이 된다.
-
본 논문은 DSTTD-SM(double space time transmit diversity with spatial-modulation)기법이 적용된 이중편파 MIMO 시스템의 수신 성능에 대하여 안테나 간 간섭 환경에서 분석하였다. 차세대 방송 시스템에서는 고품질의 영상을 전송하기 위하여 ATSC 3.0 에서 이중편파 MIMO 시스템을 채택하였다. 기존 MIMO 기법을 이중편파 MIMO 시스템에 적용하였을 때 시스템의 수신 성능에 대한 분석을 하기 위하여 본 논문에서 SM, STBC, STBC-SM 그리고 DSTTD-SM 의 수신 성능을 SUI 채널 환경에서 모의실험을 통하여 분석하였다.
-
본 논문에서는 ATSC(Avanced Television Systems Committee) 3.0 물리계층에서 다양한 서비스 시나리오별 가능한 프로파일을 도출하기 위한 MATLAB GUI(graphical user interface)기반의 ATSC 3.0 시뮬레이터를 구현한다. 개발된 시뮬레이터는 ATSC 3.0 에서 지원하는 다양한 종류의 BICM(bit interleaved and coded modulation) 및 OFDM(orthogonal frequency division multiplexing) 파라미터 조합과 다중화 방식을 지원할 수 있고, 그에 따른 프레임 길이와 전송률을 계산할 수 있다. 개발된 시뮬레이터에서는 4 개의 PLP(physical layer pipe)까지 지원할 수 있고, 최대 4 개의 부프레임(subframe)까지 구성이 가능하다.
-
Yeom, Myeonggil;Koo, Jawon;Kim, Taehoon;Kim, Hanhwa;Choi, Jiwon;Kim, Hyeongseok;Kim, Jeongchang 158
본 논문에서는 비콘을 스캔하기 위한 고정된 하나의 수신기로 실내 위치를 파악할 수 있는 시스템을 구현하였다. 비콘의 위치를 파악하기 위해 센서를 추가하고 와이파이를 이용해 사용자의 시스템 이용 범위를 확장시켰다. 또한 추가된 센서를 이용해 위치를 추적하는 알고리즘을 구현하였다. 개발된 어플리케이션을 통해 이용자 2 (User 2)가 이용자 1 (User 1)의 위치를 모니터링 할 수 있다. -
본 논문은 칼만 필터를 이용한 다중 객체 추적 알고리즘에 대하여 다루고 있다. 기존의 객체 추적 알고리즘만을 이용하여 객체 추적을 하였을 경우, 잘못 검출되는 물체의 비율이 높았는데, 이를 해결하기 위하여, 본 실험에서는 움직이는 물체에 집중하여, 객체 추적을 하는 방법에 대하여 연구하였다. 효과적인 객체 추적을 위하여, 우리는 우선 배경 분리 알고리즘의 결과 이미지에서 객체의 후보들을 찾았다. 실험적인 결과를 통해 비디오에서 오직 움직이는 물체에만 집중함으로써 우리는 효과적이고 효율적으로 객체를 추적할 수 있다는 것을 알 수 있었다.
-
본 논문에서는 카메라 잡음 제거에 딥 러닝 알고리즘을 적용하는 연구를 진행하였다. 합성된 가우시언 잡음에 대하여 좋은 잡음 제거 성능을 보이는 DnCNN(Denoising Convolutional Network)를 이용하여 카메라 잡음을 제거하는 학습과 실험을 진행하였으며, 기준 실험으로는 RGB 색공간의 3채널 모두에 대하여 학습한 신경망(Neural Network)을 사용하였고, 본 논문의 실험에서는 그레이 이미지에 대하여 학습한 신경망을 사용하였다. 신경망의 평가를 위하여 딥 러닝 알고리즘 입력 이미지를 RGB 색공간(RGB Color Space)과 YCbCr 색공간(YCbCr Color Space) 2가지 색공간으로 표현하여 사용하였고, 입력 이미지에 노이즈를 첨가하기 위해 가우시안 노이즈(Gaussian Noise)를 이용하였다. 또한 가우시안 잡음과 다른 성질을 갖는 실제 카메라 잡음에 대해서도 학습과 테스트를 진행하였다.
-
가상 현실에 대한 관심이 높아지면서, 가상 물체와 사람 사이의 보다 자연스러운 상호작용이 중요하게 되었다. 그 중 가장 많이 사용되는 방식 중 하나가 바로 손동작이다. 사람들은 손동작을 통해 자신의 감정을 전달하거나 자신의 의견을 표현할 수 있기 때문에 손동작은 Natural User Interface(NUI)의 중요한 위치를 차지하고 있다. 본 논문에서는 사람들의 손동작 중 비교적 큰 비중을 차지하는 반복적인 궤적을 그리는 손동작 인식을 위한 방법을 제안한다. 손이 움직이는 방향과 거리의 3 차원 좌표 값을 이용하여 벡터화를 한 후, 이 데이터를 Fast Fourier transform(FFT)와 Support Vector Machine(SVM)을 통해 반복적인 손동작을 인식함으로써 자연스러운 손동작을 비교적 정확히 인식할 수 있다.
-
본 논문에서는 박물관이나 전시공간처럼 조도가 낮은 환경에서 마커기반 증강현실 구현이 가능한 마커를 살펴보고 실용적 마커 제작 방법을 제안한다. 조도가 낮고 어두운 환경에서 일반적인 마커나, 이미지, 객체를 인식하여 증강현실을 구현하는 것은 매우 어렵다. 마커기반 증강현실의 몰입감을 저감시키지 않기 위해 제안되었던 눈에 보이지 않는 마커 방식은 제시한 어두운 환경에 적용이 가능하다. 하지만 이와 같은 상황에서 사용되는 마커는 실제 제작과 사용에 있어 제약이 있다. 따라서 기존의 보이지 않는 마커의 특징을 분석하여 제약 사항과 문제점을 개선하고 실용적인 마커 구현 방법을 제시한다. 기존의 방법과 비교하여 제안하는 방법으로 구현된 마커는 품질이 일정하고, 제작이 편의성이 향상되었다.
-
최근 들어 지진, 해일, 국지적 폭우 등이 빈번히 발생함에 따라서 재난경보서비스에 대한 관심이 고조되고 있다. 본 논문에서는 지상파 UHDTV 방송망을 통하여 보다 신속하고 효과적인 재난경보 방송서비스 제공을 위한 서비스 구성도와 각 구성 모듈에서 요구되는 주요 기술들을 제안한다. 제안한 내용은 지상파 UHDTV 방송서비스 도입기에 적용되어 주요 국가 재난경보시스템으로 활용될 것으로 기대한다.
-
전 세계적으로 인적/자연 재난이 빈번하게 발생하고 있다. 이러한 재난 발생 시 재난 정보를 신속히 전달하고 적절한 후속 처리를 위하여 ICT를 기반으로 하는 통합 재난정보 시스템의 관심과 수요가 국내외에서 급격히 증가하고 있는 실정이다. 그러나 국내외의 통합 재난정보 시스템은 방송/통신망의 붕괴 시 재난정보 전달의 불능 및 심각한 제한이 예상된다. 또한 이러한 통합 재난정보 시스템에는 무선 채널에서 사용되는 단말기가 재난정보 수신에 최종 실패할 경우를 고려하지 않는다. 본 논문에서는 향후 구현이 예상되는 통합 재난정보 시스템의 한계들을 극복하고 지속가능한 재난 방송/통신을 위하여 사물지능통신과 관계된 다양한 기법들을 제안하다.
-
본 논문은 신속하고 정확한 재난정보 전달을 위해 재난 데이터를 수집하여 다중매체 특성에 맞추어 재난정보를 만들고 관리하는 다중매체 멀티미디어 재난정보 생성 및 전달 서비스 플랫폼을 제안한다. 제안하는 플랫폼은 지진, 태풍 등의 재난에 대해 측정 데이터를 정부 기관 및 지방자치단체를 통해 수집하면 재난의 규모, 위치, 시간, 대응 정보를 포함하는 재난정보를 CATV(Cable Television), IPTV(Internet Protocol Television) 등 다중매체 특성에 따라 생성하여 다중매체에 전달함으로써, 국민을 대상으로 매체의 특성에 독립적으로 일관되는 재난정보를 신속하고 정확하게 전달할 수 있다. 제안한 플랫폼을 통해 신속하고 정확하게 전달된 대국민 재난정보를 통해 재난에 대한 신속한 대국민 대응이 가능하여 재난 피해를 최소화할 수 있다.
-
우리나라는 2017 년 5 월부터 ATSC 3.0 표준에 기반한 지상파 UHD 서비스를 시작한다. 지상파 방송은 긴급한 재난 시 재난정보를 신속 정확하게 전달하여 국민의 피해를 줄일 수 있는 효과적인 매체이다. 본 고는 2000 년 이후 우리나라에서 개발했던 재난경보방송 시스템을 조사 분석한다. 우선 아날로그 방송을 활용한 사례를 간단히 조사하고, 지상파 DMB 재난경보방송 개발과정을 기술적, 정책적, 법적 관점에서 조사 분석한다. 분석 결과는 지상파 UHD 를 활용한 효과적인 재난방송 구축을 위한 정책 수립에 참고자료로 활용할 수 있을 것이다.
-
본 논문에서는 CATV 셋톱박스를 통해 공통경보프로토콜 기반의 재난정보를 송출하는 프로토콜을 구현하고 실험한 내용을 기술한다. 현재, 지상파 방송사, 종합편성 방송사 및 보도전문 방송사는 법적으로 재난방송 의무를 가지고 있다. 이들 방송사는 주기적인 폴링방식을 이용하여 통합재난관리시스템으로부터 재난정보를 수신하고 있다. 재난정보 전달은 피해의 최소화, 대응의 신속화를 보장하기 위해 즉시적인 전달(Instantaneous Delivery)'이 무엇보다 중요하다. 따라서, 제안하는 재난정보송출 방식은 재난정보표현을 위한 표준방식인 공통경보프로토콜을 이용하여, 재난정보 발생 시 방송사에게 자동으로 통보될 수 있는 프로토콜을 구현하여 재난정보전달의 신속성을 보장할 수 있다.
-
본 논문은 재난 발생 시 신속한 재난 대응을 가능하게 할 수 있는 멀티미디어 재난정보 표출 시범 서비스를 제안한다. 본 논문은 재난 상황을 수 초안에 파악할 수 있는 가독성이 높은 재난정보 표출 방안을 제안하고, 다양한 멀티미디어(예: IPTV, CATV, 인터넷방송, 화상회의)에서의 재난정보 표출의 구현에 대해 설명한다. 본 논문의 멀티미디어 재난정보 표출 서비스는 가독성이 높은 멀티미디어별 맞춤형 재난정보 서비스를 대국민에게 제공함으로써 재난 발생 피해의 최소화를 기대할 수 있다.
-
최근 기술의 발전으로 자연스러운 미디어와 실재감을 제공하는 차세대 3D 기술이 많은 관심을 받고 있다. MMT는 MPEG에서 표준화를 진행하고 있는 차세대 미디어 전송 규격으로 방송망(Broadcast Network)과 인터넷을 동시에 서비스할 수 있는 하이브리드 방송에 적합한 기능을 제공한다. 본 논문에서는 8K(7,680 x 4,320)의 해상도를 가지는 영상을 다채널(4개의 채널) 영상으로 분리하고, 각각의 분리된 영상을 MPEG MMT 프로토콜을 이용해서 서버에서 4개의 채널로 전송, 4개의 클라이언트에서 미디어를 수신하고, 동기화 알고리즘을 이용하여 동기를 맞춘 후 최소의 지연시간 이내에 4채널의 미디어를 재현할 수 있는 기술을 설계하고 구현하였다.
-
스테레오 정합은 촬영된 스테레오 영상 속 화소들의 대응점을 탐색한 후 대응점 사이의 변위차를 계산하여 깊이정보를 예측한다. 스테레오 정합에서 변위값을 계산하기 위해서는 스테레오 영상간의 대응점 탐색이 우선적으로 수행되어야 한다. 스테레오 영상의 변위값 범위를 모르는 경우 동일한 탐색선상에 있는 모든 화소들의 유사도를 비교한 후 최적의 대응점을 선택한다. 반면에, 변위값 범위가 제공되는 실험 영상으로 스테레오 정합을 할 경우 정해진 후보 화소들에 대해서만 대응점 탐색을 수행한다. 많은 스테레오 정합 논문들이 실험의 효율성을 위해 변위값 범위 정보가 제공되는 실험 영상으로 스테레오 정합을 수행한다. 하지만 실제 스테레오 정합 환경에서는 이와 같은 정보를 얻기가 힘들다. 이러한 문제점을 극복하기 위해 본 논문에서는 움직임 예측 및 주변화소의 변위정보를 이용한 고속 스테레오 정합 방법을 제안한다.
-
점진적 움직임 기반 구조(Incremental Structure from Motion)는 다양한 시점에서 촬영한 영상들을 하나 씩 점진적으로 추가하여 3차원 장면을 복원하는 방법이다. 3차원 구조 복원에 사용되는 영상 켤레들 중에는 불필요한 켤레들도 충분히 포함되어 있으므로 복원된 구조의 불안정성과 불필요한 영상 켤레 처리로 인한 성능 손실이 발생할 수 있다. 이 논문은 상대적으로 불필요한 영상 켤레를 입력 영상 집합에 맞게 적응적으로 제거하는 방법을 제안한다. 대응점 탐색 단계에서 기하학적 검증작업 전후로 총 두 번의 영상 켤레 제거가 실행되며, 통계적인 방법 및 기하학적으로 검증된 대응점 비율을 이용하여 문턱치를 결정한다. 실험 결과 3차원 복원 결과에 지장을 주지 않으면서 복원에 필요한 영상 켤레 개수를 효과적으로 줄일 수 있었다.
-
본 논문에서는 딥 콘볼루션 신경망 구조를 사용하여 학습된 초해상화 알고리즘을 GPU 프로그래밍을 통해 실시간 동작이 가능하도록 하는 방법을 제시하였다. 딥 러닝이 많이 대중화 되면서 많은 영상처리 알고리즘이 딥러닝을 기반으로 연구가 되었다. 하지만 계산 량이 많이 필요로 하는 딥 러닝 기반 알고리즘은 UHD 이상의 고해상도 영상처리에는 실시간 처리가 어려웠다. 이런 문제를 해결하기 위해서 고속 병렬 처리가 가능한 GPU 를 사용해서 2K 입력영상을 4K 출력 영상으로 확대하는 딥 초해상화 알고리즘을 30 fps 이상의 처리 속도로 동작이 가능하도록 구현을 하였다.
-
본 논문에서는 비디오 영상 압축 왜곡 제거를 위해 Generative Adversarial Network (GAN)을 적용한 컨벌루션 뉴럴 네트워크 (CNN) 모델을 제안한다. GAN 모델의 생성 모델 (Generator)은 노이즈가 아닌 High Efficiency Video Coding (HEVC)로 압축된 영상을 입력 받은 뒤, 압축 왜곡이 제거된 영상을 출력하며, 분류 모델 (Discriminator)은 원본 영상과 압축된 영상을 입력 받은 뒤, 원본 영상과 압축 왜곡이 포함된 압축된 영상을 분류한다. 분류 모델은 5 개 층을 쌓은 컨벌루션 뉴럴 네트워크 구조를 사용하였고, 생성 모델은 5 개 층을 쌓은 SRCNN 구조와 VDSR 구조를 기반으로 한 두 개의 모델을 이용한 실험을 통해 얻은 결과를 비교하였다. 비디오 영상 압축 왜곡 제거 실험을 위해 원본 비디오 영상을 HEVC 을 이용하여 2Mbps, 4Mbps 로 압축된 영상을 사용하였으며, 압축된 영상 대비 왜곡이 제거된 영상을 얻을 수 있었다.
-
최근 들어 VR 관련 기술이 발전하고 대중화가 됨에 따라 VR 하드웨어 기술 이외에도 VR 영상에 대한 개발과 연구에 대한 관심이 증가하고 있다. 이러한 VR 영상을 제작하기 위해서는 360 도의 전방위 촬영, 영상의 스티칭 및 프로젝션 그리고 사용자의 시야점획득을 통한 렌더링등과 같은 기술이 필요하다. 그러나 영상들의 스티칭, 프로젝션 등의 여러 단계의 과정을 거치면서 원 영상에 비하여 많은 왜곡이 발생하게 된다. 따라서 본 논문에서는 이러한 제작과정 중 발생하는 기하학적 왜곡에 대해 분석한다.
-
퍼지 논리를 기반으로 한 적응형 스트리밍 기법인 FDASH 적응 알고리즘은 빠르게 변하는 네트워크 상황에서 우수한 콘텐츠의 화질을 보장하면서 끊김 없는 서비스를 제공하는 특성을 보이지만 비디오의 화질이 자주 변하기 때문에 최고의 사용자 체감 품질 (QoE: Quality of Experience)을 제공하지 못 할 수도 있다. 본 논문에서는 제한된 버퍼 크기를 가지고 동일한 콘텐츠의 화질을 보장하면서도 비디오 화질의 변화 횟수를 줄여서 최적의 QoE를 제공할 수 있도록 하는 변환된 퍼지 논리 기반의 DASH 적응 알고리즘을 제안하고자 한다. 제안된 방식은 우선 퍼지 논리 제어부(FLC : Fuzzy Logic Controller)의 수정을 통하여 다음 세그먼트의 비트율에 대해 최적의 판단을 하도록 하였고, 세그먼트 비트율 필터링 모듈 (SBFM: Segment Bitrate Filtering Module)을 추가하여 비디오 화질의 변화 횟수가 최소화 될 수 있도록 하였으며, 스트리밍 서비스 시작 시 SBFM에 의해 일정시간 저화질의 비디오를 시청해야 하는 상황을 막기 위한 Start Mechanism을 추가하였고, 마지막으로 버퍼의 오버플로우를 방지하기 위해 Sleeping Mechanism을 추가하였다. NS-3를 이용한 네트워크 모의실험 결과를 통해 제안된 방식이 FDASH 방식에 비하여 제한된 버퍼크기 상황 하에서도 오버플로우가 발생하지 않으며 점대점(Point to Point) 상황에서는 거의 동일 화질 성능을 보이면서도 비디오 화질 변화 횟수를 50% 이상 줄일 수 있음과 일반 Wifi환경에서는 오히려 17.8%정도 더 뛰어난 비디오 화질 성능을 보이면서 비디오 화질변화 횟수 측면에서는 53.1%정도 줄일 수 있음을 보여준다.
-
최근의 웹을 기반으로 한 소셜 네트워크 서비스의 발전은 사회관계 형성 서비스를 넘어 광고 마케팅 및 SNS 오픈마켓 등의 상업적 이용으로까지 사용되고 있으며 Facebook Live와 같은 개인방송의 영역까지 확장되고 있다. 인터넷을 통한 온라인상의 사회관계는 노화와 질환으로 외출이 어려운 노년층에게 지역사회 및 친구들과의 의사소통을 가능하게 할 뿐만 아니라 인터넷을 통한 정보 활용으로 생활의 질을 향상시키고, 노후를 즐길 수 있는 방법을 찾는 데 도움을 줄 수 있다고 알려져 있다. 하지만 대부분의 웹서비스는 복잡한 사용자 인터페이스를 제공하고 있으며 익숙하지 않은 기기를 사용하는 것은 노년층에게 쉽지 않기 때문에 노년층은 제한된 콘텐츠만을 제공받게 되어 정보화 사회에서 소외될 가능성이 있다. 이에 본 논문에서는 웹 접근성을 향상시킨 소셜 콘텐츠 서비스 Photo Alive! Demo EasyFace를 소개한다. 또한 노년층이 다루기 어려웠던 키보드와 마우스를 벗어나 새로운 조작 기기들로 웹 서비스를 이용할 수 있도록 구현하였다. MINIX Remote Control, Mirroring, EasyFace Control Application 세 가지의 조작기기 작동 방법을 구현하여 노년층에 맞춤화 된 새로운 사용자 인터페이스를 제안하고자 한다.
-
최근 스마트폰의 사용이 보편화 되고 주요 소비층이 밀레니엄 세대가 됨에 따라 개인 방송이 큰 이슈로 떠오르고 있다. 개인 방송 서비스 중 최근 큰 인기를 끌고 있으며 많은 사용자를 확보하고 있는 것이 게임 방송 분야이다. 게임 방송을 진행하는 브로드캐스터는 스트리밍 영상과 채팅을 통해 시청자와 실시간으로 소통하며 방송을 진행한다. 하지만 시청자는 브로드캐스터의 목소리와 화면에만 의존할 뿐 다른 추가적인 정보 서비스를 제공받기에는 한계가 있다. 이에 본 논문은 OBS를 이용한 HTML5 기반, JQuery 웹소켓 프로토콜을 통해 개인 방송 플랫폼을 제작하였고 Socket.IO를 사용하여 실시간 채팅 서비스를 추가하였다. 방송을 송출하는 방송 진행자가 입력하는 키 값을 스트리밍 영상에 오버레이할 수 있게 됨으로써 시청자에게 게임 진행 정보를 전달할 수 있고 시청자는 이를 통해 방송 진행자의 게임 스킬을 습득할 수 있으며 몰입감을 높일 수 있는 서비스를 개발하였다.
-
최근 보급되는 스마트 디바이스들은 실외뿐만 아니라 실내의 위치를 측정할 수 있는 기술들을 제공하고 있다. 실외 위치 측위 같은 경우는 기존의 GPS(Global Positioning System)를 사용하는 것이 일반적이지만, 실내 위치 측위는 기존의 GPS 방법으로는 한계가 있어 다양한 새로운 방법들이 연구 중에 있다. 그 중 가장 대표적인 방법은 BLE(Bluetooth Low Energy) 기반의 비콘(beacon)을 활용하는 것이다. 그러나 이 또한 추가적인 하드웨어가 필요할 뿐만 아니라 충전이 필요하다는 단점이 존재한다. 따라서 본 논문은 상기 단점들을 극할 수 있는 OCC(Optical Camera Communication)를 활용한 실내 위치 측위 기술을 고려한다. 특별히 공연장 내에서 관객들이 소지하고 있는 스마트 디바이스 카메라의 상대적인 위치정보를 획득하는 시스템을 제안한다. 이는 추가적인 하드웨어를 필요로 하지 않고 비동기식 접근이 가능하다는 장점이 있다. 본 논문에서 제안한 시스템을 통해 획득된 위치정보들은 촬영한 영상과 함께 저장되어 다양한 시점을 제공하는 응용데이터로 활용될 수 있을 것으로 기대한다.
-
본 논문에서는 시각장애인의 방송시청을 위해 제공되는 화면해설방송에 있어 실제 방송프로그램내의 화면해설오디오의 비율을 정량적으로 분석하는 방안에 대해 제안한다. 이를 위해 약 100 여편의 화면해설방송을 직접 청취하여 비율을 추출하였으며, 소프트웨어를 통한 분석결과와 비교하였다.
-
본 논문은 멀티채널 UHD(Ultra High Definition) 영상 녹화/재생 하드웨어 플랫폼과 서버 시스템간의 안정적인 스트림 데이터 전송을 위한 PCI Express 디바이스 드라이버 인터페이스를 제안한다. 멀티채널 기반의 하드웨어 플랫폼은 병렬 프로세스 제어가 가능하고, 서버와의 데이터 전송을 원활하게 해주는 디바이스 인터페이스가 필요하게 되는데, 본 논문에서는 PCI Express 인터페이스를 이용하여 해당 하드웨어 플랫폼을 인식하고, 쓰레드(Thread) 기반으로 멀티채널을 동작시키는 방식으로 인터페이스를 구현하였다. 본 논문에서 제안한 인터페이스는 효율적인 제어를 통해 하드웨어 플랫폼과 서버 시스템 사이의 실시간 데이터 전송을 가능하게 하였으며, 멀티채널 기반으로 안정적인 영상 콘텐츠 녹화 및 재생의 결과를 얻을 수 있었다.
-
홀로그램을 생성하기 위해서 많은 양의 계산을 필요하기 때문에 고속 홀로그램 생성 방법이 필요하다. 본 논문에서는 다중 프로세서와 다중 GPGPU의 스케줄링을 이용하여 고속화 하는 방법을 제안하고 구현하였다. 다중 프로세서를 이용하여 입력과 출력부분을 나누어 동기화 동작을 줄이고, 버퍼를 이용하여 커널과 커널 사이의 대기 시간을 줄일 수 있도록 스케줄링 하였다. nVidia사의 GTX680(Kepler구조) 2개를 이용하여 구현하였을 때, 이전 연구에서 제안한 방법에 비하여 약 70% 정도 계산시간을 줄일 수 있다.
-
본 논문에서는 바둑 대국 동영상에서 배경 영상과의 차이를 이용하여 바둑판 내에서의 움직임을 분석하고, 분석 결과를 이용하여 바둑돌의 착수 위치 및 바둑돌의 종류를 인식하는 자동 바둑 기보 저장 알고리즘을 제안한다. 카메라의 내부 특성이 변하지 않고 렌즈 왜곡이 존재하지 않는다고 가정하였을 때, 바둑판 위에 움직임이 없는 배경 영상과 현재의 영상 간의 차이의 변화량을 블록 단위로 누적한 블록 단위 움직임 맵(Block Motion Map)을 기반으로 움직임의 존재 여부를 판단하고, 착수 후 물체의 움직임이 없어진 영상을 배경 영상으로 갱신하며, 해당 영상과 이전 배경 영상의 패치(Patch)를 이용하여 착수 위치 및 바둑돌의 종류를 인식한다.
-
본 논문에서는 DTV 시스템을 대상으로 PN 시퀀스를 이용한 MCLT(Modulated Complex Lapped Transform) 기반 오디오 워터마크 알고리즘에 대한 BER 및 PEAQ(Perceptual Evaluation of Audio Quality) 성능 평가를 통해 오디오 신호 압축에 대한 워터마크의 강인성 및 워터마크 삽입에 따른 오디오 품질 열화 정도를 분석하였다. 이를 위해 오디오 신호 특성을 고려한 프로그램 장르별 시험용 방송 콘텐츠를 제작하고, Lab. Test 를 위한 DTV 송수신 시스템을 구축하였다. 오디오 인코딩 비트율 변화에 따른 성능 평가 결과, 광고 콘텐츠를 제외한 평균 BER(%)에서 192kbps 비트율이 128kpbs 비트율에 비해 0.0767 더 우수한 성능을 보였다. 오디오 워터마크 삽입에 따른 객관적 음질 평가에서는 PEAQ 점수가 약 -0.2 로 원래 오디오 신호와의 품질 차이가 매우 작은 것으로 나타났으며, 또한 DTV 시스템상의 신호 압축에 의해 발생하는 오디오 신호의 품질 저하 이외에 워터마크 삽입으로 인한 추가적인 음질 저하는 거의 발생하지 않는 것으로 분석되었다.
-
재난경보방송시스템에서 오디오 방송은 여러 가지 형태의 통신망을 이용하여 서비스되고 있다. 상용전화망, 이동통신망, 무선자가망 등이 있으나 오디오 동시방송이라는 요구는 충족하지 못하는 것이 사실이다. 또한, 아날로그 기반의 통신으로 오디오 품질이 만족스럽지 못한 편이다. 본 논문에서는 다양한 통신망에서 재난정보 서비스를 수행할 수 있는 재난경보방송시스템 모델을 제시하며, 이더넷과 같은 디지털 통신망 기반의 오디오 동시방송을 위한 솔루션을 연구 개발하였다. 방송송신설비 및 IP 교환기와 같은 하드웨어 요소를 제외하여 구축비용에 대한 부담을 줄이고, 통신 대역폭이 보장될 경우 실시간 동시방송이 가능하도록 설계하였다. 오디오 송신은 공개된 라이브러리를 사용하여 윈도우 기반의 소프트웨어 구조를 가지며, 오디오 수신은 임베디드 장치 기반으로 임베디드 리눅스에서 수신하고 재생할 수 있도록 구현하였다.
-
8K급 이상의 초고해상도/초다시점/초대용량 콘텐츠의 성공적인 시장 보급을 위해서는 콘텐츠의 실시간 재생이 가능한 단일 재생 시스템이 필요한 상황이지만, 현존하는 기술로는 해당 요구 사항을 만족하기는 어려운 상황이다. 이에 본 논문에서는 현존하는 재생 기술 기반으로 8K급 이상의 초고해상도를 갖는 콘텐츠를 효과적으로 재생하기 위한 GPU 기반의 멀티비전 시스템과 디스플레이 화면 간 안정된 동기 재생을 지원하기 위한 임의 순서 렌더링 방법을 제안한다.
-
AR 기술과 장비가 발전하며 다양한 분야에 이를 접목한 콘텐츠들이 생겨나고 있다. 가상광고는 기존의 광고 방법으로는 적용될 수 없는 영역에도 광고가 가능함으로써 광고분야에 새로운 패러다임으로 떠오르고 있다. 본 논문에서는 AR 환경의 가상 광고에 활용할 수 있는 기법을 제안함으로써 관련 기술의 상용화에 기여하고자 한다. 제안하는 기법은 RGB-D 카메라를 사용하여 물체의 3 차원 정보를 복원하고, 선택된 영역의 텍스처를 교체하는 기법과 모델 기반의 카메라 추적기술을 활용하여 실시간으로 물체의 텍스처가 교체될 수 있음을 보일 것이다.
-
본 논문에서는 바둑판을 촬영한 정지 영상에서 격자무늬의 특징을 이용하여 바둑판의 최외각 네 점을 검출하는 방법을 제시한다. 바둑판은 수평 및 수직 방향으로 각각 19 개의 선이 격자무늬를 이룬다. 영상에는 일반적으로 노이즈가 포함되어 있기 때문에 허프(Hough) 변환의 임계값(threshold)을 이용한 선 패턴 추출 방식으로는 모든 선에 대한 정보를 얻을 수 없다. 따라서, 제안하는 알고리즘은 허프(Hough) 변환을 수행한 뒤에 추출된 선들이 이루는 교차점의 정보를 이용하여 바둑판의 최외각 네 점을 예측한다. 실험 결과는 실제 바둑판의 최외각 네 점과 비교하여 예측된 최외각 네 점의 에러 값을 제시한다. 이는 제안된 알고리즘이 바둑판의 최외각 네 점을 성공적으로 검출한다는 것을 입증한다.
-
최근 바둑에 대한 관심이 급증함에 따라 바둑에 관련된 연구가 많이 진행되고 있다. 바둑에 관련된 연구가 진행 되기 위해서는 많은 양의 바둑 데이터를 취득할 필요가 있다. 바둑 데이터 중 아직도 사람의 도움없이 취득하기 어려운 데이터로는 대표적으로 기보 데이터가 있다. 따라서 기보를 자동으로 저장하는 연구가 활발하게 진행 되고 있다. 기보를 자동으로 저장하는 연구 중 바둑돌이 착수될 위치를 예측하여 기보를 저장하는 시스템은 카메라의 정보를 취득하는 것으로부터 시작된다. 많은 양의 데이터를 수집하기 위해서는 일반 사용자가 사용할 수 있는 어플리케이션의 역할이 중요하다. 하지만 카메라의 정보를 취득하는 것은 어플리케이션의 환경을 구축하는데 어려움을 야기한다. 따라서 본 논문은 어플리케이션의 환경 구축 문제점인 카메라의 정보를 바둑판 최 외각 네 끝점과 비교적 간단한 방법으로 예측하는 방법을 제안한다.
-
최근 영화, 광고, 미디어 전시 등의 분야에서 다양한 특수 효과가 처리된 장면의 연출이 적용되고 있다. 특히, 미디어 전시, 공연 등에서는 관객 혹은 공연자의 움직임에 반응하는 예술적 영상의 인터랙티브 표현들이 시도되고 있다. 이에 본 논문에서는 광고, 전시 등에서 효과적으로 활용될 수 있는 인터랙티브 포토 모자이크(photographic mosaic) 영상을 생성하는 시스템을 제안하였다.. 제안 시스템에서는 관객의 출현을 인지하고, 관객의 얼굴을 자동으로 캡쳐하여 관객의 얼굴 사진을 이용한 모자이크 영상을 실시간으로 생산한다. 이 때, 흥미 유발을 위하여 모자이크를 구성하는 관객의 얼굴 사진 조각들이 움직임을 가지는 작은 사각의 입자로 표현되어 서로가 충돌하며 자연스러운 움직임을 통하여 하나의 영상으로 맞춰가는 모습이 보여지도록 하였다.
-
최근 이미지 처리 및 인식 문제를 해결하는데 많이 사용되고 있는 CNN(Convolution Neural Network)를 이용하여 작은 dataset에서 Overfitting을 감소시키며 학습 할 수 있는 방법인 Dropout과 이미지를 왜곡하여 data를 늘리는 방법을 사용하여 보다 효율적으로 학습할 수 있는 방법을 연구 하였다. Batch별 처리속도를 기준으로 두 네트워크의 구조를 다르게 구현하여 비슷한 처리 시간을 수행하게 되도록 실험환경을 만들고 진행 하였다. Tensorflow로 네트워크를 구성하였고. Dataset은 Cifar_10을 사용 한다. 실험결과에 의하면 dropout의 경우 더 빨리 정확도가 향상되지만 이미지 왜곡을 사용하는 경우 저 높은 정확도로 수렴하였다.
-
기존 콘텐츠를 활용 및 조합하여 새로운 콘텐츠를 제작하는 개인 사용자가 늘어나고 있는 추세다. 사용자가 원하는 내용이 담긴 영상 콘텐츠를 활용하기 위해서는 이를 지원하는 영상 검색 시스템이 필요하다. 하지만 기존의 영상 검색 시스템은 키워드 매칭을 기반으로 하고 있기 때문에 사용자가 원하는 영상을 찾지 못하는 경우가 많다. 본 연구에서는 이러한 문제를 해결하기 위해 사용자의 검색 의도를 보다 정확하게 표현할 수 있는 질의어 확장 방법을 제시하고 있다. 제시하는 방법은 도메인 온톨로지와 워드 임베딩 결과를 이용하여 질의어와 의미적으로 밀접히 관련된 단어를 추가하고 확장된 질의어를 이용하여 검색을 수행하게 된다. 이를 통해 사용자는 만족할만한 검색 결과를 얻을 수 있게 된다. 구현한 시스템을 이용하여 질의어가 확장되는 과정을 보임으로써 본 연구에서 제시하고 있는 방법에 대한 평가를 수행하였다.
-
최근 들어, 실감형 콘텐츠를 제작하기 위한 무안경 다시점 3DTV 와 가상, 증강현실 콘텐츠에 대한 기술개발이 활발해 지고 있다. 또한, UHDTV 의 등장으로 무안경 다시점 3DTV 의 걸림돌이던 해상도 저하문제가 해결되면서 시점당 해상도가 향상된 다시점 3D 디스플레이 상용품 및 시제품들이 발표되고 있다. 하지만, 시청 위치가 한정되어 있고, 시청자에게 눈의 피로를 일으키며, 비싼 가격으로 인해 아직까지 소비자에게 좋은 반응을 얻지 못하고 있다. 이러한 단점을 해결하기 위해, 본 논문은 다시점 영상을 증강현실로 보여주는 방법을 소개한다. 제안한 방법을 사용하기 위해, 다시점 카메라 시스템으로 영상을 획득하고, HMD (head mounted display)와 휴대용 (handheld) 장치를 사용하여 다시점 영상을 시청한다. 실험 결과를 통해 제안한 방법이 기존의 시점 제한 문제를 해결할 수 있음을 확인했으며, 제안한 방법을 활용하여 다양한 실감형 콘텐츠를 제작할 것으로 기대한다.
-
본 논문에서는 동시적 위치 추정 및 지도 작성 (simultaneous localization and mapping)에서 루프 폐쇄 검출을 딥러닝 방법의 일종인 variational autoencoder 를 이용하여 수행하는 방법에 대해 살펴본다. Autoencoder 는 비감독 학습 방법의 일종으로 입력 영상이 신경망을 통과하여 얻은 출력 영상과 동일하도록 신경망을 학습시키는 모델이다. 이 때 autoencoder 중간의 병목 지역을 통과함에도 불구하고 입력과 동일한 영상을 계산해야 하는 제약조건이 있기 때문에 이는 차원 축소나 데이터 추상화의 목적으로 많이 사용된다. 여기서 한 단계 더 발전된 variational autoencoder 는 기존의 autoencoder 가 가진 단점인 입력 변수의 분포와 잠재 변수의 분포 사이에 상관관계가 없다는 단점을 해결하기 위해 Kullback-Leibler divergence 를 활용한 손실 함수를 정의하여 사용했다. 실험결과에서는 루프 폐쇄 검출에서 많이 사용되는 City-Centre 와 New College 데이터 집합을 사용하여 평가하였으며 루프 폐쇄 검출의 결과는 정밀도와 재현율을 계산하여 나타냈다.
-
HEVC(High Efficiency Video Coding) 보다 뛰어난 압축 성능을 갖는 차세대 비디오 부호화 표준 기술 탐색을 하고 있는 JVET(Joint Video Exploratory Team)에서는 기술 검증을 위한 참조 SW 코덱인 JEM(Joint Exploration Model)을 공개하고 있다. JEM 의 화면내 예측 부호화에서는 67 가지의 예측모드를 사용하고 6 개의 MPM(Most Probable Mode)을 이용하여 예측모드를 부호화 한다. 본 논문에서는 코딩블록에서의 화면내 예측모드의 선택 확률을 바탕으로 보다 효율적인 예측모드 부호화 기법을 제안한다. 실험결과 JEM 5.0 대비 MPM 을 포함한 예측모드 부호화 정보의 CABAC(Context Adaptive Binary Arithmetic Coding) 엔트로피 부호화를 제외하고, AI(All Intra) 부호화 구조에서 0.23% 정도의 BD-rate 감소를 보임을 확일 할 수 있었다.
-
파노라마 영상은 카메라 시야각의 제한을 극복하여 넓은 시야를 가질 수 있으므로 컴퓨터 비전, 스테레오 카메라 등의 분야에서 효율적으로 연구되고 있다. 파노라마 영상을 생성하기 위해서는 영상 스티칭 기술이 필요하다. 영상 스티칭 기술은 여러 영상에서 추출한 특징점의 디스크립터를 생성하고, 특징점들 간의 유사도를 비교하여 영상들을 이어 붙여 큰 하나의 영상으로 만드는 것이다. 각각의 특징점은 수십 수백차원의 정보를 가지고 있고, 스티칭 할 영상이 많아질수록 데이터 처리 시간이 증가하게 된다. 본 논문에서는 이를 해결 하기 위해서 전처리 과정으로 겹치는 영역이 많을 것이라고 예상되는 영상들을 그룹화 하는 방법을 제안한다. 카메라 센서 정보를 기반으로 영상들을 미리 그룹화 하여 한 번에 스티칭 할 영상의 수를 줄임으로써 데이터 처리 시간을 줄일 수 있다. 후에 계층적으로 스티칭 하여 하나의 큰 파노라마를 만든다. 실험 결과를 통해 제안한 방법이 기존의 스티칭 처리 시간 보다 짧아진 것을 검증하였다.
-
본 논문은 single image에서 측정한 빛 전달량 값과 local contrast 값을 사용하여 안개 량을 수치화하는 방법을 제안한다. 제안하는 방법은 빛 전달량 값을 사용하여 안개로 예측되는 지역을 추정하고, 추정된 안개 예측지역의 넓이와 해당 지역의 local contrast 크기의 범위를 사용하여 안개 정도를 수치화 한다. single image에서 측정 가능한 안개 의 물리적 특성들을 고려하였기 때문에 기존의 안개 검출 알고리즘들이 구분하지 못했던 영상들에서도 안개 량을 정확하게 측정하였다. 실제 빛의 산란 정도를 측정하는 감광 계수 측정계를 사용하여 측정한 안개 량과 제안하는 방법의 수치를 비교했을 때, 다양한 환경과 물체를 포함한 영상들에서 95%이상의 정확도로 안개 정도를 수치화 하였다. 또한 빛 전달량 추정 과정에서 local contrast 값을 추출하여 사용하기 때문에 기존의 빛 전달량을 측정하는 방법에서 복잡도를 거의 증가시키지 않는다.