Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2016.11a
-
Mixed and augmented reality (MAR) refers to a spatially coordinated combination of media/information components that represent on the real world and its objects, and on the other those that are virtual, synthetic and computer generated including any combination of aural, visual and touch. The extensible 3D (X3D) is the ISO standard for defining 3D interactive web-based 3D content integrated with multimedia. In this paper, we propose a model to integrate live actor and entity that captured from Microsoft Kinect to be represented in Web-based mixed augmented reality world by using X3DOM by which X3D nodes can be integrated seamlessly into HTML5 DOM content.
-
최근 현실 세계의 기반 위에 가상의 정보를 증강하여 사용자와 상호작용하며 즐기는 증강 현실 컨텐츠가 대중들에게 많은 인기를 얻고 있다. 이러한 증강 현실 콘텐츠는 현실 세계를 기반으로 한다는 점에서 실제의 3차원 공간을 정확하게 복원하는 것이 중요하다. 초기의 3차원 복원 방법으로 RGB-D 카메라를 이용한 KinectFusion 방법이 제안되었고 많은 연구자들에 의해 다루어지고 있다. 하지만 기존의 방법은 시간이 흐름에 따라 누적되는 오차에 의해 3차원 모델이 정확하게 복원되지 않는 객체 표류 문제가 발생한다. 이러한 문제는 깊이 카메라 센서의 잡음 때문에 정확하지 않은 표면 법선 벡터가 계산되는 것에 기인한다. 본 논문에서는 이러한 문제를 해결하기 위해 잡음에 강건한 표면 법선 벡터를 계산하는 방법을 제안한다. 실험결과에서는 기존의 방법과 비교하여 제안하는 방법이 절대 궤적 오차 (absolute trajectory error)가 감소하는 것을 확인 했고 카메라 궤적이 정확하게 예측되는 것을 확인할 수 있었다.
-
본 논문에서는 3 차원 실사 객체를 사용자의 상호작용을 통해 변형시키는 프레임워크를 제안한다. RGB-Depth 카메라로 다각도에서 객체를 촬영하여 3 차원 좌표 및 색상정보를 획득하고 각 영상에서의 3 차원 좌표들을 이용하여 카메라 포즈를 계산한다. 계산한 카메라 포즈와 획득한 3 차원 좌표 및 색상정보를 이용하여 객체의 3 차원 정보를 복원한 후 복원된 객체에 대해 메쉬(Mesh)를 생성한다. 이렇게 실사 객체의 3 차원 정보를 메쉬로 표현한 뒤, 사용자의 상호작용을 통해 객체의 변형을 가하게 되면 메쉬를 변형하여 렌더링 함으로써 사용자가 원하는 모습으로 실사 객체를 변형시킬 수 있다.
-
본 논문에서는 선 드로링 도면 간의 유사도 정도를 비교하여 도면으로 표현된 3차원 물체의 유사도 측정 알고리즘을 제안한다. 앞면, 뒷면, 좌측면, 우측면, 윗면, 아래면의 선 드로잉 영상으로 표현된 총 여섯 개의 영상을 한 물체의 대표 영상으로 이용한다. 데이터베이스의 3차원 물체 영상들은 전처리를 거친 후 각 영상의 여덟 방향의 그래디언트(gradient) 히스토그램을 측정하고 각 영상을 히스토그램의 기술자 벡터로서 표현하여 저장한다. 입력 영상 역시 같은 방식으로 기술자 벡터를 구하고 이를 비교될 영상의 기술자와 비교하여 유사도를 측정한다. 이와 같은 방식으로 가장 유사한 영상 집합을 가지는 N개의 물체를 탐색하여 시각적으로 제시한다.
-
본 논문에서는 순환 신경망을 이용하여 동영상에서의 배경과 전경을 구분하는 알고리즘을 제안한다. 순환 신경망은 일련의 순차적인 입력에 대해서 내부의 루프(loop)를 통해 이전 입력에 의한 정보를 지속할 수 있도록 구성되는 신경망을 말한다. 순환 신경망의 여러 구조들 가운데, 우리는 장기적인 관계에도 반응할 수 있도록 장단기 기억 신경망(Long short-term memory networks, LSTM)을 사용했다. 그리고 동영상에서의 시간적인 연결 뿐 아니라 공간적인 연관성도 배경과 전경을 판단하는 것에 영향을 미치기 때문에, 공간적 순환 신경망을 적용하여 내부 신경망(hidden layer)들의 정보가 공간적으로 전달될 수 있도록 신경망을 구성하였다. 제안하는 알고리즘은 기본적인 배경차분 동영상에 대해 기존 알고리즘들과 비교할만한 결과를 보인다.
-
본 논문에서는 딥러닝 기술 중의 하나인 CNN(Convolutional Neural Network) 기반의 얼굴 표정 인식 기법을 제안한다. 제안한 기법에서는 획득한 여섯 가지 주요 표정의 얼굴영상들을 학습 데이터로 이용할 때 분류 성능을 저해시키는 과적합(over-fitting) 문제를 해결하기 위해서 데이터 증대 기법(data augmentation)을 적용한다. 또한 기존의 CNN 구조에서 convolutional layer 및 node의 수를 변경하여 학습 파라미터 수를 대폭 감소시킬 수 있다. 실험 결과 제안하는 데이터 증대 기법 및 개선한 구조가 높은 얼굴 표정 분류 성능을 보여준다는 것을 확인하였다.
-
비디오로부터 객체를 검출하기 위해서는 오프라인에서 미리 객체를 검출할 수 있는 분류기가 학습되어있어야 한다. 이러한 분류기는 훈련에 사용된 훈련 집합에 매우 의존적이어서, 다양한 환경의 비디오 영상에 모두 적용할 수 있는 분류기의 설계는 불가능하다. 또한 분류기의 학습을 위해서는 상당히 많은 수의 훈련 집합이 필요하므로, 이는 신뢰도 높은 분류기 학습을 위한 높은 비용을 초래한다. 본 논문에서는 이러한 문제를 해결 할 수 있는 온라인 학습 기반 사람 추적 방법을 제안한다. 실험 영상으로부터 적절하게 훈련 집합을 수집함으로써 해당 실험 영상에 최적화된 분류기의 학습이 가능하며, 다양한 환경의 영상에 적용적으로 설계될 수 있다.
-
본 논문에서는 동영상에서 객체를 자동 검출하는 기법을 제안한다. 제안하는 기법은 정지 영상에서 객체를 검출하는 기법과 동영상에서 객체를 추적하는 기법을 동시에 수행하여 동영상에서 객체를 검출한다. 매 프레임 검출기는 학습된 종류의 객체들을 검출하고 추적기는 이전 프레임에서 검출되었던 객체를 추적한다. 검출기가 검출한 결과와 추적기가 추적한 결과를 매칭하고, 겹치는 결과와 그렇지 않은 결과에 대해 각각 다른 검사를 수행하여 신뢰도 있는 결과를 도출한다. 실험 결과를 통해 제안하는 기법이 기존 검출 기법에 비해 우수한 성능을 보임을 확인한다.
-
본 논문에서는 온라인 오디오 장르 분류의 성능을 비교 분석한다. 온라인 동작을 위해 1초 단위의 오디오 신호를 입력하여 music, speech, effect 중 하나의 장르로 판단한다. 학습 방법은 GMM과 심층 신경망을 사용하며, 특성은 MFCC와 스펙트로그램을 포함하는 네 가지 종류의 벡터를 사용한다. 각 성능을 비교 분석하여 장르 분류에 적합한 학습 방법과 특성 벡터를 확인한다.
-
본 논문에서는 스마트폰을 위한 악기 변환 및 합성기 애플리케이션을 제안한다. 혼자서 합주를 하기 위한 가상 악기 애플리케이션은 자연스러운 연주가 어렵다는 문제가 있다. 이를 해결하기 위하여 본 논문에서는 어쿠스틱 기타를 연주하여 소리를 녹음하고, 이를 여러 다른 악기 소리로 변환하여 하나의 밴드 음악으로 합성하는 시스템을 제안한다. 제안한 방법을 사용하면 어쿠스틱 기타 한 대만을 연주하여 혼자서 여러 악기의 합주 효과를 낼 수 있다.
-
본 논문에서는 기존에 쓰이던 주파수차감법과 다른 새로운 방법을 제안한다. 본 논문에서 다루는 방법은, 특정한 주파수의 대역에서 음성과 잡음의 우세도를 결정하고, 인간의 청각기와 관련된 매스킹 성질을 기반으로 하여 주파수 차감법을 이용해 제거한다. 이에 대하여 다양한 성능 평가를 하였고, 기존의 일반적인 주파수차감법과 비교하여 보다 효과적으로 잡음처리를 할 수 있음을 알 수 있다.
-
본 논문은 ATSC2.0 기반 8-VSB/MH 융합형 3DTV (A/104 Part 5 Service Compatible 3DTV using Main and Mobile Hybrid Delivery, A/104 part 5) 방식의 서비스 커버리지 및 음영지역을 예측할 수 있는 측정 및 분석시스템 개발에 대하여 기술 한다. ATSC2.0 기반 고정/이동 방송시스템은 8-VSB 로 전송되는 고정 TV 방송서비스(좌영상 전송)와 ATSC-MH 로 전송되는 in-band 모바일 방송서비스(우영상 전송)를 모두 수신하여 좌/우영상의 재생 및 동기화를 통해 융합형 3D 영상을 복원하게 된다. 따라서 융합형 3DTV 수신기는 고정 및 모바일 방송신호를 모두 수신하여야 융합형 3D 영상복원을 할 수 있으며, 방송사 입장에서 서비스 커버리지 측정을 하기위해서는 8-VSB 및 ATSC-MH 신호의 수신여부를 모두 측정하여야 한다. 본 논문에서는 이와 같은 RF 수신전계강도 파라미터 및 GPS 정보등을 실시간으로 모니터링하여, 시스템 사용자에가 융합형 3DTV 서비스 커버리지 측정 및 분석을 통해 서비스를 위한 RF 방송망 셀 구성 및 음영지역을 예측할 수 있는 ATSC2.0 융합형 3DTV 서비스 커버리지 분석기 구현에 대한 내용을 기술한다.
-
손 제스처는 스마트 글라스 등 웨어러블 기기의 NUI(Natural User Interface)를 구현하기 위한 수단으로 각광받고 있다. 최근 MPEG 에서는 IoT(Internet of Things) 및 웨어러블 환경에서의 미디어 소비를 지원하기 위한 IoMTW(Internet of Media-Things and Wearables) 표준화를 진행하고 있다. 본 논문에서는 손 제스처를 웨어러블 기기의 NUI 로 사용하여 웨어러블 기기 제어 및 미디어 소비를 제어하기 위한 손 제스처 검출과 인식 기법를 제시한다. 제시된 기법은 스테레오 영상으로부터 깊이 정보와 색 정보를 이용하여 손 윤곽선을 검출하여 이를 베지어(Bezier) 곡선으로 표현하고, 표현된 손 윤곽선으로부터 손가락 수 등의 특징을 바탕으로 제스처를 인식한다.
-
본 논문에서는 방송 오디오 신호에 데이터를 부가하여 전송할 수 있는 방법으로 연구가 수행되고 있는 Active Audioprint 방식을 소개하고, 이의 적용이 가능한 응용 서비스들을 제시한다. Active Audioprint 는 별도의 데이터 전송채널을 통하지 않고 오디오 신호 자체에 삽입하여 전송하는 기술이며, Active Audioprint 기술, 응용 가능한 서비스 및 기술적 고려사항들을 제시하였다. Active Audioprint 는 향후 통합시청률 조사 및 방송 콘텐츠의 저작권 관리 등 다양한 분야에 활용이 가능할 것이다.
-
Since a display device such as TV or signage is getting larger, the types of media is getting changed into wider view one such as UHD, panoramic and jigsaw-like media. Especially, panoramic and jigsaw-like media is realized by stitching video clips, which are captured by different camera or devices. In order to stich those video clips, it is required to find out 2D Adjacency Matrix, which tells spatial relationships among those video clips. Discrete Cosine Transform (DCT), which is used as a compression transform method, can convert the each frame of video source from the spatial domain (2D) into frequency domain. Based on the aforementioned compressed features, 2D adjacency Matrix of images could be found that we can efficiently make the spatial map of the images by using DCT. This paper proposes a new method of generating 2D adjacency matrix by using DCT for producing a panoramic and jigsaw-like media through various individual video clips.
-
본 논문은 실시간으로 변하는 사용자의 감정 상태에 적응하여 IoT 조명을 제어를 통해 조명 치료 서비스를 제공하는 시스템을 제안한다. 이를 위해서는 사용자 및 조명의 현재 상태를 인지하고 색상 및 조도를 원하는 상태로 실시간 제어 가능해야 하기에 REST 방식의 API 를 설계하고 구현하였다. 제안하는 시스템은 기존의 조명들을 통합적으로 관리하기 어려웠던 문제를 해결하고 이를 기반하여 조명 치료에 적용하여 사용자에게 편리한 사용성과 조명을 다양한 방법으로 활용할 수 있는 확장성을 제공할 것이다. 제안하는 시스템은 업무공간, 호텔, 가정 등 다양한 장소에서 이용되고, 홈 IoT 디바이스 시장이 확장하고 있는 현시점과 맞물려 사용자들에게 충분한 이용가치를 지닌 시스템이 될 것으로 기대된다.
-
본 논문은 CDN(Content Delivery Network)의 동적 캐싱 방식을 기반으로 하는 적응적 TTL(Time-To-Live) 할당기법을 제안한다. 이는 클라이언트가 실시간 개인방송을 시청하는 중 지나간 과거의 특정 장면을 다시 시청할 때 근원(Origin)서버의 부하를 효율적으로 줄일 수 있을 뿐만 아니라 캐시(Cache)서버의 저장 공간도 효율적으로 사용할 수 있는 장점이 있다. 따라서 본 논문에서 제안하는 적응적 TTL 할당기법은 개인방송 시청자들이 지나간 과거의 영상들을 선택적으로 시청할 때 보다 나은 서비스를 제공할 수 있을 것으로 기대된다.
-
객체를 추적하는 기술은 컴퓨터 비전 분야에서 활발히 연구되고 있는 분야 중 하나이다. 그 중 고정된 단일 카메라를 이용한 객체 추적 기술은 비디오 감시(Surveillance) 등에서 활용되고 있다. 고정된 카메라 환경에서 객체를 추적하는 방법 중 배경 모델링(Background Modeling)을 이용한 방법은 간단하면서도 널리 사용되는 방법 중 하나이다. 객체의 움직임이나 특징을 분석하여 배경 모델을 생성한 후 배경 정보를 이용하여 전경을 분리하면 쉽게 객체를 추출할 수 있다. 그러나 객체의 움직임이 적은 경우 해당 영역에서의 배경 모델은 정확하게 생성될 수 없다. 배경 모델을 학습하는 동안 객체가 충분이 움직이면 이런 문제를 해결할 수 있으나 객체가 움직이기 전까지는 오류가 지속된다. 이런 문제를 해결하기 위해 본 논문에서는 인페인팅(Inpainting)을 이용하여 움직임이 적은 영역을 보정하여 정확한 배경 모델을 생성하는 방법을 제안한다. 배경 모델을 생성한 후 객체로 식별할 수 있는 후보 영역을 식별한다. 선정된 영역들 중 사용자가 객체로 판단되는 영역을 선택하여 해당 영역에 대해 인페인팅으로 화소값 및 가중치들을 보정한다. 보정된 영상으로 배경 모델링을 수행하면 움직임이 적은 영역에 대해서도 효과적으로 배경 모델을 생성 할 수 있다.
-
최근 360 및 VR(Virtual Reality) 영상의 구성 및 전송을 위해 Facebook이 기존 메르카토르도법을 사용하는 것 대신 "Transform"의 방법을 제시하여 큐브 및 피라미드 형태로의 이미지 전송하는 방식을 발표했다. 본 논문은 이 변형기법을 기반으로, 6개의 카메라로 360VR영상을 촬영할 경우 "Transform"이 가지는 큐브 형태를 이용 기존보다 효과적이고 가벼워 실시간 스트리밍에 적합한 360VR이미지 변형법을 제안한다.
-
본 논문에서는 HEVC 부호화시 코딩 트리 블록의 분할 구조를 고속 결정하는 방법을 제안한다. 코딩 트리블록은 다양한 크기의 코딩 블록으로 구성되어 부호화 효율을 향상시키지만, 구성되는 코딩 블록을 결정하기 위한 과정에서 많은 계산량을 필요로 하게 되어 부호화 시간을 증가시킨다. 제안하는 방법에서는 부호화 과정에서 복원된 잔차신호와 코딩 트리 블록의 분할 구조의 상관성을 이용하여 코딩 트리 블록의 분할 구조를 고속으로 결정하는 방법을 제시한다. 실험 결과를 통해 제안된 방법이 HM16.0 에 비해 random-access configuration 에서 50.98%, low-delay configuration 에서 43.77%의 부호화 시간을 감소시키는 것을 확인하였다. 이때,
$BD-rate_{YUV}$ 증가는 각각 2.42%와 2.35%로 부호화 효율에는 미치는 영향은 낮았다. -
본 논문에서는 안개에 오염된 영상에서 안개 신호 성분을 제거하여 화질이 향상된 영상을 얻는 알고리즘을 설명한다. 실생활에서의 활용도가 높은 모바일기기에서의 활용을 위해 무엇보다 간결하고도 효과적인 안개제거 알고리즘이 필요하다. 이를 위해 patch 영역을 기반으로 한 계산이 아닌 픽셀을 기반으로 한 안개제거 알고리즘을 제안한다.
-
이동통신 시스템의 OFDM(Othogonal frequency division multiplexing) 신호는 큰 PAPR(Peak to Average Power Ratio)을 가지기 때문에 비선형 특성을 가지는 전력 증폭기의 효율 감소를 가져온다. 이러한 전력 증폭기의 비선형 특성을 개선하여 효율을 증가시키기 위해서 전력 증폭기의 역 특성을 가지는 디지털 전치 왜곡기가 이용된다. 본 논문에서는 제곱근 근사를 이용한 Look-up Table(LUT) 기반의 디지털 전치왜곡(Digital Pre-Distortion :DPD) 기법을 제안한다. 제안하는 방식은 복소 이득(Complex Gain) LUT 구조에서 입력신호의 크기를 구할 때, 기존의 테이블을 이용하여 제곱근 연산을 하는 방식보다 좋은 성능을 내면서 근사를 위한 테이블의 메모리를 필요로 하지 않는다. 또한 간단한 쉬프트 연산 등을 이용하므로 DSP 또는 MCU 기반의 DPD를 구현할 때 간단하게 구현 될 수 있다는 장점을 갖는다. 컴퓨터 모의실험을 통해 제안하는 제곱근 근사방식을 이용한 DPD와 기존의 방식을 사용한 DPD를 비교함으로써 제안하는 방식이 기존 방식보다 좋은 성능을 내면서도 보다 효율적으로 구현될 수 있음을 검증하였다.
-
DVB (Digital Video Broadcasting)-S2 (Satellite - Second Generation) 표준은 현재 위성방송 시스템으로 가장 많이 사용되고 있는 표준이나, 추가적인 성능향상과 보다 다양한 응용분야에 적용하기 위해 DVB-S2 기술을 확장한 DVB-S2x (Satellite - Second Generation Extension) 시스템이 제정되었다. 그 중에서도 612,540 심볼 길이의 수퍼프레임 (Super-frame) 구조를 선택적으로 도입하여 긴 데이터 길이에 대해 스크렘블링 (Scrambling)을 적용하는 방법과 PLS (Physical Layer Signaling) 코드와 같은 참조 데이터 필드를 반복적으로 사용하는 방법 등을 사용할 수 있도록 하였다. 이를 통해 동일채널 간섭 (co-channel interference)에 대한 강인성을 증가시키고, 매우 낮은 SNR (Signal to Noise Ratio) 환경에서의 수신기 성능 향상 효과를 제공하게 된다 본 논문에서는 버스트 슈퍼프레임 전송 기반의 DVB-S2x 수신기를 위한 동기부를 설계하고 구조를 제안한다. 슈퍼프레임의 포맷은 DVB-S2x Annex E 의 규격 중 2 번 포맷을 이용하였으며, 2 번 슈퍼프레임 포맷은 버스트 (burst) 기반의 전송 방식에 용이한 측면이 있다. 동기부는 크게 버스트 검출부, 주파수 복구부, 신호 이득 조절부 그리고 심벌 타이밍 복구부로 구성된다.
-
무선 통신 시스템에서 장거리 신호송출을 위해 사용하고 있는 고전력 증폭기(HPA, High Power Amplifier)는 증폭기의 비선형성 때문에 송출신호에 왜곡을 야기시키며 이 때문에 선형구간만을 사용하게 되어 그 전력 효율이 떨어지게 된다. 이 비선형 특성을 해결하기 위하여 디지털 사전 왜곡기(DPD, Digital Pre-distorter)를 HPA 의 앞단에 채용하여 송출신호를 선형화 시키고 효율도 높이게 된다. 이 DPD는 대부분 HPA를 특정 모델이라고 가정하고 최적화 알고리즘을 통해 설계되는데 HPA의 모델에 대한 가정이 맞지 않을 경우 설계된 DPD의 성능이 떨어질 수 있다. 따라서 HPA의 모델을 정확하게 아는 것은 DPD 설계에 있어서 중요한 이슈가 된다. 본 논문에서는 실제 상용되는 HPA에 대해 이미 알려진 다양한 HPA의 모델 중에서 가장 적합한 모델을 선정하고 또한 그 모델의 계수를 얻어내는 방법을 소개한다. 이렇게 얻어진 HPA의 모델정보는 최적의 DPD 설계에 사용될 수 있다. 각 HPA 모델에 대한 파라메터를 구함에 있어서 알려진 최적화 방법 이외에 직접 적용이 어려운 경우에는 기존 방식을 수정하고 그 방식을 사용하였다. 실제 HPA 의 입출력 신호를 실시간 수집하고 컴퓨터 모의실험을 수행하여 동일한 HPA 입력 신호에 대해 실제 HPA의 출력과 찾아낸 최적 모델의 출력을 비교 분석함으로써 실제 찾아낸 모델이 가장 정확하게 상용 HPA를 모델링 하고 있음을 확인하였다.
-
본 논문에서는 JPEG, MPEG 등 표준압축 기술에 사용되고 있는 무손실 압축 기법 중 Huffman coding 을 통해 영문 텍스트를 압축하고 압축률을 구해보았다. 각 글자를 Huffman coding 의 원리에 기초하여 빈도수에 따라 코드를 결정한다. 결정된 코드에 따라 영문 텍스트를 변환하여 압축을 진행한다. 본 연구에서는 MATLAB을 이용하여 영문 텍스트의 각 글자 빈도수를 구하였고 Huffman coding 과정을 수행하였다. 또한 영문 텍스트를 코드로 변환과정을 수행하여 아스키코드와 압축률을 비교하였다. Huffman coding 은 아스키코드만으로 이용하는 것보다 1.89:1 의 압축률을 나타내었다.
-
본 논문에서는 고정된 카메라 환경에서 카메라의 흔들림에 강인한 배경 영상을 생성할 수 있는 배경 모델링 방법을 제안한다. 흔들리지 않은 영상을 기준 영상으로 설정하고 기준 영상에서 해리스 코너 검출기를 이용하여 특징점들을 검출한다. 이후 입력 영상에 대해 동일한 방식으로 특징점을 추출한 뒤 탬플릿 매칭과 거리 비교를 이용하여 공통적으로 나타나는 배경 영역들에 대한 특징점만을 선별한다. 기준 영상에서의 특징점과 목표 영상에서의 대응되는 특징점 쌍을 이용하여 보정을 위한 호모그래피 행렬을 계산한다. 이렇게 계산된 보정 행렬을 이용하여 흔들린 목표 영상을 보정하게 된다. 흔들린 영상들을 보정한 후 보정된 영상들로 배경 모델을 생성하게 되면 정확한 배경 모델을 생성할 수 있다.
-
본 논문에서는 영상 인식 기술을 적용하여 보안성능을 향상시킨 잠금장치 구현에 대해 설명한다. 사전에 등록된 이미지를 사용자가 기억하고 있다가 등록된 이미지를 포함하고 있는 전체 그림에서 등록된 이미지 부분만을 사용자가 카메라로 캡처하였을 때 비밀번호 입력을 위한 키패드를 스마트기기에 활성화시키는 방법을 적용한다. 이러한 장치는 영상인식 기술, 안드로이드 앱, 아두이노 플랫폼 등을 이용하여 구현하게 된다.
-
본 논문에서는 국내 지상파 UHDTV 송수신 정합 규격을 기반으로, 방송 송출 환경에 따라 기존 방송 채널과 더불어 특정 시간 동안에 별도의 서비스 채널 추가적으로 운용할 수 있는 동적 다채널 방송 서비스를 제안하고 서비스 운용 방법을 소개한다. 제안하는 동적 다채널 방송 서비스를 구성하는 가상 채널은 지상파 방송망뿐만 아니라 브로드밴드망으로도 구성될 수 있다. 또한 본 논문에서는 동적 다채널 방송 서비스 구간에서 지상파 방송망으로 전달되는 기존 채널과 브로드밴드망을 통해 동적으로 생성된 채널간의 유연한 채널 전환이 이뤄질 수 있도록 채널 연결성 정보를 구현하였으며, 이를 수신기에 전달하여 채널간의 끊김 없는 UHDTV 서비스 제공이 가능함을 확인하였다.
-
자율주행 자동차란 인간에 의한 운전조작이 필요없이 원하는 목적지점까지 안전하게 이동하는 자동차를 말한다. 이러한 자율주행 자동차를 구현하기 위해서는 영상처리를 이용한 여러 기법들이 적용되는데, 본 논문에서는 모형자동차에 영상 처리 기법을 적용하여 자율주행 시스템을 구현하는 과정을 설명한다. 이것은 모형자동차에 무선 카메라를 설치하여 입력받은 영상을 컴퓨터로 보내주고 컴퓨터에서 이를 분석하여 알맞은 신호를 블루투스 통신을 통해서 모형자동차 내의 아두이노로 전송하여 알고리즘에 맞게 동작하는 시스템이다.
-
We propose a new reliable SVD-based watermarking scheme having high fidelity and strong robustness with no false-positive problem. Each column of the principal component of a watermark image is embedded into singular values of LL, LH, HL and HH sub-bands of cover image with different scale factors. Each scale factor is optimized by trading-off fidelity and robustness using Differential Evolution (DE) algorithm. The proposed scheme improves fidelity and robustness of existing reliable SVD based watermarking schemes without any false-positive problem. Index Terms - watermarking, reliable SVD, DWT, principal component, Differential Evolution.
-
대비 강화는 컴퓨터 비젼, 영상 처리, 패턴인식에서 전처리 과정으로 이용되며 그 역할이 중요하다. 2차원 히스토그램을 이용한 대비 강화 방법은 인접 픽셀 간의 정보를 이용해 대비를 강화시키기 때문에 1차원 히스토그램을 이용한 대비 강화 방법보다 우수하다. 2차원 히스토그램 기반 알고리즘에서 2차원 히스토그램의 인접픽셀 간의 화소값 차이에 따라 가중치를 주는 커널 (kernel)이 사용된다. 이러한 커널은 영상 마다 같은 가중치를 곱해주기 때문에 원하는 대비를 시켜주지 못하는 단점이 있다. 이에 본 논문은 2차원 히스토그램을 1차원 히스토그램으로 정사영을 시켜 평균값과 표준편차를 통해 2차원 히스토그램을 통계학적으로 분석한다. 그리고 선형회귀법을 이용하여 2차원 히스토그램의 통계적 정보에 따른 적응적 가중치 커널을 제안하고, 이를 이용하여 효율적 대비 강화를 한다. 실험 결과를 통해 제안하는 방법이 기존의 알고리즘에 비해 대비 향상 성능이 더 우수한 방법임을 확인하였다.
-
본 논문에서는 실사 영상 기반으로 3D 영상을 생성하기 위하여 효율적으로 다시점 영상을 획득하는 시스템을 제안한다. 기존의 시스템은 대부분 다수의 카메라를 이용하여 다시점 영상을 획득하는 구조이다. 이 경우 각 카메라 간의 정합(calibration)을 수행해야 할 뿐만 아니라 스테레오 매칭을 통해 깊이 정보를 추출하는 과정이 필요하다. 제안하는 시스템에서는 카메라는 고정시킨 상태에서 촬영하고자 하는 객체를 턴테이블 위에 놓고 회전시키면서 촬영한다. 카메라는 Microsoft에서 출시한 컬러 정보와 깊이 정보를 동시에 얻을 수 있는 키넥트(Kinect) v2를 사용한다. 실험을 통하여 제안하는 시스템이 기존 시스템보다 다시점 영상을 효율적으로 생성하는 것을 확인하였다.
-
정확한 변위정보를 추정하기 위해 다양한 비용 값 계산함수 또는 비용 값 합산 방법들이 개발되었다. 본 논문에서는 비용 값 계산을 위해 좌, 우영상의 기울기와 SAD(Sum of Absolute Differences)를 이용하며 비용 값 합산을 위해 가이드 영상 필터링을 사용한다. 가이드 영상 필터링은 가이드 영상의 종류에 따라 필터링결과가 크게 변하게 되는데, 스테레오 정합에 사용된 원본 입력 영상을 가이드 영상으로 사용할 경우 정확한 화소 값을 가지고 있기 때문에 경계영역을 보존하며 필터링 수행이 가능하다. 하지만 가이드 필터링은 가이드 영상으로부터 미리 지정해준 이웃한 화소와의 거리와 색상차이의 분산 값만을 고려하여 필터링을 수행하기 때문에 설정 변수 값에 매우 의존적인 특성을 갖는다. 가이드 필터링 과정에서 변수에 대한 의존성을 낮추고 경계영역의 정확도를 높이기 위해 우선 평활화 필터를 이용하여 경계영역을 추출한다. 원본 입력영상을 사용하여 경계영역을 추출할 경우 객체 내부의 많은 텍스처 영역의 정보까지 추출되지만, 평활화 필터를 이용할 경우 정확한 경계 영역의 정보만을 추출 할 수 있다. 추출된 경계영역에 대해서만 높은 가중치를 사용한 뒤 기존의 가이드 영상 필터링과 혼합하여 최종 비용 값을 합산한다. 제안한 방법을 사용하여 경계영역의 정확도가 향상된 최종 변위 지도를 획득할 수 있었다.
-
스테레오 정합은 서로 다른 두 시점을 갖는 스테레오 영상으로부터 객체의 깊이값을 예측한다. 이 방법은 객체가 카메라로 부터 멀리 떨어질수록 두 시점 사이에 큰 변위차를 갖는 양안시차 특성을 이용해 깊이값을 구한다. 일반적으로 스테레오 정합은 촬영한 두 영상의 조명 변화 및 노출 정도가 같다는 조건으로 수행된다. 하지만 실내 또는 실외에서 실제로 영상을 촬영하면 조명 및 햇빛의 위치 그리고 카메라의 특성에 따라 촬영된 스테레오 영상의 밝기가 서로 달라지는 경우가 발생하게 된다. 이처럼 두 영상의 밝기차를 고려하지 않고 스테레오 정합을 하게 되면 정확한 깊이값을 예측하기 어렵다. 이러한 문제를 개선하기 위해 조명 변화에 강인한 ANCC (Adaptive Normalized Cross Correlation)가 제안되었다. 이 방법은 영상 속 화소들의 색상 모델을 이용해 조명변화의 영향을 받는 요소들을 제거함으로써 다양한 밝기변화 속에서도 안정적으로 스테레오 정합을 수행할 수 있도록 한다. 하지만 ANCC는 수행과정에서 각 화소마다 양방향 필터 (Bilateral Filter)가 적용되는 등 높은 복잡도를 갖는다는 단점이 있다. 본 논문에서는 기존의 ANCC 보다 복잡도가 낮으면서 밝기변화에도 안정적인 정합 결과를 갖기 위해 Census 변환의 이진 정보를 이용한 스테레오 정합 방법을 제안한다.
-
스테레오 정합은 컴퓨터 비전 분야에서 활발하게 연구되고 있는 연구 주제로 서로 다른 위치에서 획득된 두 영상을 정합하여 거리 정보를 얻는 방법이다. 이 방법은 초음파나 레이저를 광원으로 거리를 측정하는 것보다 실제 응용 환경의 제약을 적게 받아 다양한 분야에서 응용되고 있다. 하지만, 텍스쳐가 반복되거나 텍스쳐가 없는 영역 혹은 객체의 경계 부근에서 정확한 깊이 정보를 획득하지 못한다는 단점이 있다. 본 논문은 일반적 총 변이와 가이드 깊이맵을 사용하여 정합 비용을 정제 방법을 사용하여 정확한 깊이 정보 획득 방법을 제안한다. 실험 결과를 통해 제안한 방법이 기존의 색상 영상의 텍스쳐 복사 문제를 해결하였으며, 기존의 방법에 비해 bad pixel rates 측면에서 월등한 성능을 보이는 것을 확인하였다.
-
최근 초고화질 해상도(UHD) 영상 서비스에 따른 기존의 비디오 압축 기술인 H.264/AVC 대비 두 배 이상의 압축 성능을 가지는 HEVC(High-Efficiency Video Codec)의 표준화가 완료되었다. 그러나 높은 압축 효과를 얻기 위하여 복잡한 연산이 필요한 기법들이 많이 도입되어 HEVC의 부호화 복잡도는 H.264/AVC보다 크게 증가되었다. 이에 본 논문은 HEVC의 복잡도를 줄이기 위한 정보로 입력 영상에 장면 전환 프레임을 전처리 과정을 통하여 검출하였다. 검출된 정보는 참조 픽쳐 리스트를 구성하는데 사용하여 HEVC 부호화기의 계산 복잡도의 큰 비중을 차지하는 ME(Motion Estimation)와 MC(Motion Compensation)의 횟수를 줄이도록 설계하였다.
-
본 논문에서는 기존의 인지 영상 부호화에 사용되던 Just Noticeable Distortion(JND) 보다 더 압축에 적합한 모델인 Just Noticeable Quantization Distortion(JNQD) 모델을 제시하고, 이를 사용한 인지적 영상 압축 방법을 제안한다. 제안하는 인지적 영상 압축 방식은 영상 코덱 내부의 Rate-Distortion Optimization(RDO)을 수정하지 않고 입력되는 영상의 불필요한 정보들을 미리 제거하는 전처리 과정으로서, JNQD 모델을 사용하여 보다 간단하면서 압축 효율을 크게 증가 시킬 수 있다. 기존 영상 압축의 전처리 방법들은 부호화기의 양자화 값을 전처리 과정에서 고려하지 못하여 부정확한 인지 중복성 제거 결과를 초래하였으나, 제안하는 방법은 영상의 특성뿐만 아니라 양자화 크기 값을 고려하여 적응적으로 인지 왜곡이 발생하지 않는 주관적 인지 중복성 제거를 전처리 과정에서 수행할 수 있다. 거의 유사한 주관적 품질 수준을 유지하면서 HEVC 참조 소프트웨어 대비 약 15%의 압축효율 향상을 보인다.
-
인터넷 사용의 발달로 디지털 미디어 영상에 대한 불법 복제, 불법 배포 등의 문제가 완연해짐에 따라 영상의 제작자의 소유권과 저작권을 보호할 수 있는 워터마크 기법이 많이 연구되고 있다. 워터마크 시스템은 워터마크 삽입 후, 삽입정보를 알 수 없어야하는 비가시성 특성과 여러 공격에도 훼손되지 않고 추출될 수 있는 강인함을 가지고 있어야 한다. 이에 본 논문은 이산 웨이블릿 변환(DWT)으로 생성되는 부대역의 점유 주파수대역 특성과 공격이 이 부대역들에 미치는 영향을 분석하고, 이를 사용하여 디지털 워터마킹을 수행하였을 때 추출률을 최고로 하기 위해서는 변환된 부대역이 특정 범위내의 해상도를 가져야 한다는 것을 보인다. 본 연구는 실험적 방법으로 모든 부분연구는 실험에 의해서 결정된다.
-
본 논문에서는 4K UHD 입력 영상을 실시간으로 부호화하기 위해 적용되는 GOP 단위 또는 IDR 주기 단위의 병렬 부호화 구조를 지원하도록 R-
${\lambda}$ 모델 기반의 율 제어 방법을 개선하는 비트 분배(bit allocation) 방법을 제안한다. GOP 단위 또는 IDR 주기 단위의 병렬 부호화기 내에서 율 제어기를 작동시키는 경우, 계층적 B 구조에서 같은 계층에 있는 프레임 간에는 상호간에 얼마만큼의 비트를 소모 하였는지에 대한 정보를 공유 할 수 없기 때문에 기존의 비트 분배 방식으로는 비트 예산(bit budget) 관리가 불가능하다. 이를 해결하기 위해 본 논문에서는, 기존의 R-${\lambda}$ 모델 기반 율 제어 방법을 개선하여 부호화 순서에 의한 시간 순서 방향의 비트 예산 갱신 기반 비트 분배하던 방식으로부터, GOP 마다 비트를 할당한 후 계층적 B 구조에서의 계층이 깊어지는 방향으로 비트 예산을 갱신하여 비트를 분배하는 방식으로 율 배분 방식을 개선하였다. 실험 결과를 통해 R-${\lambda}$ 모델 기반 율 제어의 기존 비트 분배 방식보다 제안 방법에 의한 목표 비트 율 달성 오차가 감소함을 확인하였다. -
본 논문에서는 카메라로 촬영한 동영상에서 키 프레임을 추출하고 특징점을 기반으로 영상을 정합하는 파노라마 영상 생성 기법을 제안한다. 제안한 기법에서는 다양한 동영상의 히스토그램, 에지 등의 정보를 이용해 강인한 키 프레임을 추출하고 추출된 다수의 키 프레임 영상에 실린더 투영 방법과 FAST(Feature from Accelerated Segment Test) 기법을 적용하여 자연스러운 정합 영상을 획득할 수 있다. 정합된 특징점의 오차율을 최소화하기 위해 RANSAC(Random Sample Consensus)을 사용하고 여러 장의 다른 시점 영상을 정합할 때 생길 수 있는 경계선을 제거하고 보정하기 위해 선형가중치 함수도 사용한다. 실험을 통해 제안하는 기법으로 자연스러운 파노라마 영상을 생성할 수 있었다.
-
본 논문은 human visual system(HVS)에 따른 주파수 민감도와 공간에서 다양한 특성들을 구현하기 위한 신호처리 방법을 개발하였다. 인간의 눈은 주파수 성분에 따라 민감도가 다르며 초점에서 멀수록 인지 가능한 해상도가 떨어진다. 주파수 민감도를 구현하기 위해서 본 논문은 영상 신호의 에너지 스펙트럼 모양이 contrast sensitivity function(CSF)의 모양이 되도록하여 영상 신호의 에너지를 증가시켰으며 신호 방향에 적응적인 multiband energy scaling 방법을 개발하였다. 기존의 시스템에서 능률만을 향상시키는 기존의 분석 모델과 비교하면 개발한 방법은 HVS에 좀 더 적절하고 선호되게 영상 신호를 처리 할 수 있다.
-
최근 UHDTV(ultra high definition television)가 가정에 보급이 많이 되고 있는 추세지만, UHD급 콘텐츠가 매우 부족한 실정이다. 따라서 저해상도 FHD(full high definition) 영상을 고해상도 영상으로 변환시켜 재활용할 수 있는 초해상화(super-resolution, SR) 기술의 필요성이 커졌다. 그 중, 다층의 레이어로 구성된 다층 선형 매핑(multi-layer linear mappings, MLLM)을 기반으로 하는 제안된 초해상화 기법은 상대적으로 낮은 복잡도로 좋은 품질의 고해상도 영상을 복원할 수 있었다. 최근에는 강화 예측법을 추가하여 복원된 고해상도 영상의 품질을 더 향상시키는 기법이 등장하였는데, 이를 바탕으로 본 논문에서는 제안했었던 MLLM 기법을 위한 강화 예측법 기법을 새롭게 제안한다. 제안하는 초해상화 기법은 기존 MLLM 기법과 딥러닝 기반 초해상화 기법보다 높은 품질의 고해상도 영상을 생성하는 것을 확인하였다.
-
최근 IT기술 영역에서 미래기술로 촉망받는 증강현실(AR)과 가상현실(VR)환경을 구축함에 있어서, 마우스나 키보드 등의 별도 장치 없이 기기에 원하는 동작을 입력 하도록 하는 NUI(Natural User Interface)기술이 각광받고 있다. 또한 NUI를 구현하는데 중요한 기술 중 하나로 손동작 인식 기술, 얼굴 인식 기술 등이 대두되고 있다. 이에 본 논문은 적외선 센서의 일종인 Leapmotion 센서를 사용하여 손동작 인식을 구현하고자 하였다. 첫 번째로 우선 거리변환 행렬을 사용하여 손바닥의 중심을 찾았다. 이후 각각의 손가락을 convex hull 알고리즘을 사용하여 추출한다. 제안한 알고리즘에서는 손가락, 손바닥 부분의optical flow를 구한 후, 두 optical flow의 특성을 사용하여 손의 이동, 정지, 클릭 동작을 구분 할 수 있도록 하였다.
-
고해상도 이미지는 거의 대부분 유용하지만 저장용량을 많이 차지한다는 점은 그 유용함에 대한 제약이다. 이를 위한 수많은 용량절감 방식이 있지만 화질저하의 한계점은 육안으로 보기에 원본과 가장 비슷하게 보이는 지점이다. 텍스트 파일은 그 형태가 높은 수준으로 고정되어 있다는 점에 착안하여 육안으로 원본과 비슷하게 보이지 않는 지점까지 손실 저장하더라도 다른 텍스트들과 비교되는 지점까지 가능하다.
-
최근 VR은 다양한 장르에 콘텐츠를 융합함으로써 사용자에게 공간의 제약 없이 현장감 제공이 가능해짐에 따라 관심을 받기 시작했다. 또한 실감 콘텐츠 기술 확보가 가능해짐에 따라 다양한 사용자 체험형 콘텐츠 개발도 가능해지고 있다. 하지만 국내에서 VR산업은 게임분야를 제외하고 활용정도가 낮다. 이에 본 논문에서는 실감형 가상 여행 콘텐츠를 제작하여 HMD에 디스플레이하는 방법을 제안 및 구현한다. 360도 영상과 VR로 표출했기 때문에 개인방송 여행 콘텐츠에서 사용자에게 현지에서 직접 경험하는 듯한 몰입감과 현장감을 제공하고, 사용자 인터페이스를 접목하여 양방향 통신이 가능하도록 설계하여 콘텐츠를 체험하는데 편리성을 극대화하였다.
-
본 논문에서는 다중 입력의 크기를 비교하기 위한 알고리즘 및 VLSI 구조를 제안한다. 제안하는 알고리즘은 여러 입력을 동시에 비교한 후에 간단한 디지털 논리 함수를 이용하여 그 입력들 중에서 가장 큰 값(혹은 가장 작은 값)을 검출하는 방법을 제공할 수 있다. 이 방식의 단점은 하드웨어 자원이 증가하는 것인데, 이를 위해 중복된 논리 연산을 재사용하는 방법도 제안한다. 제안하고자 하는 방식은 회로 속도의 증가, 즉 지연시간의 감소에 초점을 맞추었다. 제안한 비교 알고리즘은 HDL로 설계한 후에 Magna Chip의
$0.18{\mu}m$ CMOS 라이브러리를 이용하여 구현하였다. 제안한 비교방법은 전통적인 방식에 비해서 4 및 8 입력인 경우에 약 0.5 및 1.1배 만큼 하드웨어 자원을 더 소비하면서, 약 1.5 및 1.8배 만큼 동작 주파수를 향상시킬 수 있었다. -
본 논문은 연속적인 비디오 시퀀스에서 움직이는 객체의 영역을 효율적으로 분할하기 위하여 커널 기반 객체 추적과 Grab-Cut 알고리즘을 결합한 비디오 영역 분할 방법을 제안한다. 제안 방법에서는 추적 목표 객체의 초기 위치를 사각영역으로 선택하면, 사각의 외부 영역을 배경색상으로 인지하고, 배경 색상을 고려한 목표 객체의 주요 색상을 분석한다. 이를 기반으로 커널기반 객체 추적 기법을 적용하여 빠르게 객체의 영역을 추출한다. 추적한 각 객체의 영역에서 중앙 객체 영역과 배경 영역의 색 정보를 초기값으로 하여 Grab-Cut 알고리즘을 수행하고 사각형 형태가 아닌 객체의 실루엣 최적화된 영역으로 분할한다. 제안 방법을 스포츠 방송, 광고, 영화 등의 특수 효과로 활용되고 있는 stromotion 영상 생성에 적용하기 위하여 프레임별 추출된 객체의 영상을 새로운 프레임 영상에 합성하는 작업을 수행하여, 초당 10 프레임의 처리 속도에서 원하는 스트로모션 효과 영상을 생성하였다.
-
최근 TV시청은 다양한 매체를 통해서 이루어지고 있으며, 특히 스마트폰을 통한 시청률이 늘고 있는 상황이다. 광고시장에서도 TV시청 중에 스마트기기를 함께 이용하는 멀티태스킹 사용자가 급증하고 있으며 특히 10~30대의 사용이 적극적이다. TV시청 중 스마트 기기의 사용분야는 메신저, 정보검색, SNS 순이며 스마트 기기사용 내용 중 69%는 시청하던 TV 시청과 관련된 것이었다. 이 중에 75%는 TV에 등장한 제품, 브랜드, 장소에 관한 것이다[1]. TV를 시청하는 상황에 스마트기기의 소셜 활동의 문자를 분석하는 것은 사용자 의도를 파악할 수 있는 의미가 있으며, 시청자의 현재 위치를 파악함으로써 시청자의 의도에 반영되는 상황을 파악할 수 있다. T-Commerce 구매 의도는 사용자의 현재 상황에 대한 순간 의도를 파악하는것이 중요하며, 이와 같은 구매의도를 파악하기 위해서 본 연구에서는 GPS와, Wi-Fi 기반 Fingerprinting 측위기법을 사용하여 특별한 도구나 장비의 설치 없이 현재위치와 멀티태스킹 데이터를 분석하여 구매의도를 파악한다. T-Commerce 소비환경 패턴이 바뀜에 따라, 다양한 소비 환경 데이터 분석은 효율적인 광고 제공과 만족도를 높일 것으로 기대된다.
-
본 논문에서는 비평면 디지털 사이니지 서비스를 제공하기 위해서 투사될 다수의 콘텐츠 들을 스크린 환경에 맞춰 동적으로 보정하는 시스템의 설계와 구현을 다룬다. 제안기술은 다양한 형태의 사물 표면을 스크린으로 활용하여 디지털 사이니지 서비스를 쉽게 제공할 수 있도록 하는데 필요한 보정 시스템에 관한 것으로 동적으로 기하학적 구성정보 및 주변 환경 정보를 감지하여 콘텐츠를 적절하게 보정할 수 있으며 향후 디지털 사이니지 서비스뿐만 아니라 공연이나 전시와 같은 다양한 분야에도 활용이 기대된다.
-
기존의 사람 계수 측정 시스템은 적외선 빔이나 열 감지 영상 장치를 통해 측정하였다. 하지만 이와 같은 방법으로 측정하면 객체가 들어가거나 나가는 정보는 제공하지 않는다. 이에 본 논문은 고정된 카메라를 이용하여 각 사람의 피부색과 옷차림 등의 RGB 정보를 이용한 사람 계수 측정 기법을 제안한다. RGB카메라 영상을 통하여 객체의 RGB 히스토그램을 얻은 후 각 객체에 대해 Bhattacharyya metric을 통한 histogram similarity을 계산하여 객체 추적 및 분류를 통해 사람 계수 측정을 한다. 제안된 시스템은 C/C++을 기반으로 구현하여, 사람 계수 측정 성능을 평가하였다.
-
본 논문에서는 애니메이션, 드라마, 영화 등 영상으로 제작된 콘텐츠를 OpenGL를 사용하여 3D영상으로 재구성한다. 먼저 현재영상과 이전영상의 움직임의 차이로부터 운동 축적 데이터를 사용하여 모션 깊이맵을 생성한다. 그 깊이맵을 사용하여 OpenGL에서 사용하는 텍스쳐 맵핑으로 영상을 출력하고 3D 영상을 구현하기 위해 좌영상과 우영상을 생성하여 3D 입체영상을 만든다.
-
디지털 컨텐츠는 UHD, 3D, 파노라마 영상 등 다양한 형태로 발전되고 있다. 그 중 파노라마 영상은 여러 영상을 정합하여 넓은 시야각을 제공하는 컨텐츠로 전문적인 기술자들을 중심으로 제작되고 있다. 또한 디지털 컨텐츠의 제작자는 전문가에서 일반인으로까지 범위가 확장되었고, 발전된 형태의 컨텐츠를 일반인이 스마트폰 등의 개인 단말로 손쉽게 제작할 수 있도록 해주는 컨텐츠 생성 기술이 발달되고 있다. 이에 본 논문에서는 일반 사용자들이 각각의 스마트폰 단말로 촬영한 여러 동영상들을 하나의 파노라마 영상으로 제작하기위한 기술 중, 각기 다른 스마트폰의 시간축을 이미지 매칭을 통해 하나의 통일된 시간축으로 동기화 시키는 기법에 관하여 연구하였다. 이를 위해, 본 논문에서는 동영상에서 시간정보로 이용하기 위한 오브젝트의 움직임이 포함된 시퀀스를 찾는 방법과 해당 시퀀스를 이용하여 다른 동영상과의 이미지 매칭으로 시간축을 동기화 시키는 방법을 제안한다.
-
손동작 인식은 대부분 스킨 컬러 검출을 이용하였다. 하지만 이와 같은 방법으로는 빛이나 주변 사물에 의해 영향을 많이 받기 때문에 정확한 값을 일정하게 도출 해낼 수 없었다. 이에 본 논문은 운동축적 기법을 이용하여 움직임을 파악한 후 손의 움직임을 트랙킹하여 운동 방향을 구한다. 제안된 시스템은 C/C++을 기반으로 구현하여, 실험에서 제안 방법이 안정적이고 우수한 성능을 보여줌을 증명하였다.
-
영상 신호에 대해 인공지능적인 프로세스를 수행하는 방법들 중에 우수한 성능을 나타내면서 주목을 끌고 있는 방법으로 Convolution Neural Network(CNN)이 있다. 이를 구성할 때 전반부는 convolution network로 구현되고, 후반부는 Neural Network(NN)로 구현된다. 이때, 전반부에서 convolution 과정을 수행하기 위해 다양한 필터가 사용되는데, 이 필터들의 초기값에 따라 CNN의 성능이 달라지게 된다. 본 논문에서는 CNN의 성능을 향상시키기 위해 convolution network의 초기값을 설정하는 방법에 대해 제안하며, 이를 컴퓨터 실험을 통해 증명하기 위해 필기체 인식이라는 응용 알고리즘을 구현하였다.
-
최근 스마트폰, PC, 태블릿 같은 전자기기들이 발전하면서 기계를 통해 소통하는 시대가 왔다. 기계와 소통하기 위해 우리가 사용하는 문자를 인식하는 것은 중요한 일이다. 이런 전자기기들이 문자, 영상인식을 해야 할 필요성이 더욱 증가함에 따라 머신러닝의 중요성이 대두되었다. 머신러닝은 컴퓨터의 학습을 위해 알고리즘과 기술을 개발하는 분야를 말한다. 머신러닝의 기법과 관련된 알고리즘의 종류는 수없이 많다. 그 중에서도 Neural Network는 사람의 뇌 신경구조를 토대로 착안하여 네트워크를 만들고 이를 학습에 이용한 머신러닝 기법이다. 이런 인공지능 알고리즘인 Neural Network 구조를 바탕으로 특징을 추출하여 학습을 하는 Convolution Neural Network 기법의 사용이 늘고 있다. 본 논문에서는 Neural Network와 Convolution Neural Network의 알고리즘을 이용한 필기체 인식 실험을 하고 그 내용을 비교하였다.
-
현대사회에서 헬스케어가 대두하고 있는 동시에 자신의 몸 상태와 관련된 정보에 대해 직접 모니터링을 원하는 사람들이 늘어나고 있다. 이에, 본 논문에서는 사용자의 스마트한 건강관리를 위한 웨어러블 (wearable) 기기 및 어플리케이션을 개발한다. 사람의 발은 신체 건강과 밀접한 연관이 있으므로 개발된 시스템은 신발 내에 부착된 압력 및 온습도 센서를 통하여 발의 건강상태를 실시간으로 모니터링할 수 있다. 또한, 제안한 시스템은 하나의 신발에 내장되어 있으므로 사용자가 일상생활 중에 간편하게 발의 건강상태를 스스로 모니터링할 수 있다.
-
본 논문에서는 구글 탱고 플랫폼을 이용한 실내 3차원 지도 취득과 이를 이용한 증강 내비게이션을 구현하는 방법을 제시한다. 취득한 3차원 지도는 가공을 통해 서버로 전송된다. 내비게이션은 초기 위치를 QR 코드로 파악하고 목적지와의 관계를 통해 가속도 센서와 방향 센서를 사용하여 올바른 길로 인도한다. 증강현실을 구현하기 위해 길 안내화면은 기기의 카메라를 통해 현실을 배경으로 하였고, OpenGL ES 라이브러리를 활용하여, 직진, 좌회전, 우회전 총 세 개의 화살표를 렌더링 한 후 카메라위에 중첩하였다. 증강 내비게이션을 통해 사용자는 스마트폰의 화면만 보고 실내에서 안전하게 장애물을 피하며 빠르게 목적지까지 도착할 수 있게 된다.
-
운전자 졸음 감지 시스템에서는 운전자의 눈의 위치를 정확하게 검출하고 추적하는 것이 중요하다. 각막 반사를 이용한 눈동자의 명암 차를 이용하여 동공의 위치를 정확하게 검출할 수 있다. 그러나 눈을 깜빡이는 순간에는 각막 반사 현상이 나타나지 않아 눈 검출에 실패하게 된다. 본 논문에서는 각막 반사와 템플릿 매칭을 이용하여 운전자가 눈을 깜빡이는 상황에도 지속적으로 두 눈의 위치를 정확하게 검출할 수 있는 시스템을 제안한다.
-
비슷한 코너의 모양을 가지는 다수의 글자가 포함된 문서 영상을 인식하는 일은 쉽지 않다. 일반적으로 성능이 우수하다고 알려진 SIFT 알고리즘은 코너를 기반으로 특징을 기술하는 알고리즘이기 때문에 각 글자가 비슷한 코너의 모양을 가지는 문서 영상 인식에서는 좋은 성능을 발휘하지 못한다. 반면, LLAH 는 각 단어의 크기를 알아내어 가우시안 필터와 이진화를 통해 단어를 하나의 점으로 나타내고 각 점과 점 사이의 기하 관계를 기술자로 표현하기 때문에 문서의 단어에서 점이 일관되게 추출된다면 좋은 인식 성능을 발휘한다. 그러나, 영상에서 단어의 크기를 알아내는 작업은 계산 측면에서 많은 비용을 필요로 한다. 이에 본 논문에서는 LLAH 를 사용하기 전에 반복적인 가우시안 필터와 이진화를 적용하여 단어의 크기를 알지 못하는 상황에서도 스케일에 강인하게 문서 영상을 인식할 수 있는 알고리즘을 제안한다.
-
이전까지 많은 연구자들은 적응 신호처리(Adaptive Signal Process)를 이용한 잡음 제거 방법을 연구해 왔다. 그러나, 최근 발전하고 있는 멀티콥터는 프로펠러 모터의 RPM(Revolution Per Minute)이 실시간으로 변하기 때문에 적응 신호처리를 이용하여도 깔끔한 결과를 얻어 내기가 어렵다는 한계가 존재한다. 또한, 특정 주파수를 기준으로 형성되는 고조파(Harmonics)는 적응 알고리즘인 (N)LMS 를 이용한 예측에서 오차를 발생시키는 문제를 발생시킨다. 따라서, 본 논문에서는 멀티콥터를 이용한 음향 취득에 대한 소음 저감 방법으로 회전 속도계(Tachometer), 콤 필터(Comb Filter), NLMS 알고리즘(Normalized Least Mean Square Algorithm)을 이용한 방법을 제안한다.
-
카메라 캘리브레이션은 실제 세상인 3차원의 좌표와 카메라가 만든 영상의 2차원 좌표 사이에서 수학적 관계를 알기 위해서 필요하다. 보통 체커보드의 교점을 이용하여 2차원의 좌표를 정확하게 찾는데 사용하며, 이는 카메라 캘리브레이션 계산으로 응용된다. 따라서 체커보드의 교점을 정확하게 찾아야만 카메라 캘리브레이션이 정상적인 성능을 낼 수 있다. 현존하는 체커보드 검출 방법은 입력 인수를 많이 필요로 하거나 정확도가 낮아 체커보드의 교점을 정확히 입력하지 못하면 좋지 않은 결과가 나타난다. 따라서 체커보드를 자동으로 검출하여 카메라 캘리브레이션 하는 방법은 아직 신뢰도가 낮은 편이다. 본 논문에서는 보다 안정적인 카메라 캘리브레이션을 위해서 체커 보드의 검출 성능을 높이고자 한다. 주위 픽셀들간의 미분 값을 기준삼아 검출된 교점들을 이용하여 체크 모양의 직선을 추측한다. 이 직선을 이용하면 장애물이 있거나 노이즈가 있어서 검출하기 어려운 교점들이 있는 경우에도 교점 보간 (point interpolation) 방법을 사용하여 나머지 교점들을 찾을 수 있다. 보간 과정을 통해서 검출에 방해가 되는 요소들이 있는 상황에서 체커 보드 교점 검출의 성능을 높이도록 하였다.
-
본 논문에서는 일반 자연 영상에서 주로 적용되어 왔던 안개 제거 기법을 기반으로 하여 악천후 상황의 도로 주행 영상을 개선하는 방법을 제안한다. 악천후 상황이란 안개가 있거나 비, 눈이 오는 상황을 의미한다. 도로를 주행하는 환경에서는 비나 눈이 오는 경우에도 안개가 있는 상황과 비슷하기 때문에 안개 제거 기법을 기반으로 하여 악천후 환경의 영상을 개선한다. 우선 최신의 안개 제거 기법 중 하나인 non-local prior 기반의 기법을 도로 주행 영상에 적용 하였을 경우 문제점이 발생하게 되는데 그에 대한 원인을 분석한다. 그리고 이러한 문제점을 해결하기 위하여 예상된 전달량을 보정한다. 모의 실험을 통해 제안하는 방법을 적용하여 도로 주행 영상에서 발생한 문제점을 완화하고 악천후 상황이 개선된 결과를 얻었다.
-
In image dehazing, the existing transmission estimators bring out the halo artifact at boundaries unless they adopt a refinement process with the high computational complexity. We analyze how the existing transmission estimation methods suffer from the halo artifact at the boundaries and observed that the elaborate, high computational refinement processes to remove the halo effect are excessive for dehazing. On the basis of the analysis and observation, we embed a simple segmentation logic in an existing transmission estimator, which is sufficiently accurate for dehazing. The experiment verifies that the proposed method significantly reduces the halo artifact without requiring any refinement process.
-
Single image를 사용하여 안개양을 측정하는 방법으로는 소실점, 지평선의 local contrast를 측정하는 방법과 DCP의 빛 전 달양을 사용하는 방법이 있다. 하지만 local contrast를 사용하는 방법은 특정한 환경에서만 사용이 가능하고 DCP는 대기의 color와 비슷한 color를 가진 물체들이 많을 경우 사용하기 어렵다는 한계가 있다. 그래서 본 논문은 영상의 빛 전달양과 Local Contrast를 사용하여 다양한 contents를 가진 single image에서 안개양을 수치화하는 새로운 방법을 제시한다. 제시하는 방법은 DCP로부터 측정한 빛 전달량으로부터 안개일 가능성이 있는 빛 전달량 지역의 면적과 해당 지역에서의 Local contrast의 분포 정도를 측정하여 DoF를 계산한다.
-
조명이 객체에 균일하지 않은 세기의 빛을 제공하는 문제는 조명의 하드웨어 설계에서 해결해야 할 문제 중 하나였다. 본 논문에서는 객체가 받는 특정 조명의 세기가 균일하지 않은 영상을 균일한 밝기의 영상으로 보정하는 방법을 제안한다. 제안하는 방법은 밝기가 균일하지 않은 특정 조명에서 획득한 영상과 밝기가 균일한 일반 조명에서 획득한 영상을 이용한다. 우선 균일하지 않은 특정 조명에서 컬러필터나 다른 광원을 이용해서 특정 조명의 밝기를 기준으로 객체의 반사 스펙트럼을 복원한다. 복원한 반사 스펙트럼을 균일한 조명의 스펙트럼 특성으로 스펙트럴 재조명을 하여 두 영상간 밝기의 차이를 비교한다. 이 비교를 통해 특정 조명에서 획득한 영상의 밝기를 보정하고 보정 결과 비교를 통해 보정이 잘 되었음을 확인할 수 있다. 이 결과를 통해 특정 조명의 하드웨어 설계의 어려움을 줄일 수 있을 것으로 기대 된다.
-
최근 UHDTV 방송의 대두와 함께 방송 부가 서비스에 대한 관심이 높아지고 있다. ATSC 3.0, HbbTV, IBB 등 각 방송 표준 기구로부터 부가서비스에 대한 표준이 공표되고 있으며, 이 표준들은 공히 Companion Screen에 대한 내용을 포함하고 있다. Companion Screen은 사용자가 TV를 통하여 시청하고 있는 컨텐츠에 대한 부가 정보를 사용자의 스마트폰/태블릿으로 표시할 수 있어 방송 기반의 개인화 서비스 구현방법으로 각광받고 있다. 본 논문에서는 이러한 Companion Screen과 IoT 기기의 연동을 통한 서비스 구성 방법을 제시한다. IoT는 최근 급격한 발전을 거듭하고 있으며 다양한 제품군의 출시도 지속적으로 이루어지고 있다. 이러한 IoT를 Companion Screen과 연계하여 활용함으로써, 방송과 통신을 연계하는 신규 서비스의 구성이 가능할 것으로 예상된다. 본 논문에서 제시하는 서비스 구성 기법은 방송에 내제된 부가 정보 기반의 IoT 제어를 Companion Screen을 통하여 구성할 수 있도록 한다.
-
기술의 발전으로 방송환경이 다양화되면서 전문가가 아니어도 단순한 제작 환경에서 직접 콘텐츠를 제공할 수 있는 개인 방송 산업 규모가 점차 증가하고 있다. 그로 인해 개인 방송 제작자들은 필요에 의해 선택적으로 최적의 시스템을 구성하기 위한 기술들을 요구하고, 개인 방송 시청자들은 PC뿐만 아니라 모바일 등의 선호하는 디스플레이 장치를 선택하여 언제 어디서나 시청하는 것을 원한다. 이를 위해서는 제작자와 시청자를 고려한 개인방송 서비스 모델 및 기술을 제공하는 것이 필요하다. 이에 본 논문에서는 IP 네트워크 및 클라우드 컴퓨팅 환경을 활용하여 제작에서부터 전송 및 표출에 대한 전체적인 시스템 기술과 서비스 모델에 대해 논한다.
-
미디어 이용 패턴이 TV 에서 다양한 스마트 기기로 넓어지고 있으며, 인터넷이 가능한 환경에서 광범위한 미디어 콘텐츠 제공이 가능하다. 최근에는 실감형 콘텐츠를 위해 360도 카메라와 이를 제어하는 방식들이 소개 되고 있다. 하지만 이러한 기술들을 활용해 더 많은 콘텐츠를 생성하기 위해서 콘텐츠의 특성을 고려한 실감 시청 체험 기술 서비스의 제공이 필요하다. 본 논문에서는 실감 시청 체험을 극대화할 수 있는 개인방송용 실감형 콘텐츠 제작 기술 서비스에 제안한다. 사용자와 상호작용이 가능한 실감 미디어 서비스를 제공하기 위해 카메라들의 배치, 뷰포인트 선택, 다양한 시청체험을 가능하게 할 파라미터 종류들을 정의한다. 본 연구를 통해 다양한 유형의 실감형 개인방송 콘텐츠를 제공할 수 있을 것으로 기대된다.
-
본 연구는 사행산업의 분야인 복권, 체육진흥투표권, 경마, 카지노에 대해 언론에서는 어떻게 다루어지고 있는지를 1990년부터 2015년까지의 뉴스데이터를 빅데이터 분석 방법 중 테스트의 의미연결망 분석을 통해 밝혀보고자 하는 연구이다. 이 논문은 의미망 분석을 통해 기사의 빈도와 연결성을 프레이밍과 시민관심 정도로 재조명 하여 기사에 대한 언론보도자의 의도와 시민의 인식차이를 밝혔고, 이를 통해 정책적 특성과 개혁과제를 탐색하였다. 분석결과 복권의 경우 당첨번호, 당첨금, 조작의혹 등 당첨에 대한 부분이 주제인 '사회문제' 형태였으며, 체육진흥투표권의 경우에는 사업입찰, 불법사이트, 발매대상 등 주로 사업추진과 불법사이트에 대한 '의무정보' 종류였고, 경마의 경우 사업장, 홍보, 기사 등으로 사업홍보나 광고 관련 뉴스이었고, 마지막으로 카지노의 경우에는 불법, 도박장, 외국인 등 '주요정보'에 해당하는 논문이었다. 시대에 따라 1990년대에는 카지노, 2000년대에는 복권, 2010년대에는 경마에 대한 기사보도가 많아졌으며, 이에 대한 시민의 반응도 사업비리, 당첨, 시민운동 등의 차이가 있었다. 마지막으로 기사의 빈도와 연결성이 나타내는 프레이밍 정도와 시민의 관심은 '1. 홍보광고, 2. 의무정보, 3. 사회이슈, 4. 주요정보' 네 가지로 구분되었으며 이 중 사고, 비리 등 주요기사로 구분되는 사회문제가 주요 공공의제로 형성되는 것을 확인할 수 있었다.
-
본 논문에서는 안드로이드 환경에서 글자 인식을 위한 전처리 과정으로 입력 영상에서 글자 영역만을 추출하는 기법을 제안한다. 대부분의 글자 인식 어플리케이션에서 글자를 인식하는 방법은 RoI(Region of Interest)에 인식하려는 글자를 위치시켜 놓고 사용자가 촬영함으로써 진행된다. 하지만 촬영된 영상 그대로를 인식에 사용하기 때문에 잡음 및 글자가 아닌 영역들을 글자로 인식하는 문제 등으로 인하여 인식률이 현저히 떨어진다. 제안하는 기법에서는 MSER(Maximally Stable Extremal Regions) 기법을 통해 각각의 글자를 추출한 후, 글자의 특성을 이용하여 글자 영역만을 추출한다. 기법의 성능 평가는 무료 OCR(Optical Character Recognition) 엔진인 Tesseract-OCR을 통해 글자 인식률을 비교하였으며, 제안하는 기법을 적용한 글자 인식 시스템이 적용하지 않은 시스템보다 글자의 인식률이 향상되는 것을 확인하였다.
-
최근 RGB LED 조명은 다양한 장점으로 이를 활용한 연구가 진행되고 있으며 단순 조명이 아닌 정보전달 및 공간연출의 디자인적 요소의 역할을 이행하기도 한다. RGB의 혼합으로 다양한 색상이 표현 가능한 LED를 사용하여 개별적으로 LED를 제어해 여러 가지 색상 및 모양이 표현 가능한 LED 도트 매트릭스를 제작하였으며, 이를 활용해 다양한 콘텐츠를 출력하고자 한다. 다양한 모양의 콘텐츠에선 개별적으로 LED를 제어하고, 그 외의 콘텐츠에선 원하는 LED를 그룹지어 제어한다. 본 논문에서 제작한 LED 도트 매트릭스는 많은 정보를 전달 할 수 있으며, 다양한 콘텐츠 제공으로 인한 상업화 및 효율성의 확대를 꾀할 수 있다.
-
전 세계적으로 효율이 높은 LED 조명이 각광 받기 시작하면서 기존의 조명보다 에너지 효율이 높은 LED 조명을 보다 효율적으로 사용하기 위한 다양한 방법들에 대한 관심이 높아지고 있다. 이에 본 논문에서는 기존의 스위치 구조의 제품을 분석하여 한계점을 파악하고, 사용자가 스위치를 교체하는 단순한 방식으로도 스마트 조명을 경험 할 수 있도록 LED조명을 효율적으로 사용하기 위한 벽면형 스위치 구조를 디자인 하고자한다.