Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2018.06a
-
최근 360 도 가상현실을 지원하기 위한 비디오 시스템은 다양한 프로젝션에 대한 처리를 필요로 한다. 이를 위해 Moving Picture Experts Group (MPEG) 비디오 표준화 기술은 비디오에 대한 추가적인 정보들로 프로젝션을 처리하는 기술을 표준 채택하였다. 즉, 다양한 프로젝션의 비디오에 대응하는 비디오 메타데이터 처리를 H.265/HEVC(High Efficiency Video Coding)에서 제안된 Supplemental Enhancement Information(SEI) 메세지를 사용하여 지원한다. 본 논문은 비디오의 인코딩, 디코딩 시에 비디오 프로젝션 타입에 따라 다르게 처리하는 시스템의 구현 기술을 소개한다. 이를 위해 본 논문은 SEI 메시지 구문 분석기를 구현 시 HEVC Test Model(HM)을 이용하고, 디코더 구현 시 FFmpeg 라이브러리를 이용한다. 최종적으로 구현된 시스템은, 본 기관의 또 다른 구현 물인 실시간 360 비디오 플레이어에 통합되어 실시간 디코딩 및 다양한 프로젝션의 전/후처리를 문제 없이 지원하였다.
-
지능형 자동차는 역사가 깊은 연구 분야이다. 과거에는 낮은 하드웨어 성능에 맞추기 위하여 복잡한 알고리즘을 경량화하면서 성능을 유지하고자 하는 제한적인 연구들이 주로 이루어졌으나, 최근 하드웨어 성능이 높아지면서는 다양한 알고리즘 적용이 가능해졌기 때문에 매우 활발하게 연구되는 분야가 되었다. 본 논문은 차량의 주행 특성을 반영한 움직임 벡터 필드 모델링을 수행하고, 이 모델 값과 실제 추정된 움직임 벡터와의 차이를 이용해서 차량의 후보 영역을 검출하는 객체 영역 검출 알고리즘을 제안한다. 제안하는 움직임 벡터 필드 모델링 기법은 기존의 움직임 벡터 추정 기법에 비해 계산량이 적고, 음영 영역이나 밝기가 포화된 영역에서도 움직임 필드를 모델링해낼 수 있는 장점이 있어서 상용화된 블랙박스에 적용이 가능하다.
-
자동차에서 전장부품이 차지하는 비중이 증가하고 있다. 그런데 전장부품이 증가하면서 전자제어장치의 오작동으로 인한 사고 및 인명손실의 위험이 커졌다. 자동차 환경에서 발생하는 진동, 열기, 습기, 전자파를 차단하여 전장부품의 안정성을 확보와 위험을 최소화하기 위해 자동차 OEM에서는 Conformal Coating 기술을 적용하는 것이 일반적이다. Conformal Coating된 PCB 회로의 신뢰성을 높이기 위해서는 코팅 과정에서 발생하는 기포를 억제해야 한다. 그럼에도 불구하고 기포가 발생한 경우에는 해당 PCB를 폐기하는 것이 중요하다. 본 논문에서는 코팅된 PCB에서 발생한 기포를 자동으로 검사하기 위한 전처리 과정으로서 검사 소자의 경계면과 평탄면 영역을 추정/분할하는 영상처리 알고리즘을 제안한다. 코팅 기포의 특성이 소자의 경계면과 평탄면에서 매우 다르게 나타나므로 효율적인 기포 검출을 위해서 영역 분할은 필수적인 전처리 과정이다.
-
본 논문에서는 실시간 고화질 360 영상 전송을 위해 사용자 시점에 기반한 타일 분할 기법을 적용하고 360 영상을 가상현실 기기 화면에 표현하여 주관적 화질 평가를 위한 플랫폼을 구현한다. 사용자 시점에 기반한 고화질 360 영상 전송을 위한 방안으로, 분할된 영상에서 전송되지 않은 영상으로의 움직임 참조 문제를 해결하기 위해 적용된 MCTS (motion constrained tile sets) 기술과 실시간으로 사용자 시점에 위치한 타일들만 추출할 수 있도록 미리 구성된 타일 정보들을 포함하는 EIS (extraction information sets) SEI, 사용자 시점에 위치한 타일 정보만 추출해내고 영상을 분할 및 추출해주는 Extractor, 실제 추출된 영상 정보를 이용해 가상현실 기기 화면에 표현하는 방법에 대한 구현 내용을 설명한다. 따라서 제안된 구현물을 기반으로 고화질 360 영상 전송을 수행하면, 사용자 시점 영역의 영상만 전송하여 불필요한 영상 전송을 하지 않게 되어 화질 대비 낮은 대역폭의 향상된 실시간 전송 영상을 얻을 수 있다.
-
본 논문에서는 시장규모가 점진적으로 커지고 있는 VR의 콘텐츠 제작에 있어서 전방위 영상 생성을 위해 촬영한 영상들을 스티칭하는 데 소요되는 연산량을 감소시키는 방법을 제안한다. 제안하는 방법은 널리 사용되는 SIFT의 알고리즘에서 가장 많은 연산을 차지하는 가우시안 피라미드 생성 부분을 파라미터를 조절하여 감소시키고, 이를 통해 얻은 점들을 스티칭하는데 사용하여 영상을 합성하는 방법이다. 영상에 대한 평가는 변환에 의한 점들의 평균오차를 계산하여 유효성을 판단한다.
-
본 논문에서는 실외 영상에서의 새로운 접근 방식의 복합 조명 알고리즘을 제안한다. 기존의 복합 조명 알고리즘들이 동시에 두 조명을 추정하는 것에 비해 제안 알고리즘은 먼저 단일 조명 기법을 적용하여 첫번째 광원의 색을 추정한 후에 각 영역에서 유사 패치 쌍을 찾아 두번째 광원의 색을 추정하는 방식이다. 일반적인 복합 조명 환경에서는 적용하기 힘들지만 환경을 실외로 제한하여 실외의 광원인 햇빛과 그늘 사이의 관계를 이용하여 효과적으로 유사 패치를 찾아 두 광원의 색을 추정한다. 따라서 실외 환경을 촬영하여 얻은 raw 파일 영상에 제안 알고리즘을 적용하여 효과적으로 광원들의 영향을 제거할 수 있다.
-
행렬의 rank 최소화 기법은 영상 잡음 제거, 행렬 완성(completion), low rank 행렬 복원 등 다양한 영상처리 분야에서 효과적으로 이용되어 왔다. 특히 nuclear norm 을 이용한 low rank 최소화 기법은 convex optimization 을 통하여 대상 행렬의 특이값(singular value)을 thresholding 함으로써 간단하게 low rank 행렬을 얻을 수 있다. 하지만, nuclear norm 을 이용한 low rank 최소화 방법은 행렬의 rank 값을 정확하게 근사하지 못하기 때문에 잡음 제거가 효과적으로 이루어지지 못한다. 본 논문에서는 영상의 잡음을 제거 하기 위해 다중 잡음 제거 영상을 이용하여 유사도가 높은 유사 패치 행렬을 구성하고, 유사 패치 행렬의 rank 를 non-convex function 을 이용하여 최소화시키는 방법을 통해 잡음을 제거하는 방법을 제안한다.
-
본 논문에서는 그래프 간 정합을 이용한 포인트 클라우드 시퀀스 압축 기법을 제안한다. 우선, 그래프를 활용하여 포인트 클라우드 시퀀스의 시변하는 기하학적 구조를 표현하고, 그래프로부터 웨이블릿 변환을 사용하여 추출한 특징 벡터를 매칭하는 방법으로 인접 프레임 간 움직임 예측을 수행한다. 그리고 움직임 예측을 통해 얻은 움직임 벡터 중 정합 점수가 높은 소수의 움직임 벡터를 보간하여 프레임 전체의 움직임 필드를 얻는다. 최종적으로 움직임 정보를 활용하여 얻은 예측 프레임과 타겟 프레임의 차이를 선택적 엔트로피 부호화 방식으로 코딩하여 포인트 클라우드 시퀀스 압축을 수행한다. 실험 결과 제안하는 기법이 3D 포인트 클라우드 시퀀스를 효과적으로 압축함을 확인할 수 있다.
-
본 논문은 최신 가상현실 미디어 기술동향과 다양한 분야에서 시도해 온 VR 멀미저감 방안을 리뷰하여, 가상현실 사용자의 인지적 수용성을 높이는 방안에 대해 논의하였다. 이를 통해 최신 미디어 기술의 사용자 가치제안 방식을 분석하고 Social VR 플랫폼의 인지적 수용성을 개선하는 효율적 방안을 제안하였다. 생체신호 모니터링, VR 콘텐츠 적합도 분석, 멀미 메커니즘 조절, 신체동요측정 기반 멀미예측 등 다양한 멀미저감 방식 중 개발 비용과 사용자 수용성 측면에서 가장 효율적인 신체동요측정 기반 멀미예측 기술의 사전테스트 결과를 소개하고 적용 방안을 구체화하였다. 가상현실 체험 전 미세한 신체동요가 많은 사용자일수록 VR 멀미 민감도가 크게 증가하는 것을 확인하였다. 개인의 멀미민감도를 반영하는 본 측정 결과를 다양한 가상현실 환경에서 테스트하고 개인특성에 따른 VR 멀미 데이터베이스를 구축한다면 AI 기반의 멀미 예측기술을 구현하는데 크게 기여할 것으로 예상된다.
-
본 논문에서는 전이중 통신 방식을 사용하는 DOCSIS 3.1 시스템의 자기간섭 제거를 위한 자기간섭신호의 채널 및 비선형 왜곡 요소를 추정하는 기술을 제안한다. DOCSIS 3.1 시스템의 전이중 통신 방식은 일반적으로 가입자 단말인 CM (Cable Modem) 과 케이블방송신호 송신 시스템인 CMTS (Cable Modem Termination System) 사이의 상하향 통신을 시간/주파수의 분할 없이 동시에 수행하는 통신 방식이다. CMTS 에서 CM 의 신호를 수신함과 동시에 CMTS 신호를 송신하는 경우 고출력의 CMTS 송출신호가 CMTS 의 수신기로 인가되는 자기간섭 현상이 발생하게 된다. 이렇게 인가되는 자기간섭신호는 고출력 증폭기 (HPA: High - Power Amplifier) 및 Feedback 채널의 영향으로 크게 왜곡되어 수신된다. 따라서 자기간섭신호를 제거하고 CM 의 신호를 원활하게 복조하기 위해서는 자기간섭신호의 왜곡 요소룰 추정 및 보상하는 절차가 반드시 필요하다. 본 논문에서는 자기간섭신호의 HPA 에서 발생하는 비선형 왜곡 요소 및 Feedback 채널의 영향으로 발생하는 채널 요소를 추정하는 기술을 제안하고 성능을 분석한다. 제안된 기술은 간단한 연산기반으로 왜곡요소의 추정이 가능하며 반복추정을 통해 성능을 효과적으로 향상시키는 것이 가능하다.
-
최근 유무선 트래픽의 지속적인 증가에 대응하기 위해선 가입자 네트워크의 양적 확충은 물론, 새로운 인터넷 기술을 개발하고 그 구조를 재설계하는 등의 투자가 이루어지고 있다. 특히 차세대 미디어 서비스 등의 인터넷 수요 및 대역폭에 대한 요구가 증가로 인하여 가입자 망 진화의 필요성이 계속해서 이야기되고 있다. 정부에서는 10기가 인터넷 상용화를 목표로 '10기가 인터넷 상용화 촉진 선도 시범 사업'을 추진하고 있으며, KT와 SK브로드밴드 등 주요 통신사에서도 10Gbps 인터넷 상용화를 추진하고 있다. 이에 케이블 사업자도 인터넷 경쟁력 확보를 위해 HFC망 진화 방안에 대한 연구가 필요하다. 우선 상하향 10Gbps 전송이 가능한 DOCSIS 3.1 도입을 위해 망 장비 교체나 업그레이드 없이 주파수 확보가 이루어 져야 하며, 상향 전송 속도 확대를 위해 북미에서 표준화 진행중인 FDX(Full-Duplex) DOCSIS 도입을 위해 망 구조를 개선해야 한다.
-
최근 미디어 소비 환경은 지상파 방송과 같은 Mass Media 중심에서 모바일, Multi Device 기반의 개인화 서비스 위주로 변화하고 있다. 이에 따라 국내외 다양한 유료방송사, 통신사, 지상파 방송 사업자들은 변화하는 미디어 소비환경에 유연하게 대응할 수 있는 차세대 방송 플랫폼 도입을 위한 연구를 진행하고 있다. 이에 본 논문은 케이블TV 방송사업자가 변화하는 미디어 소비 환경에 유연하게 대처할 수 있는 IP기반 방송 플랫폼에 대해 연구하였다. 이를 위하여 실감 미디어 제공을 위한 양방향 미디어 전송 환경의 연구와 MPEG의 차세대 미디어 전송을 위한 표준화 현황을 알아보고, IP기반의 방송 플랫폼의 필요성 그리고 플랫폼의 구조에 대하여 설계 하였다.
-
최근 광 기반의 디지털 케이블 방송망에서 기존 케이블 방송 전송 방식 변경 없이 양방향 스마트 미디어 연동을 위한 기술이 개발되고 있다. 그 중에 RoIP(RF-Signal over IP) 기술은 저가형 보급 장치의 형태로 개발함으로써 광 동축 접점에서 망의 진화를 용이하게 하여 망 설비의 재투자 없이 보급을 실현할 수 있다. RoIP 단말을 저가형 보급 장치로 제작하기 위하여 RF 버스트 신호 감지 및 처리 기술은 하드웨어 로직 사용량을 줄이고 복잡도를 감소시킬 수 있도록 구현되어야 한다. 따라서 본 논문에서는 케이블 방송 시스템을 설계하고 하드웨어 로직 사용량을 줄이면서 복잡도를 감소시키는 구현 방안에 대하여 제안한다.
-
텍스트 문서 영상으로부터 단어를 검출하고, LLAH(locally likely arrangement hashing) 알고리즘을 이용하여 이웃 단어 사이의 기하 관계를 표현하는 특징 벡터를 계산한 후, 특징 벡터를 비교함으로써 텍스트 문서를 효과적으로 인식하거나 검색할 수 있다. 그러나, 이는 문서 내 각 단어가 정확하고 강건하게 검출된다는 전제를 필요로 한다. 본 논문에서는 텍스트 내 각 라인을 검출하고, 각 라인 내에서 단어 사이의 간격과 글자 사이의 간격을 깊은 신경망(deep neural network)을 이용하여 학습하고 분류함으로써, 보다 카메라와 텍스트 문서 사이의 거리나 방향이 동적으로 변하는 조건에서 각 단어를 강건하게 검출하는 방법을 제안한다. 모바일 환경에서 제안된 방법을 구현하였으며, 실험을 통해 단어 사이의 간격과 글자 사이의 간격을 92.5%의 정확도로 구별할 수 있으며, 이를 통해 동적인 환경에서 단어 검출의 강건성을 크게 개선할 수 있음을 확인하였다.
-
본 논문에서는 로봇 매니퓰레이터의 순방향 기구학 학습에 있어서 로봇의 비용적인 측면으로 인하여 실재 로봇 매니퓰레이터를 교보재로 사용하여 실습을 하기에 제한되는 환경과 교재만으로 학습하는 제한된 환경에서 학생들이 이해하는 것 뿐만 아니라 검증이나 실험을 하기가 어려운 점을 개선하기 위해서 증강현실 기반의 시뮬레이터를 제안한다 로봇 기구학에서는 주로 교재를 사용하는데 실재로 존재하는 모델보다 회전 관절(revolute joint)과 병진 관절(prismatic joint) 모형의 조합으로 모델링한다 관절의 모형을 일종의 증강현실의 마커로 사용하여 교재에서 제안하는 모델에 더해서 개인이 조합한 모델 또한 실습이 가능하도록 하는 증강현실 시뮬레이터를 제안한다.
-
This paper focuses on human activities monitoring problem using onboard smartphone sensors as data generator. Monitoring such activities can be very important to detect anomalies and prevent disease from patients. Machine learning (ML) algorithms appear to be ideal approaches to use for processing data from smartphone to get sense of how to classify human activities. ML algorithms depend on quality, the quantity and even more important, the properties or features, that can be learnt from data. This paper proposes a mobile virtual reality visualization system that helps to view data representation in a very immersive way so that its quality and discriminative characteristics may be evaluated and improved. The proposed system comes as well with a handy data collecting application that can be accessed directly by the VR visualization part.
-
본 논문에서는 2017 년 1 월 24 일~2018 년 2 월 25 일까지 5 개 지상파에서 방송된 총 957 개의 화면해설방송 콘텐츠를 사용하여, 시각장애인의 방송시청을 위해 제공되는 화면해설방송에 있어서의 실제 방송프로그램내의 각 장르별 화면해설방송의 편성비율, 시청시간대별 편성현황과 화면해설방송에 포함되어 있는 화면해설오디오의 비율을 정량적으로 분석하였다.
-
본 논문에서는 음악 장르 분류를 위한 시간 및 주파수 기반 스파이크그램 특성 추출 기술을 제안한다. 기존의 음악 장르 분류 시스템에서는 푸리에 변환 기반의 입력 특성을 주로 사용해 왔다. 푸리에 변환은 시간 축에서 프레임 단위로 평균적인 주파수 정보를 취하므로 낮은 시간 해상도를 갖지만, 스파이크그램은 샘플 단위의 주파수 정보를 갖고 있어 고해상도의 특성을 추출할 수 있다. 제안하는 기술은 이러한 시간 기반 특성을 추출하여 주파수 기반 특성 및 SNR 특성과 함께 심층 신경망의 입력으로 사용한다. 제안하는 특성을 사용하여 시간 기반 특성을 사용하지 않은 기존 스파이크그램 특성 기반 분류기의 성능을 개선하였으며, 다른 특성 및 분류기에 비해 적은 수의 특성 입력으로도 우수한 성능을 얻는 것을 확인하였다.
-
본 논문에서는 조건부 오토 인코더를 사용하여 오디오 고대역 신호를 부호화 하는 기술을 제안한다. 오토 인코더의 데이터 압축 특성을 이용하여 부호화를 위한 데이터의 양을 크게 줄인다. 제안하는 알고리즘은 기존의 오토 인코더와 달리 과거의 정보가 포함된 2차원 조건을 함께 입력하여 오토 인코더가 코딩 프레임의 고대역을 복원하는 것을 돕도록 한다. 2차원 조건과 입력을 압축하여 연결한 후 디코딩하여 코딩 프레임의 고주파 대역을 만든다. 제안하는 방법을 사용하면 저대역 MDCT 계수와 고대역 MDCT 계수를 오토 인코더로 압축한 결과만으로 원본과 유사한 음질을 청취할 수 있다.
-
본 논문에서는 스펙트로그램을 이용하여 딥 러닝 기반으로 오디오 장르와 품질의 다중 정보를 동시에 분류하는 기술을 제안한다. 기존 딥 러닝 기반의 오디오 정보 인식 기술은 각각의 정보 인식을 목표로 독립 네트워크를 설계하고, 여러 정보를 동시에 인식하기 위하여 각각에 특화된 여러 네트워크를 사용한다. 이러한 문제점을 보완하기 위해 본 논문에서는 디지털 오디오의 대표 특성인 스펙트로그램을 기반으로 범용성이 있는 특성을 추출하고, 단일 네트워크로 학습시켜 장르 및 품질을 동시에 분류하는 다중 분류 기술을 제안한다. 제안하는 방법으로 단일 분류 성능과 유사한 다중 분류 성능을 얻을 수 있다.
-
본 논문에서는 넓은 동적 영역 (High Dynamic Range: HDR) 영상의 실시간 처리 방법을 제안한다. HDR 영상은 사람의 눈으로 볼 수 있는 자연 영상과 가깝지만 대부분의 디스플레이 기기들은 좁은 동적 영역 (Standard Dynamic Range: SDR)의 영상 출력만을 지원한다. 이러한 동적 영역의 차이를 사람의 시각 특성을 고려하여 축소하기 위해서는 톤 매핑 기법 (Tone Mapping Operator: TMO)을 수행하여야 한다. 하지만 기존의 이미지 톤 매핑 기법을 실시간 영상에 적용할 경우 영상의 실시간 처리, 플리커링 현상을 해결하는데 어려움이 있다. 본 논문에서는 k-means 클러스터링 기법을 사용하여 플리커 현상에 강인하고 실시간 비디오 톤 매핑이 가능한 알고리듬을 제안한다. 제안하는 알고리듬은 동적 계획법 (Dynamic Programming)을 통해 빠른 전역 해를 찾는 것이 가능하고 세부영상 향상 (Detail Enhancement)의 실시간 처리가 가능함을 보였다.
-
In this paper, we propose a contrast enhancement algorithm using guided image filter (GIF). The GIF is used to divide an HDR image into a base layer and a detail layer. The energy scale of base layer determinate the darkness and brightness of the image. However, the detail information in the base layer is difficult to be displayed because of the high brightness and clusters of low brightness. We propose a contrast enhancement method by adjusting the gray level of base layer by subtracting the mean value of itself. It is combined with the detail layer to preserve the detail information. Experiment results show that the proposed algorithm has better performance in detail preservation and contrast enhancement.
-
Recently, a convolutional neural network (CNN) models at single image super-resolution have been very successful. Residual learning improves training stability and network performance in CNN. In this paper, we compare four convolutional neural network models for super-resolution (SR) to learn nonlinear mapping from low-resolution (LR) input image to high-resolution (HR) target image. Four models include general CNN model, global residual learning CNN model, local residual learning CNN model, and the CNN model with global and local residual learning. Experiment results show that the results are greatly affected by how skip connections are connected at the basic CNN network, and network trained with only global residual learning generates highest performance among four models at objective and subjective evaluations.
-
국내에서는 세계최초로 2017 년에 지상파 UHD 본방송 서비스가 시작되었다. 지상파 UHD 방송은 ATSC 3.0 표준을 기반으로 고정 4K UHD 및 이동 HD 의 동시서비스가 가능하다. 기존의 DTV 와 이동방송인 지상파 DMB 를 대체하여 4K UHD 와 이동 HD 방송을 한 개의 주파수 대역에서 통합한 UHD 모바일 서비스가 가능하게 되었다. UHD 모바일 시범서비스를 앞두고 ATSC 3.0 송수신 시스템을 구축하여 실방송 환경에서 필드테스트 결과를 살펴보고 미래의 이동방송 서비스에 대해 전망해보고자 한다.
-
본 논문은 홀로그램 기술개발에서 사용되는 다양한 광학적 계산이나 알고리즘 구현에 필요한 컴퓨터 프로그래밍 라이브러리를 위해 개발되는 홀로그래피 오픈소스 라이브러리(오픈홀로)에 대한 소개이다. 오픈홀로는 오픈 소스로서 소스코드 공개의 의무가 없고, 상업적 제한이 전혀 없는 BSD 라이센스 정책을 따른다. 이러한 Openholo의 주목적은, 홀로그램 전문가뿐만 아니라, 초보자나 일반인들도 이를 활용하여 홀로그램의 광학적 특성을 시뮬레이션하거나, 홀로그래픽 콘텐츠를 제작할 수 있도록, 관련된 알고리즘과 광학적 수치 계산을 위한 프로그래밍 라이브러리를 오픈 소스화 하는 것이다.
-
학술대회에 발표된 논문은 이동형 저장장치 혹은 학회 홈페이지를 통해 배포된다. 이용자가 저자의 설명 없이 배포된 논문만으로는 내용을 이해하는 데에 한계가 있다. 이러한 한계를 해결하고 더 나아가 언제 어디서든 설명을 들을 수 있는 환경을 제공하기 위해 웹 기반으로 MPEG-DASH 기반의 학술대회 중계용 가상 포스터세션 서비스를 제안한다. 제안하는 서비스는 포스터 발표자의 영상을 가상공간에 배치하고 이를 MPEG-DASH 기반으로 전송한다. 가상공간은 구글의 WebVR API을 응용해 구현하여 별도의 프로그램 설치 없이 웹 기반으로 이용할 수 있으며 MPEG-DASH 기반의 전송을 통해 효율적인 대역폭 활용이 가능하다. 본 서비스를 통해 논문의 내용을 효과적으로 전달할 수 있을 것이며 새로운 학술대회의 패러다임 제시가 가능할 것으로 예상한다.
-
본 논문에서는 ATSC 3.0 기술을 적용하여 모바일 방송에 대한 서비스 가이드를 제공함에 있어서 이동 환경의 시청자에게 음성 입력을 적용하여 편리하게 안내하는 방법을 제안하고자 한다. 구체적으로는, ATSC 3.0 Service Announcement 규격에 음성 입력 및 주어진 입력에 반응하여 해당 서비스 정보로 천이하여 음성 또는 화면으로 안내하기 위한 엘리먼트를 추가로 정의하였다. 본 엘리먼트는 기존 엘리먼트에 호환성을 유지하도록 추가되어 기존 전송 방식과 동일하게 전달되어 단말에서 처리된다.
-
TV홈쇼핑 프로그램 구성 요소 중 하나인 Call to action(자료화면 구간)에서 콘텐츠관리시스템 CMS(Contents Management System)가 도입되며 기존 생방송에 활용하던 서버를 외에 Taker라는 장비가 추가되어 방송에 활용된다. Call to action은 방송 전 제작된 자료 외에 생방송 중 녹화 된 자료들이 같이 복합적이며 연속적으로 재생되는데 이 시점에 문제점이 발생했다. 본 논문에서는 홈쇼핑 생방송에서의 Taker장비의 활용 필요성과 문제점 및 개선점을 제시 하고자 한다.
-
최근 딥 러닝의 발전과 함께 보행자 검출 기술의 성능이 발전하면서 다양한 분야에서 응용되고 있다. 영상 내 보행자의 위치나 움직임을 파악함으로써 위험 지역이나 보안 지역에 접근하는 보행자를 찾아낼 수 있다. 일반적인 딥 러닝 기반의 물체 검출기는 멀리 있는 보행자와 같은 작은 물체를 검출 하는 데에 적합하지 않다. 또, 검출을 수행하기 위해서 큰 계산량을 필요로 하기 때문에, 동영상의 매 프레임 마다 수행하기 부적합 하다는 단점이 있다. 본 논문에서는 작은 물체도 잘 검출할 수 있도록 기존 YOLO 네트워크의 구조를 변경하고, 보행자 데이터를 이용하여 추가로 학습함으로써 보행자를 검출하는 성능을 증가시켰다. 그리고 검출한 보행자들에 대해 추적 기법을 이용함으로써, 동영상의 매 프레임 마다 검출을 수행하는 것을 피할 수 있도록 하였다. 실제로 DukeMTMC Dataset을 이용하여 실험을 해본 결과, YOLO 네트워크의 구조를 변경하고 추가 학습을 함으로써 검출 정확도가 개선되는 것을 확인할 수 있었다. 또, 추적 기법을 이용했을 때, 성능이 크게 떨어지지 않으면서 검출 속도를 개선할 수 있는 것을 확인할 수 있었다.
-
AV 방송프로그램 위주의 지상파 UHDTV 본 방송서비스가 시작된 이례로, 브로드밴드 망을 통한 다양한 융합 서비스 제공에 대한 요구사항이 증가하고 있다. 이러한 서비스 모델의 일환으로 정규 방송스케줄로 인하여 빨리 종료되는 스포츠 경기를 브로드밴드 망을 통하여 이어보는 서비스가 등장하고 있다. 이러한 서비스를 이용 시에 다수가 공동으로 시청한다는 TV 단말의 한계를 극복하고자 컴패니언 단말로의 이어보기 서비스를 제공하는 표준 기술을 본 논문에서 제안한다. 제안한 기술이 지상파 UHDTV 방송서비스의 활성화 및 신규 서비스 모델 발굴에 도움이 될 것을 기대한다.
-
Handwritten letter recognition is important for numerous real-world applications and many topics like human-machine interaction, education, entertainment, and more. This paper describes the implementation of a real-time handwritten letters recognition system on a common embedded computer. Recognition is performed using a customized convolutional neural network, which was designed to work with low computational resources such as the Raspberry Pi platform. The experimental results show that the proposed real-time system achieves an outstanding performance in the accuracy rate and the response time for recognition of twenty-six handwritten letters.
-
본 논문에서는 다수의 1 차 사용자가 존재하는 무선 인지 중계 네트워크를 분석한다. 다수의 1 차 사용자들의 신호는 2 차 사용자에게 간섭으로 작용하고 2 차 사용자들의 신호 또한 1 차 사용자에게 간섭으로 작용하게 된다. 이러한 환경에서 불완전한 채널 정보를 이용하여 최적의 중계기를 선택하는 방법을 제안하고 이때의 2 차 사용자 네트워크에서의 불능 확률을 분석하였다. 또한 모의실험을 통하여 불완전 채널 정보의 상관 계수의 변화에 따른 불능 확률의 변화를 확인하였다.
-
We propose a novel high dynamic range (HDR) video synthesis algorithm using alternatively exposed low dynamic range (LDR) videos. We first develop a superpixel-based illumination invariant correspondence estimation algorithm. Then, we propose a reliability weight to further improve the quality of the synthesized HDR frame. Experimental results show that the proposed algorithm provides high-quality HDR frames compared to conventional algorithms.
-
가상 현실을 위한 360 영상 비디오 전송기술이 활발히 연구되고 있다. 그러나 현재 가상현실 기기의 컴퓨팅 연산능력과 대역폭은 고화질 360 영상을 재생하기에 한계가 있다. 이 한계를 극복하기 위해 본 논문은 High Efficiency Video Coding (HEVC)와 Scalability Extension of HEVC (SHVC)를 활용하여 타일 기반의 360 도 영상 전송 기법을 제안한다. 제안하는 HEVC 와 SHVC 인코더는 타일을 독립적으로 전송 할 수 있는 비트 스트림을 생성한다. 제안하는 추출기는 사용자 시점에 해당하는 타일의 비트 스트림을 추출한다. 제안하는 기법에 의해 추출된 SHVC 비트스트림의 기본계층은 전체화면을 나타내며, 강화계층은 사용자 시점에 해당하는 타일로 구성된다. 제안하는 HEVC 인코더를 사용할 때에는 저화질과 고화질을 따로 인코딩하여 고화질만 사용자 시점에 해당하는 타일을 추출한다. 전체화면을 고화질로 보내는 대신에 전체화면을 저화질로, 사용자화면을 고화질로 보내기 때문에 제안하는 기법은 디코더의 컴퓨팅 연산과 네트워크 bitrate 를 대폭 줄일 수 있다. 본 제안 기법의 실험 결과는 전체화면 전송 대비 47%이상의 bitrate 를 줄인다.
-
최근 초고화질 영상뿐만 아니라 360 비디오 콘텐츠의 보급이 확산되고 있다. 이미 대중적으로 보급된 스마트폰을 통해 누구나 쉽게 이 360 비디오 콘텐츠를 접할 수 있는데, 스마트폰의 성능은 제한적일 수 밖에 없다. 따라서 본 논문은 모바일 VR 에서 360 비디오 병렬처리를 수행할 때 보다 적합한 최적화 방법 2 가지를 소개한다. 이를 위해 전력 소모를 줄이는 장점으로 인해 모바일 디바이스에 많이 사용되는 비대칭 멀티코어의 특징을 활용한다. 두 방법 모두 공통적으로 각 코어의 성능비와 할당되는 작업량을 비례하게 하여 디코딩 작업의 시간을 줄이는 방법들이다. 첫 번째 방법은 영상을 타일로 분할할 때 각 코어의 성능비와 비례하게 분할하는 방법이다. 해당 기법을 적용하기 위해서, 비디오 크기별 연산 복잡도 분석 모델을 활용하여 사용한다. 제안하는 기법을 사용한 실험 결과, 평균적으로 약 25%의 디코딩 시간 개선을 보였다. 두 번째 방법은 타일로 분할된 영상의 각 복잡도 정도를 PU 의 양으로 추정하여, 각 코어의 성능비와 비례하게 코어에 할당하는 방법이다. 해당 기법을 사용하기 위해서, PU 의 양과 연산 복잡도 정도의 상관관계를 회귀분석하여 이를 이용한다. 제안하는 기법을 사용한 실험 결과, 약 9~16%의 디코딩 시간 개선을 보였다.
-
본 논문에서는 8bit 영상으로 복원하여 메모리 사용량을 줄이는 HEVC 10bit bitstream 의 복호화 방법을 제안한다. 제안하는 방법은 10bit HEVC 비트스트림을 양자화 과정에서 10bit 양자화 계수로 변환하고 이후에 8bit 복호화를 진행하여 메모리 사용량을 절반만 사용하는 복호화를 수행한다. 실험 결과는 제안하는 방법을 적용하였을 때, 10bit 비트스트림의 기존 복호화 방법을 원본으로 PSNR 을 비교하였다. 그 결과 Y, U, V 각각 평균 32.79dB, 39.87dB, 39.79dB 을 보인다.
-
본 논문은 보행자 재 검출 알고리즘, 즉 person Re-Identification 알고리즘에 대하여 다루고 있다. 기존의 CNN 네트워크를 이용한 보행자 재 검출 알고리즘의 경우, 실제 감시 카메라 네트워크를 이용하여 보행자 재 검출을 할 경우 주변 환경 조건이 급격하게 변하는 경우 잘못 검출하는 경우가 발생하는 것을 확인할 수 있다. 이는 보행자 검출 후 해당 영역에 대하여 보행자 재 검출을 하는데 있어서 배경 부분의 변화에 영향을 받는다는 것을 의미한다. 따라서 본 논문에서는 배경 부분의 영향에 의한 효과를 줄이기 위하여, 보행자 영역 분리 알고리즘을 이용하여 보행자 영역을 분리한 후, 보행자 재 검출을 수행하는 연구를 진행한다.
-
본 논문에서는 동적 프로젝션 맵핑을 구현하기 위하여 3차원 공간의 깊이 정보와 대상 객체의 색상영상에서의 특징점을 추출하여 3차원 공간상에서 움직이는 2차원 평면 객체의 자세를 안정적으로 추정하는 기법을 제안한다. 제안 기법은 타겟 이미지를 출력하여 타겟 이미지 보다 큰 평면 패널에 부착하고, 이 평면 패널을 3차원 공간상에서 움직이는 환경에서 타겟 이미지의 자세를 안정적으로 추정하기 위하여 고안되었다. 제안 기법에서는 우선 패널이 움직일 수 있는 깊이 영역을 지정하여 해당 깊이 영역에 존재하는 2차원 패널을 추출하고, 패널의 사각영역을 추출한다. 또한, 색상 영상에 SURF 알고리즘을 적용하여 2차원 평면상에 부착된 타겟 이미지의 영역을 색상 특징을 기반으로 함께 추출하여 패널의 사각 영역과 타겟 이미지의 상대적인 위치 정보를 추출한다. 셋업 단계에서 추출된 타겟 이미지의 상대적인 위치 정보를 이용하여, 조명의 변화에 의하여 순간적으로 타겟 이미지의 특징점 추적에 실패한 경우, 패널의 사각 영역에 의해 계산된 타겟 이미지의 상대적 위치 정보를 계산하여 자세 추정에 사용함으로써 움직이는 타겟 이미지의 3차원 자세를 안정적으로 추정할 수 있도록 하였다.
-
지상파 UHD 방송을 위해 과학기술정보통신부는 UHD 방송장비의 국산화를 위한 R&D 사업을 UHD 워크플로우 전반에 걸쳐 추진한 바 있다. KBS와 RAPA는 국산 UHD 방송장비로 구성된 UHD 라이브 워크플로우의 시연 및 정합시험을 위한 시연용 테스트베드를 기획 및 제작하였다. 전체 시스템은 뉴스 및 토크쇼 형태의 시연 영상 연출을 위한 미니 스튜디오, 비디오 및 오디오 믹서, CG, 서버 등으로 구성된 부조정실, ATSC 3.0 시그널링 서버 등 송출시스템, 익사이터를 통한 송신 그리고 모바일 수신 단말을 통한 수신 시스템 등 실제 지상파 방송 송출 시스템을 모델링하여 테스트베드 형태로 구성된다. 본 논문은 시연 테스트베드 각 부분의 기획의도 및 구체적인 설계 방안의 제시를 통해 소규모 UHD 방송 스튜디오 등 워크플로우의 구성에 대한 이해를 돕고 아울러 상호운영성 검증 방안 들을 제시한다. 구현된 테스트베드는 방송기술인연합회와 공동으로 KOBA 2018 전시회에서 구축되어 전시기간 동안 전시회를 홍보하는 방송 프로그램 제작에 활용되었다.
-
지상파 UHDTV가 2017년 5월 31일부터 수도권을 중심으로 송출되기 시작한지도 벌써 1년 가까이 되었으며, 수신되는 지역을 조금씩 확대하여 2021년까지는 전국을 커버하고자 진행되고 있다. 지상파 UHDTV는 직접수신이나 방송공동수신설비를 활용하여 수신율을 높이고자 하나, 현재까지는 "방송채널별 변복조형 신호처리기"의 보급이 활성화되지 못하여 시일이 조금은 미루어질 것으로 예상된다. 특히 지상파 UHDTV의 장점을 발휘하기 위해서는 해결해야 할 난제가 여러 가지가 있다. 본 논문에서는 지상파 UHDTV의 수신뿐만 아니라 ATSC3.0이 갖고 있는 다양한 특성과 장점을 알아보면서 제언을 하고자 한다. 결과적으로 UHDTV는 국민에게 무료 보편적 서비스로 당연히 제공되는 방송이 맞지만, 더욱 다양한 서비스(Wake-Up 이나 홈포털, VoD 등)가 무료나 유료로 제공되기 위해서는 지상파 방송사가 정부, TV제조사나 통신망 사업자 등과 상호협력이 필요함으로 지속적인 대화를 통한 해결방안을 찾아야 할 것으로 보인다.
-
본 논문에서는 공간적 일관성과 시간적 일관성을 모두 고려하는 그래프 컷(graph cuts, GC) 알고리즘을 적용한 새로운 비디오 정합(video stitching) 방법을 제안한다. 먼저 입력 비디오로부터 취득한 전체 프레임에 대해서 정렬(frame alignment) 작업이 완료된 후, 프레임 합성(frame composition)을 위한 정합선 찾기(seam finding) 과정을 진행한다. 정합선을 찾는 과정에서 개선된 그래프 컷 알고리즘을 이용해 정렬된 프레임들을 자연스럽게 합성할 수 있는 최적의 정합선을 찾는다. 우선, 첫번째 입력 프레임에서 찾은 최적 정합선을 참조 정합선으로 설정한다. 그 다음, 연속된 프레임들의 정합선 찾기 과정을 수행할 때, 참조 정합선과의 거리 값을 가중치로 이용하는 새로운 비용 함수를 적용한다. 본 논문에서 제안하는 알고리즘으로 찾은 최적 정합선은 입력 프레임의 중첩 영역에 움직이는 물체가 존재할 때, 물체의 모양을 손상시키지 않으면서 동시에 연속된 프레임의 정합선을 유사한 형태로 유지시킨다. 결과적으로 공간적, 시간적 자연스러움이 보장되는 고품질의 비디오 정합 결과를 얻을 수 있다.
-
In this paper, we propose a new single-image dehazing method. The proposed method constructs color ellipsoids that are statistically fitted to haze pixel clusters in RGB space and then calculates the transmission values through color ellipsoid geometry. The transmission values generated by the proposed method maximize the contrast of dehazed pixels, while preventing over-saturated pixels. The values are also statistically robust because they are calculated from the averages of the haze pixel values. Furthermore, rather than apply a highly complex refinement process to reduce halo or unnatural artifacts, we embed a fuzzy segmentation process into the construction of the color ellipsoid so that the proposed method simultaneously executes the transmission calculation and the refinement process. The results of an experimental performance evaluation verify that compared to prevailing dehazing methods the proposed method performs effectively across a wide range of haze and noise levels without causing any visible artifacts. Moreover, the relatively low complexity of the proposed method will facilitate its real-time applications.
-
이미지에서 단순히 객체탐지를 하는 것이 아닌, 맥락정보를 탐지하는 해내는 것은 이미지 분석 분야에서 활발히 진행해온 연구분야 중 하나이다. 본 논문은 검출된 객체와 사람 간의 맥락 정보를 실시간으로 검출하기 위해 관심있는 객체와 인체의 키포인트를 탐지한 후, 그 두 영역 사이의 거리정보를 이용하여 맥락정보를 추출하는 알고리즘을 제안한다. 이는 CNN으로 이루어진 단일 구조 방식이기에 낮은 시스템 복잡도를 갖는다. 이 방법을 통하여 사람과 연관된 객체 사이의 맥락 정보와 그 위치정보를 출력함으로써 CCTV내 무장한 테러범의 위치나 축구 경기 내 공을 소유한 선수를 찾는 경우 등의 실질적인 이미지 분석에 활용할 수 있다.
-
본 논문에서는 HEVC 국제표준으로 압축된 비디오에서 움직임 물체를 추적하는 방법을 제안한다. 제안하는 방법은 HEVC 비트스트림의 대부분을 차지하는 인터 프레임의 움직임 벡터 정보를 입력 데이터로 사용하는 ST-MRF(Spatio-Temporal-Markov Random Field) 모델을 기반으로 하며, ST-MRF 모델에서 발생할 수 있는 오차전파로 점진적으로 객체를 부정확하게 추적하는 것을 HEVC GOP(Group of Picture)마다 삽입되는 인트라 프레임만을 복호화 하여 픽셀 정보를 입력으로 하는 YOLO 모델과 융합시켜 보정함으로써 추적하던 객체를 잃지 않고 강건하게 추적하는 방법을 제안한다.
-
2016년 이후 방송법 개정을 통해 디지털 방송의 음량을 ITU-R / EBU에서 제안한 측정 방식을 활용하여 채널 및 프로그램 사이의 방송 음량을 맞추어 제공하고 있다. 본 논문에서는 방송 음량을 조절하는 기술 중의 하나로 ITU-R 1770-3 측정 방식을 기반으로 하여 청각적 특성을 고려한 적응적 오디오 음량 자동 제어 기술을 제안한다. 오디오 음량 자동 제어 기술은 프로그램의 음량을 기준치에 맞추는 동시에 오디오 데이터의 왜곡을 최소화해야 한다. 제안한 기술은 음량을 기준인 -24 LKFS에 맞추는 동시에 왜곡의 최소화하면서 명료도를 높이는 것을 목표로 개발되었다. 이를 위해, 가청/비가청 구간에 따라 적응적으로 이득을 조절할 수 있는 구조를 개발하였다. 제안한 방식의 성능을 확인하기 위해 주관적 음질 평가 방식을 실시하였으며 이를 통해 기존의 음량 제어 기술과 비교하여 음질이 향상됨을 확인하였다.
-
최근 정보통신 기술의 발달로 사용자에게 원격 공간의 실재감을 느낄 수 있게 하는 실감미디어의 발전이 두드러지고 있다. 이 중 360VR의 경우, 시청자의 시청 영역이 넓어지기 때문에 높은 전송률과 넓은 대역폭을 요구하여 전송 지연과 영상 끊김 등의 여러 문제점이 나타나고 있는 상황이다. 이에 본 논문은 360VR 영상을 지연이 발생하지 않고 전송하기 위해 구글에서 제작한 Chromium 프로젝트의 소스코드를 이용하여 QUIC 서버를 제작하였고 QUIC 프로토콜과 HTTP/2을 이용하여 Chromium 브라우저 클라이언트에 송출하였다. 또한 기존 Node.js 서버의 HTTP 1.1와 비교를 통해 QUIC 프로토콜을 이용한 360VR 전송 속도가 빠르다는 것을 확인하였다.
-
최근 1인 미디어의 확장과 맞물려 개인 차원에서의 영상편집이 활성화되고 있다. 인기 영상강의를 위주로 초보자들도 쉽게 접근할 수 있으나 여전히 많은 사람들이 영상제작을 어려워하고 있다. 특히 밝기, 대비 및 색 보정에서 어려움을 많이 겪는다. 전문적인 영상편집 툴의 경우 자동 보정 기능을 제공하고 있으나 파이널 컷의 경우 Apple 사의 맥 디바이스 환경을 구축해야 하는 문제, Adobe사 프로그램의 경우 완전 자동 기능 부재 및 무거운 연산처리 과정 및 유료화로 인한 접근성 저하, 기타 프로그램들의 경우 설치 접근성이 낮다는 단점이 있었다. 이에 본 연구에서는 클라우드 기반의 쉽고 빠른, 접근성을 높인 자동 영상보정 서비스를 제시하려 한다. 최종 단계의 클라우드 서비스에서는 흔들림 보정, 색 보정, 대비 보정, 명암 보정의 향상 기능과 컷 단위 인식, 신단위 인식, 객체 단위 인식의 서비스를 제공해야 한다는 결론에 도출하였다. 본 논문에서는 연구의 시작으로 클라우드 서비스 구축 및 OpenCV를 활용하여 프레임 별 영상 향상 알고리즘 구현을 시행하였다.
-
본 논문에서는 포즈에 적응적인 가중치 맵 (weight map)에 기반한, 얼굴 교체시스템을 위한 블렌딩 기법을 제안한다. 우선 얼굴교체를 진행하기 위해 목표얼굴이 들어있는 영상으로부터 실시간으로 얼굴의 기하학적 특징점 (land mark)을 검출한다. 다음 검출된 특징점의 분포에 따라 얼굴영역에 대해 삼각화 (triangulation)를 진행한다. 참조영상에 대해서도 같은 과정을 적용하고 대응되는 영역끼리 워핑 (warping) 변환을 시키면 목표 얼굴과 같은 포즈의 참조얼굴을 얻을 수 있다. 그 다음 두 영상의 피부색 톤을 일치시켜주고 안면교체를 진행한다. 하지만 교체된 영역과 목표 얼굴 사이에 부자연스러운 경계가 발생하게 되는데 블렌딩 기법을 통해 이런 경계를 제거한다. 본 논문에서는 사전에 표준얼굴형태모델을 이용하여 정면 얼굴의 가중치 맵을 생성하고, 표준얼굴형태모델과 목표 얼굴사이 변환관계를 이용하여 포즈에 대응되는 가중치지도를 생성하였다. 이렇게 얻어진 가중치 맵은 일관되게 정해진 가중치 맵에 비해 포즈변화에 적응적으로 대처할 수 있어 보다 자연스러운 얼굴교체 효과를 얻을 수 있다.
-
본 논문에서는 미술품의 물리적 특징을 디지털화 하는 방법과 디지털 정보를 사용한 미술품 복원 방법을 다룬다. 미술품으로부터 취득할 수 있는 물리적 특성은 색상정보, 기하정보, 반사특성 등이 있고 미술품의 종류에 따라서 필요한 물리적 특성을 획득하기 위해서 미술품을 크게 2D, 2.5D, 3D 로 분류할 수 있다. 2D 미술품은 평면에 그려진 미술품으로 높은 해상도와 정확한 색상 정보 취득을 주 목적으로 하고, 2.5D 미술품은 평면의 미술품에 깊이가 추가된 유화나 판화의 형태로 2D 미술품의 특징에서 깊이표현 정보와 반사특성 정보를 추가로 취득한다. 3D 미술품은 입체적인 미술품으로 3 차원의 기하정보를 중심으로 디지털화 한다. 이렇게 취득한 미술품의 물리적 정보는 2D 미술품은 프린터로, 2.5D, 3D 미술품은 3D 프린터로 출력하여 복원하거나 디스플레이를 통해 가상으로 재현할 수 있다. 본 논문에서 다루는 디지털화 기술과 복원 기술은 높은 정확도를 위해 연구되었기 때문에 다양한 미술품의 디지털화와 복원에 사용될 뿐 아니라 다양한 분야에서 사용될 것으로 기대된다.
-
본 논문에서는 열화상 카메라를 사용하는 손가락 인터페이스와 손을 사용하지 않는 인터페이스 연구에서 표면 재질에 따른 잔류 열 생성 차이를 비교하고 분석하고자 한다. 열화상 카메라를 사용하는 인터페이스는 사용자가 프로젝터의 투사 스크린으로 사용되는 표면에 잔류 열을 생성하면 그 잔류 열의 형상을 검출하여 상호작용 할 수 있도록 한다. 스크린으로 사용되는 표면은 활용되는 장소에 따라 표면의 재질이 다를 수 있다. 따라서 일상 환경에서 프로젝터의 투사 스크린으로 사용이 가능한 표면 재질에 따라 다양한 방법으로 잔류 열을 생성하고 잔류 열에 대한 분석이 필요하다. 본 논문에서는 스크린으로 사용될 수 있는 다양한 표면 재질을 선택하여 세 가지 방법으로 잔류 열을 생성하고 열화상 카메라로 촬영한 영상을 분석하였다.
-
비디오 압축에서, 변환은 데이터를 공간 영역에서 주파수 영역으로 변환 함으로써 에너지 압축에서 중요한 역할을 수행한다. HEVC(High Efficiency Video Coding)에서는 DCT-II(Discrete Cosine Transform type-II)를 사용하여 잔차신호 변환을 수행한다. DCT-II는 픽셀간 상관도가 높은 신호일수록 높은 에너지 집중도를 보이지만, 픽셀간 상관도가 비교적 낮은 블록일수록 낮은 에너지 집중도를 보인다. 본 논문에서는 DST-VII(Discrete Sine Transform type-VII) 및 잔차신호 플리핑을 사용하여 다양한 변환 방법으로 영상을 부호화 및 복호화 하는 알고리즘에 대해 제안한다. 다양한 변환 방법은 부호화기에서 블록단위로 1 가지를 선택하여 비트스트림으로 선택된 방법에 대한 정보를 전송한다. 제안된 방법은 HEVC 대비 약 2.47%의 BD-rate 감소를 보인다.
-
최근 UHD 컨텐츠에 대한 스트리밍 서비스가 증가함에 따라 보다 높은 압축효율을 갖는 부호화 기술에 대한 필요성이 증가하고 있으며 이에 따라 차세대 비디오 코덱을 위한 국제표준화 노력이 JVET를 중심으로 진행되고 있다. 본 논문에서는 적응형 다중변환 기술을 휘도 채널에 적용하는 것뿐 만 아니라 통일한 방법으로 화면 내/간 블록 모두에서 색차채널에도 적용하도록 하여 그 효율 향상여부를 분석하였다. 실험결과 제안방법이 기존 방법 대비 BDBR 측면에서 Y(0.03%), U(-1.40%), V(-0.96%)의 결과를 얻을 수 있었다.
-
최근 JVET(Joint Video Experts Team)은 새로운 비디오 압축 표준인 VVC(Versatile Video Coding)의 표준화를 시작하였다. 기존의 HEVC 및 VVC의 참조 SW 코덱인 HM 및 VTM(Versatile Test Model)에서는 효율적인 화면간 예측 부호화를 위한 움직임 정보 병합(Merge) 모드를 사용하고 있다. 본 논문에서는 VTM 의 Merge 후보 리스트 구성에서 공간적 주변블록의 움직임 정보가 존재하지 않을 경우, 이를 대체할 수 있는 Merge 후보 리스트 생성 기법을 제시한다. JVET CTC(Common Test Condition)를 이용하여 제안한 기법의 실험을 진행하였고, 실험결과 Y, U, V 성분 각각 0.2%, 0.17%, 0.12%의 BD-rate 감소를 확인하였다.
-
H.265/HEVC(High Efficiency Video Coding)에서는 하드웨어 비디오 인코더의 처리율(Throughput)을 높이기 위하여 동일 CU(Coding Unit) 내 PU(Prediction Unit)들이 병렬로 머지 후보 리스트를 생성할 수 있는 병렬 머지 방법이 표준 기술로 사용되고 있다. 하지만 이 방법은 동일 CU 내의 PU 간의 의존성만 제거할 수 있고 코딩 순서상의 이전 CU 와의 의존성은 제거할 수 없다. 결국 이전 CU 의 모드 결정 과정이 완료된 후에 현재 CU 내의 PU 가 머지 후보 리스트를 생성할 수 있기 때문에 높은 처리율 향상을 기대할 수 없다. 또한 CU 내의 대부분의 PU 들이 가장 인접한 MV(Motion Vector)를 머지 후보로 사용하지 못하여 압축 효율에 대한 손실도 크다. 본 논문에서는 이전 CU 와의 의존성을 제거함으로써 높은 처리율을 갖으면서 압축 효율에 대한 손실을 최소화할 수 있는 개선된 병렬 머지 방법을 제안한다. 실험 결과, 제안된 방법은 기존 병렬 머지 방법 대비 동일 화질에서 평균 약 1.8%의 압축률이 향상되는 것으로 나타났다.
-
국내에서는 ATSC 3.0 기반의 UHD 방송이 실시되고 있으며 ATSC 3.0 기반의 이동방송에 대해서도 논의가 진행되고 있다. ATSC 3.0 규격은 기존의 전통적인 방식의 방송 서비스뿐만 아니라 통신서비스와 연동된 방송통신융합 서비스의 구현을 용이하기 위해 IP 규격을 대거 도입하였다. 이러한 과정에서 수신기에 대한 다양한 요구사항이 도출되어 있고 수신기 제품을 개발하기 위해 고려해야 할 요소들도 증가하게 되었다. ATSC 3.0 방송은 현재 서비스의 도입 단계이고 본격적인 시장이 형성되는 과정까지 수신기와 관련된 추가적인 기술개발 및 제품 구현이 진행되어야 하는 상태이다. 이와 관련하여 본 논문에서는 ATSC 3.0 기반의 UHD 수신기를 개발하기 위해 고려해야 할 사항들과 개발된 수신기를 검증하기 위한 시험 과정을 기술한다.
-
최근 가정용 TV 를 포함한 비디오 디스플레이 기기는 HD(High Definition)에서 UHD(Ultra High Definition)로 급속하게 전환되고 있다. DTV 방송의 경우 한국은 HDR(High Dynamic Range)이 제외된 UHDTV 지상파 방송을 시작하였고 북미 MVPD(Multiple Video Program Distributor) 사업자들은 HDR 서비스를 먼저 도입하기 시작하였다. 기존 full HD 보다 4 배 이상의 해상도를 지원하는 UHD 는 HDR 과 WCG(Wide Color Gamuit)를 제외하고 논할 수 없다. 본 고에서는 해외의 디스플레이 인증 기관에서 적용하고 있는 UHD 디스플레이 디바이스에 대한 화질 평가 기술에 대하여 소개한다.
-
최근 다양한 국제 방송표준에서 차세대 오디오 코덱의 하나로 MPEG-H 3DA(3D Audio)가 채택되었으며, 이를 활용한 몰입형 오디오 서비스들이 개발되고 있다. 이러한 몰입형 서비스를 원활히 제공하기 위해서는 표준에 정의된 기술을 구현한 제품간의 상호호환성 검증이 필수적으로 추진되어야 하며, 이를 위해 개발된 MPEG-H TV Audio System 인증 프로그램에 대해 대상 제품과 시험서비스의 구조에 대해 설명하고 있다.
-
클라우드 방송은 서버에서 방송 서비스를 구동한 후 실시간으로 실행 화면이나 정보를 TV 셋톱박스로 전송하는 가상화 방송 서비스로 많은 방송 사업자들의 관심을 끌고 있으며, 이미 상용화를 진행 중인 사업자도 있다. 한국정보통신기술협회(이하, TTA)에서는 클라우드 방송 서비스를 특정 사업자에 종속된 기술이 아닌 개방형 기술로 확장시키고자 "개방형 클라우드 기반 스마트 방송 플랫폼 (TTAK.KO-07.0129)" 표준(이하, 클라우드 방송 1.0 표준)을 2016 년 12 월에 제정하였다. 또한, 클라우드 방송 표준기반의 생태계 활성화를 위하여 표준기반의 수신기 없이 개발자의 PC 환경에서 실행시킬 수 있는 에뮬레이터를 2017 년에 개발완료 하였다. 본 논문에서는 클라우드 방송 1.0 표준을 준용하는 에뮬레이터에 대한 설계 및 구현에 대하여 소개한다.
-
2017년 3월에 NVIDIA에서 출시한 Jetson TX2는 GPU를 탑재한 고성능의 임베디드 보드이다. 이 제품은 GPU를 이용한 병렬 처리를 통해 임베디드 시스템 상에서 연산량이 많은 알고리즘을 동작시킬 수 있다. 스테레오 매칭 기법은 스테레오 카메라를 이용하여 깊이 정보를 획득할 수 있으며, 획득한 깊이 정보는 다양한 어플리케이션의 메타 데이터로써 활용될 수 있다. 하지만 알고리즘의 연산량이 매우 많아 GPU를 탑재한 데스크톱에서만 동작하는 것이 일반적이었다. 이에 본 논문은 임베디드 보드인 Jetson TX2에서 기존에 개발되었던 스테레오 매칭 알고리즘들을 동작시키고 성능 분석을 통해 실시간 동작 여부에 대한 연구를 진행하였다.
-
다양한 분야에서 홀로그램을 서비스하기 위해 다양한 수신 환경을 반영한 전송기술이 필요하다. 따라서 프레넬릿 변환을 이용한 홀로그램을 위한 스케일러블 코딩 기법을 제안한다. 또한 프레넬릿 필터의 특성을 분석하여 각 서브밴드별 중요도 및 서비스된 서브밴드의 수에 따른 복원된 홀로그램을 분석하였다. 분석 결과, 주로 좋지 못한 수신환경에 서비스되는 응용분야에서는 (3,1)이중직교 필터를 이용하는 것이 유리하며, 반대의 경우 (5,5)필터를 이용하는 것이 유리하다.
-
본 논문에서는 동영상 화질을 최대한 유지하면서 압축 비트량 절감을 효율적으로 이루기 위해 복수개의 영상처리 필터를 영상의 블록에 따라 선택적으로 적용하고, 영상처리 필터의 선택을 위한 MSSIM 및 KL Divergence 기반의 영상 처리 평가 함수를 제안한다. 영상압축의 경우, 영상 내 특징에 따라 화질과 비트량 절감의 특성이 다르며, 이에 따라 단일 목적을 가진 영상처리 필터로서는 화질을 유지하면서, 비트량 절감이라는 목적을 동시에 만족 시키기 어렵다. 이에 따라, 주관적 화질을 최대한 유지하면서, 비트량을 절감시키기 위해 주관적 화질 측도로서 MSSSIM(Multi-scale Structural Similarity)를 사용하고 비트량 측도를 위하여 KL Divergence 를 사용함과 동시에 두 가지 척도를 하나의 척도로 결합시키기 위한 방법을 제안한다. 아울러 제안한 측도를 사용하여 서로 다른 특성을 가진 영상처리 필터를 전처리 필터로 사용할 경우, 주관적 화질을 최대한 유지하면서 비트량 절감을 유지할 수 있도록 동영상 압축이 가능함을 확인할 수 있었다.
-
배경제거는 영상에서 움직이는 객체를 분리할 때 유용한 방법이며, 대표적인 예인 Mixture of Gaussian (MOG) 알고리즘은 픽셀 당 3-5 가우스 모델을 혼합해 배경과 움직이는 객체를 구분한다. 소형 표적을 추적하기 위해서는 화소 혹은 작은 블록 단위로 시/공간적 밝기 변화량을 이용하는 옵티컬 플로우 기법이 적절하다. 본 논문에서는 소형 표적의 강인한 객체 추적을 위해 MOG2와 옵티컬 플로우의 결합 방법을 소개한다. 제안된 방법은 MOG2를 사용하여 전경 영역을 획득하고 전경 영역에만 옵티컬 플로우를 적용한다. 실험 결과는 제안 방법이 잡음과 배경의 미세 변화가 있더라도 무인 비행체를 잘 추적할 수 있음을 보여준다.
-
This paper proposes an algorithm to speed up block structure partition of quad tree plus binary tree (QTBT) in Joint Exploration Test Model (JEM) encoder. The proposed fast encoding of QTBT block partition employs three spatially neighbor coded blocks, such as left, top-left, and top of current block, to early terminate QTBT block structure pruning. The propose algorithm is organized based on statistical similarity of those spatially neighboring blocks, such as block depths and coded block types, which are coded with overlapped block motion compensation (OBMC) and adaptive multi transform (AMT). The experimental results demonstrate about 30% encoding time reduction with 1.3% BD-rate loss on average compared to the anchor JEM-7.1 software under random access configuration.
-
증강현실 환경에서 현실 세계의 물체를 포착하여 디지털화 시키는 것은 몰입감 향상에 있어 매우 중요한 기술이다. Faster R - CNN 은 영상에서 여러 물체를 인식하는 기술 중 하나이며, 지금껏 많은 응용 기술의 개발과 함께 많은 연구가 진행되고 있다. 본 논문은 증강현실 환경에서 평면물체의 2D 변환관계를 설명하는 Homography 와 Faster R - CNN 을 활용하여 여러 개의 비콘에 대한 6 자유도(6DOF) 를 추정하는 방법을 제안한다. 또한 증강현실에서 주로 사용되는 마커 기술에 존재하는 단점들을 극복할 수 있는 비콘 구조를 소개하고 여러 개의 비콘을 용이하게 관리하는 시스템을 제안한다.
-
본 논문에서는 JEM(Joint Exploration Model)의 부호화기 계산 복잡도 감소를 위한 CU 조기 결정 방법을 제시한다. 기존의 JEM 의 경우 현재 CU(Coding Unit)의 RDO(Rate Distortion Optimization)를 통한 최적의 예측 모드가 Merge SKIP 모드이고 BT(Binary Tree)의 깊이가 2 또는 3 이상일 때 CU 결정을 조기 종료한다. 제안하는 방법에서는 현재 CU 의 최적의 예측모드가 Merge SKIP 이고 BT 일 경우 통계적 분석을 통한 왜곡 값, CU 샘플 수, 시간적 계층 순서, 양자화 파라미터를 고려한 문턱 값을 이용하여 CU 를 조기 결정한다. 실험결과로써 제안하는 방법이 JEM 7.1 대비 Y, U, V 각각 평균 0.86%, 0.08%, 0.18%의 BD-rate 손실이 발생하고 평균 16% 부호화 속도를 개선시킨다.
-
본 논문에서는 HDR 영상 신호의 고속 광전변환을 위한 파라미터 룩업 테이블 기반 구간 선형 근사 방법을 제안한다. 제안하는 방법은 고속화하기 위한 광전변환함수의 입력 값의 범위를 다수개의 구간으로 나누고 각 구간마다 별도의 선형 근사함수를 구하여 광전변환함수를 근사하고 각 구간별로 필요한 선형 근사함수의 파라미터를 룩업 테이블에 미리 저장하고 사용함으로써 보다 빠른 근사 값 계산이 가능하다. 제안한 방법의 성능 평가를 위해 MPEG 에서 제공하는 참조 소프트웨어인 HDRTools 를 기반으로 실험을 수행했고 이를 통해 참조 소프트웨어에 구현되어 있는 기존의 고속화 방법과 비교하여 더 적은 연산 수를 가지며 평균 24% 빠른 처리속도와 약 0.05dB 의 평균 PSNR 손실을 보임을 확인하였다.
-
This paper presents an aircraft detection on panchromatic image using densely connected convolutional network. This algorithm connects all preceding feature-maps to all subsequent layers. It is encouraged to reuse feature-maps and enhance feature-maps representation. This algorithm is driven to learn aircraft feature to detect aircraft objects on panchromatic imagery. Based on the experimental result, it can yield accuracy of 92%.
-
본 논문에서는 색차 성분의 화면내 예측 모드인 CCLM( Cross Component Linear Model) 의 계산 복잡도 감소를 위하여 휘도 성분의 화면내 예측 모드에 따라 주변 참조 샘플 쌍을 선택적으로 사용하는 방법을 제안한다. 제안하는 방법은 총 67 가지 화면내 예측 모드를 3 개의 구간으로 나누고 각 구간별로 사용하는 참조 샘플 쌍의 위치를 정하여 사용하였다. 제안하는 방법의 성능 평가를 위하여 AI( All Intra) 환경에서 JEM7.0 대비 부호화 성능을 측정하였다. 실험결과로서 제안하는 방법이 JEM7.0 대비 Y, U, V 각각 평균 0.04%, 0.61%, 0.62% 의 BD-rate 손실 및 평균 2%, 최대 8% 부호화 시간 감소를 보인다.
-
최근 딥 러닝 기술의 발전이 가속화됨에 따라, 기존의 알고리즘과 융합하여 뛰어난 성능 향상을 보이는 연구가 급격히 증가하고 있다. 본 논문에서는 딥 러닝을 이용하여 HEVC 로 압축된 동영상의 일부 프레임의 삭제여부를 검출하는 알고리즘을 제안한다. 영상의 삭제 정보가 포함되어 있는 HEVC 의 부호화 파라미터를 추출하여 간단한 전 처리 과정을 통해 데이터의 크기를 효과적으로 압축한 뒤, 동영상의 시간적 특성을 고려할 수 있도록 CNN 네트워크를 구성한다. 실험 결과, 효과적으로 다양한 압축 환경에 강인한 영상 삭제 검출 성능을 보이는 것을 확인하였다.
-
본 논문은 Point Cloud 데이터 압축을 위해 사용되는 MPEG PCC TMC2의 Occupancy map coding을 효과적으로 압축하기 위해 내부 블록 스킵 방식을 제안한다. TMC2에서 생성된 patch들을 2차원 그리드에 packing 하여 생성된 occupancy map은 patch 내부의 대부분의 occupancy가 'full'이라는 특징을 갖는다. 따라서 이러한 특징을 이용하여 patch 내부의 occupancy를 간소화 하면 occupancy map을 표현하기 위한 비트를 절약 할 수 있다. 이러한 방법을 통해 본 논문에서는 기존 TMC2의 occupancy map의 비트양 대비 평균 -1.37%의 성능을 얻었다.
-
본 논문은 초해상도 영상 생성을 위한 CNN 구조를 제안한다. 제안하는 Cross-CNN 은 2 차원 필터의 분리성과 활성화 함수의 비선형성을 바탕으로 VDSR 구조의 시작과 마지막 층을 제외한 중간 층들에 교차하는 1 차원 필터를 적용한다. 제안하는 방법은 기존의 방법보다 적은 가중치를 사용하여 실행 시간을 단축하였다. 실험은 VDSR 실험에 사용된 291 개의 영상과 B100 영상을 이용하였다. 제안하는 방법은 네트워크 중간층에서 기존 방법 대비 약 1/3 의 가중치를 사용하여 20%의 속도 향상을 보였다.
-
본 논문은 초해상도 기술을 위한 CNN 구조를 제안한다. 제안하는 Gradient-SR 은 고해상도 영상이 고주파 신호와 저주파 신호로 분리될 수 있다는 점을 바탕으로 고역 통과 필터인 Sobel Operator 를 CNN 기반으로 구성한다. Gradient-SR 로부터 생성된 고주파 신호는 목표 크기로 보간 된 저해상도 입력 영상과 더해짐으로 고해상도 영상을 생성한다. 실험 영상은 VDSR 이 사용 한 291 개의 영상과 B100 영상을 이용한다. 제안하는 방법은 스케일 팩터 2 에 대한 초해상도 영상 생성 실험에서 약 200%의 속도 향상을 보인다.
-
In the workflow of 360 video coding of JVET (Joint Video Experts Team), firstly the 360 videos are projected onto the 2D plane with diverse projection formats, such as Equi-Rectangular Projection (ERP), Cubemap Projection (CMP), Rotated Sphere Projection (RSP), etc. The projection format of RSP has inactive regions in the converted 2D plane. The inactive regions may cause visual artifact as well as the reduction of the coding efficiency due to discontinuity at boundaries between active and inactive regions. In this paper, to overcome these problems, the inactive regions are padded by using two types of adjacent pixels. Then padded regions of RSP are blended with inactive regions padded by proposed method. The experimental results demonstrate that, in terms of end-to-end WS-PSNR-NN, the proposed method achieves 0.1% BD-rate reduction. In addition, the visual artifacts along the borders between discontinuous faces are noticeably reduced.
-
본 논문에서는 부분 홀로그램의 중심점과 카메라의 이동에 따라 생성되는 시점 영상들의 상관성을 분석하였다. 같은 기준에서의 실험을 위하여, 물체의 실제 크기 및 시점간 거리 등의 파라미터를 조정하였으며, 카메라의 수평이동과 부분 홀로그램의 중심점이 좌, 우로 이동된 결과를 생성하는 실험을 진행하였다. 결과를 기반으로, 서로 다른 광학계와 생성방법을 통하여 생성된 임의의 시점 영상들의 상관성을 분석한다.
-
본 논문에서는 디지털 홀로그램 영상을 Fresnelet 변환을 하여 상관도를 확인할 수 있는 데이터로 바꾸고, 컨볼루션 오토인코더(Convolutional Autoencoder, CAE)를 이용해 압축하고 생성하는 방법을 제안한다. 컨볼루션 계층과 채널 수가 다른 2개의 네트워크로 실험한다. CAE의 인코더를 수행해 영상을 압축하고 디코더를 통해 복원한다. 원본 영상의 Fresnelet 영역과 2개의 네트워크를 진행하여 생성된 Fresnelet 영역을 다시 역 Fresnelet하여 압축률에 따른 PSNR을 비교, 분석한다.
-
기술의 발달로 인해 휴대폰카메라와 간단한 광학 장치를 통해 나노 단위의 유해물질 영상을 획득할 수 있게 되었지만, 휴대폰카메라의 한계로 영상 전역에 원치 않는 잡음이 발생하여 유해물질 농도 검출의 정확도는 좋지 않다. 또한 기존의 관심영역 검출 알고리즘은 검출하고자 하는 대상의 형태학적 특성을 이용한 상관성 비교를 사용하는데, 처리 시간이 길어 휴대폰 어플리케이션에 적합하지 않다. 이에 착안하여, 본 논문에서는 실용화를 목적으로 영상처리를 기반으로 한 유해물질 영역 검출의 고속화 알고리즘을 제안한다. 영상보간 및 잡음제거의 전처리를 진행한 영상에 휴리스틱 관심 대상 검출 알고리즘을 적용한 결과, 기존의 관심영역 검출 알고리즘과 대비 검출 시간은 약 70% 감소하였으며 검출 정확도는 증가하였다.
-
본 논문에서는 머신 러닝 분야 중 하나인 딥 러닝에서 DCGAN모델을 이용하여 홀로그램을 생성하는 방법을 제안하였다. 제안한 방법은 홀로그램을 모델링 하는 식에서 객체의 깊이 정보에 따른 코사인 항을 DCGAN을 이용하여 하나의 객체정보에 대한 중간 홀로그램을 생성하였고, 나머지 객체 정보를 이용하여 홀로그램을 이동 및 증폭한 뒤 누적하여 최종 홀로그램을 획득한다.
-
본 논문에서는 프레넬 변환의 다양한 파라미터를 조절하여 홀로그램에 적용한 뒤 비디오 코딩을 이용한 압축을 수행하고 이에 대한 효율을 분석하였다. 공간상의 재생되는 객체의 실제 위치와 프레넬 변환에서의 전파된 거리의 관계, 참조된 파의 파장, 홀로그램 디스플레이 장치의 화소의 크기에 대한 분석을 수행하였다. 프레넬 변환 파라미터 중 참조파의 파장에 대한 영향은 미비하지만 변환 거리 및 화소의 크기에는 압축 효율에 큰 영향을 미치는 것을 확인하였다.
-
본 논문에서는 사람의 인지 시각 특성 중 하나인 JND(Just Noticeable Difference)를 이용한 인지 비디오 부호화 기법을 제안한다. JND 기반 인지 부호화 방법은 사람의 인지 시각 특성을 이용해 시각적으로 인지가 잘 되지 않는 인지 신호를 제거함으로 부호화 효율을 높이는 방법이다. 제안된 방법은 기존 수학적 모델 기반의 JND 기법이 아닌 최근 각광 받고 있는 데이터 중심(data-driven) 모델링 방법인 심층 신경망 기반 JND 모델 생성 기법을 제안한다. 제안된 심층 신경망 기반 JND 모델은 비디오 부호화 과정에서 입력 영상에 대한 전처리를 통해 입력 영상의 인지 중복(perceptual redundancy)를 제거하는 역할을 수행한다. 부호화 실험에서 제안된 방법은 동일하거나 유사한 인지화질을 유지한 상태에서 평균 16.86 %의 부호화 비트를 감소 시켰다.
-
본 논문에서는 딥러닝을 활용한 비디오 보간법(video interpolation)에 대한 최근 모델들을 HD 급 비디오로 학습시키는 방법과 평가 성능을 비교 분석하는 것을 목표로 한다. 기존의 딥러닝을 활용한 비디오 보간법에 대해 제안된 모델들은 낮은 해상도의 비디오로 실험을 진행하였다. 반면 본 연구에서는 한정된 메모리를 가지고도 높은 해상도의 비디오를 학습시키기 위해서 패치 단위 데이터 셋을 구성하여 학습을 진행하였다. 평가 성능을 보이기 위해서 학습 데이터와 마찬가지로 패치 단위 평가와 전체 프레임 단위 평가 성능의 결과를 비교한다.
-
본 논문에서는 공간적 분포 정보를 이용한 3D 포인트 클라우드 압축 기법을 제안한다. 우선, 3D 포인트 클라우드에 대해 팔진 트리 구조를 생성한다. 그리고 잎사귀 노드들에 대해서 해당 복셀의 중심으로부터의 유클리드 거리를 구하고, 이를 통해서 공간적 분포 정보를 구성한다. 이때, 복셀 내 포인트들의 분포를 고려하여, 포인트들이 밀집하여 분포하는 경우 복셀 내 포인트들을 하나의 대표 위치로 표현하여 압축한다. 최종적으로 산술부호화를 수행하여 압축 성능을 높인다. 실험 결과 제안하는 기법이 3D 포인트 클라우드를 효율적으로 압축함을 확인할 수 있다.
-
기계학습 기반 비디오 화질 자동 측정 기술은 주관적 화질 평가를 대체하기 위한 기술로, 비디오를 입력 신호로 화질 평가 결과를 출력 신호로 하는 기계학습 모델을 통해서 개발하는 기술이다. 학습에 필요한 비디오 데이터 셋은 입력 신호인 비디오 시퀀스와 입력의 출력신호로 학습할 주관적 화질 평가 결과로 구성된다. 이때 데이터 셋의 일부는 기계학습 기반 비디오 화질 자동 측정 기술 개발 과정에서 학습에 사용하고, 남은 일부는 개발 기술의 성능 평가에 사용한다. 일반적으로 기계학습 기반 기술의 성능은 학습 데이터의 양과 질에 비례한다. 그러나, 기계학습 기반 비디오 화질 자동 측정 기술 개발에 필요한 데이터 셋은 주관적 화질 평가 결과를 포함해야 하므로, 데이터 양을 늘리는 것은 쉬운 문제가 아니다. 이에 본 논문에서는 압축 비디오에 대한 화질 자동 측정 기술 개발을 위해 필요한 데이터 셋을 양과 질적 측면에서 효율적으로 구축하는 방법을 제안한다. 양적 측면에서 효율성을 높이기 위해 부호화 복잡도와 평가 난이도 기반으로 시퀀스를 선정 방법을, 질적 측면에서 효율성을 높이기 위해 쌍 비교(Pairwise Comparison)기반의 주관적 화질 평가 방법을 제안한다.
-
홀로그램 콘텐츠의 정보보안을 위한 암호화 방법을 제안한다. 제안하는 암호화 기법은 실시간 처리를 위해 부분 홀로그램에 대하여 편향치를 더하고, 이중 프레넬 변환을 수행하여 에너지가 집중된 DC 영역을 획득한다. 이때 집중된 영역이 암호화 영역으로 적은 데이터롤 이용하여 고효율의 암호화를 수행한다. 제안한 기법은 기존 연구보다 변환하는 크기를 줄이기 때문에 같은 효율로 고속의 암호화를 수행할 수 있다.
$1,024{\times}1,024$ 크기의 홀로그램을$32{\times}32$ 부분홀로그램으로 구성하여 적용할 경우 약 18배 빠르게 처리할 수 있다. -
고가의 콘텐츠인 홀로그램의 저작권보호를 위한 수단으로 홀로그램의 워터마킹 방법을 제안한다. 제안하는 워터마킹 기법은 프레넬 변환의 퍼짐특성을 이용하기 위해 1차 프레넬 변환 결과에서 실수부와 허수부에 절대 값을 적용하여 저주파성분이 많은 데이터로 변형하고 2차 프레넬 변환을 적용한다. 2차 프레넬 변환으로 홀로그램 정보는 집중되고, 바깥 영역에 워터마크를 삽입한다. 제안한 워터마킹 기법은 기존의 프레넬 변환 특성을 이용한 방법에서 크기성분만 사용함으로써 생기는 소실을 제거하여 화질 좋은 워터마크를 추출할 수 있고, 다양한 공격에도 강인함을 확인 하였다.
-
Methods for reducing and measuring speckles in a 360-degree table-top electronic holographic display디지털 홀로그래픽 디스플레이 시스템의 홀로그램 영상 재현과정에서는 간섭 성 광원을 사용하는 것이 일반적이다. 간섭 성 광원의 높은 결맞음성으로 생겨나는 스페클 분포는 육안으로 쉽게 관찰 되는데, 이는 재현된 홀로그램 영상 품질 저하의 주요한 원인이 된다. 본 논문에서는 수평 360 도 전 방향에서 입체영상의 관찰이 가능한 테이블 탑 홀로그래픽 디스플레이 시스템에서의 스페클 분포를 측정하며, 이를 정량적으로 평가하기 위한 측정 방법을 기술한다. 객관적인 스페클 정량 지표로서 스페클 대조비를 구하여 테이블 탑 홀로그래픽 디스플레이 시스템에서의 스페클 분포를 계측하고, 이를 저감하기 위한 방법을 제안한다.
-
본 논문에서는 주파수자원의 부족이 심화됨에 따라 최근 연구가 활발해지고 있는 가시광통신의 국제표준화 방안을 제시하고자 한다. 가시광통신의 국제표준화는 IEEE 와 ITU 에서 이루어지고 있으며, 본 연구에서는 공적표준화 기구인 ITU 를 대상으로 표준화 현황을 살펴보고 향후 추진 방안을 제시한다. 가시광통신은 부족한 전파자원의 한계를 극복하고, 광대역 고속통신이 가능하며, 병원과 같이 전자파에 민감한 장비들을 사용하는 환경에서의 사용이 유리하기도 하여 미래의 통신수단으로 부상될 것으로 전망되고 있다. 가시광 분야의 국내 개발 기술들을 ITU 국제표준에 반영함으로써 향후 국내기업들의 이 분야의 국제시장 진출 교두보 선점 등에 유리하게 작용할 수 있을 것으로 예상된다.
-
많은 분야에서 기기설비들의 고장, 결함은 안전과 관련되어 있기 때문에 연구가 활발히 진행되고 있다. 주로 데이터를 취득하여 제품의 유지보수 및 품질을 향상시키는 연구로 고장을 나타내는 특성 인자를 추출하여 고장진단을 하는 것이다. 하지만, 과거의 룰 기반 결함 탐지 기법은 예외의 경우를 탐지하기 어렵다는 문제를 가져왔다. 최근 들어 인공지능이 특성 인자를 쉽게 추출할 수 있다는 장점으로 인해 인공지능과 결합된 고장진단 시스템이 많이 제안되고 있다. 본 논문에서는 인공지능의 추세와 인공지능과 결합된 고장진단 시스템을 소개한다.
-
Hwang, Leehwan;Kim, Seunghyeon;Hong, Sung-Hee;Shin, Choon-Sung;Kim, Young-Min;Hong, Ji-Soo;Kang, Hoonjong 238
본 논문은 기존에 홀로그램 생성에 사용하던 R-S알고리즘과 유사한 품질을 지니며 빠른 속도의 연산으로 홀로그램 디스플레이와 프린팅 시스템을 위한 콘텐츠의 생성에 필요한 고속 연산 알고리즘인 FPAS에 대한 소개이다. 소개 될 연산방법은 기존의 홀로그램 분할 방식을 일반화함으로써 미세한 빔의 조종으로 개선된 알고리즘으로 제안하며, 생성된 프린지 패턴에서 회절된 파면을 R-S알고리즘으로 계산한 결과와 매우 유사한 재구성 품질을 표현할 뿐만 아니라, 각 오브젝트 포인트의 기여도로부터 분할단계에서 보다 빠르게 계산 속도를 향상시킬 수 있는 접근법으로 디지털 홀로그램 생성의 속도를 단축시킬 수 있는 알고리즘을 소개하여 홀로그램을 사용하는 다양한 분야에 응용시키는 것에 목적이 있다. -
최근 VR(Virtual Reality)와 AR(Augmented Reality)의 발전에 따라 영상 또는 이미지에서 카메라와 물체 사이의 거리를 추정하는 기술에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 카메라와 물체 사이의 거리 추정 방법 중에서 단일 카메라를 이용하여 촬영한 이미지의 흐림 정도를 분석하여 3D 거리를 추정하는 알고리즘을 연구한다. 특히 고가의 렌즈가 장착된 DSLR 카메라가 아닌 스마트폰 카메라 이미지에서 DFD를 이용한 거리 추정 방법 중 1개의 이미지를 이용한 3D 거리 추정 방법과 초점이 서로 다른 2개의 이미지를 결합하여 3D 거리를 추정하는 방법을 연구하고 최적회된 피사체 범위에 대해 연구하였다. 한 개의 이미지를 이용한 거리 추정에서는 카메라의 초점 거리를 200 mm로 설정할 때, 두 개의 이미지를 이용한 거리 추정에서는 두 이미지의 초점 거리를 각각 150 mm, 250 mm로 설정했을 때 가장 넓은 거리 추정 범위를 갖는다. 또한, 두 거리 추정 방법 모두 초점 거리가 가까울수록 가까운 물체의 거리 추정에 효율적인 것으로 나타났다.
-
본 논문에서는 시니어를 위한 라이프 데이터 수집 및 행동분석 프레임 워크를 설명하고, 이의 부분적 구현을 자세히 설명한다. 본 연구는 시니어를 위한 라이프 데이터를 바탕으로 보호자가 없는 시니어를 보살핌과 동시에, 보호자가 미처 인지하지 못하는 시니어의 비정상적인 상태를 분석하여 판단하는 시스템을 연구한다. 먼저, 시니어가 시간을 많이 소요하는 TV 앞 상황을 가정하고, 방영되는 TV 콘텐츠와 TV 카메라를 이용한 시니어의 영상/음성 정보로 이상상태와 감정상태, TV 콘텐츠에 대한 반응과 반응속도를 체크한다. 구체적으로는 딥 러닝 기반의 API 와 멀티미디어 데이터 분석에서 사용되는 오픈 패키지를 바탕으로, 영상/음성의 키 프레임을 추출하여 감정 및 분위기를 분석하고 시니어의 얼굴 표정 인식, 행동 인식, 음성 인식을 수행한다.
-
본 논문에서는 고해상도 자궁 내막 세포들을 대상으로 정상세포와 이상세포들을 구별하기 위한 알고리즘을 제안한다. 구체적으로 계층적 구조를 갖는 Convolutional Neural Network (CNN) 모델을 기반으로 네 가지 세포들을 구분하는 알고리즘을 제안한다. 이 연구에서 고해상도 영상을 분류하면서도 복잡도 증가를 막기 위해 효율적인 전처리 과정을 사용하였다. 다양한 컴퓨터 실험을 통하여 제안하는 기술을 사용할 때, 인식률이 향상되는 것을 확인할 수 있었다.
-
최근 차세대 미디어 중 하나로 가상의 공간내에서 현실적인 경험과 환경을 사용자에게 제공해 줄 수 있는 몰입형 미디어가 각광받고 있다. 이러한 가상현실 세계를 제공할 수 있는 VR미디어의 등장은 몰입형 미디어가 점차적으로 추구하는 실감서비스의 발전 형태를 단적으로 보여주고 있으며 사용자의 움직임에 따라 보다 자연스러운 현실감 및 몰입감을 지원하는 노력이 지속적으로 연구되고 있다. 이러한 추세를 반영하듯, MPEG은 최대 6DoF 사용자 움직임을 지원함과 동시에 고해상도의 VR 해상도를 제공하는 몰입형 미디어 요소기술 개발을 위하여 MPEG-I(Immersive) 표준화를 진행 중에 있다. 본 논문은 종래 3DoF 움직임(회전운동)을 지원함과 동시에 병진운동에 따라 360VR영상 내 가상시점을 매핑함으로써 보다 자연스러운 몰입감을 제공할 수 있는 6DoF지원 360VR 테스트 플랫폼을 제안한다.
-
본 논문은 비디오기반 행동인식을 연구하였으며, 기존의 구조를 참조하여 더 높은 인식률을 위한 새로운 구조를 제안한다. 딥러닝의 기본인 CNN과 RNN을 베이스로 한 구조이며 UCF-101 이라는 Data Set를 사용하였다.
-
본 논문에서는 비디오 부호화 성능 향상을 위하여 QTBT (QuadTree Plus Binary Tree) 블록 구조에서 대각선 움직임 분할 (DMP: Diagonal Motion Partition) 방법을 제안한다. HEVC 이후의 비디오 압축 표준을 위한 탐색 과정에서 다양한 부호화 성능 향상 방법들이 제안되고 있으며, 그 중 제안하는 대각선 움직임 분할 방법은 하나의 정방형 혹은 직방형의 부호화 유닛 (CU: Coding Unit)을 두 개의 삼각형으로 분할하여 움직임 예측 및 보상을 수행하는 방법이다. 제안하는 방법에서는 두 가지 대각선 방향만을 사용하여 블록을 분할하지만, QTBT 블록 구조와 결합하여 다양한 임의의 블록 분할 형태를 표현하는 것이 가능하다. 본 논문에서는 제안하는 방법을 JEM-7.0에 구현하여 0.15%의 부호화 효율 향상 결과를 획득하였다.
-
최근 JVET(Joint Video Experts Team)는 새로운 비디오 압축 표준을 VVC(Versatile Video Coding)으로 이름 짓고 2020 년 완료를 목표로 그 표준화를 시작하였다. HEVC 및 VVC 에서는 화면간 예측의 부호화 효율을 위하여 공간적/시간적 주변블록의 움직임 정보로부터 Merge/AMVP(Advanced Motion Vector Prediction)의 후보 리스트를 구성하고 최적의 움직임 정보를 활용한다. 본 논문에서는 Merge/AMVP 의 후보 리스트를 유도할 때, 현재블록의 모양을 고려하여 상관성이 높은 주변블록의 움직임 정보를 우선 순위로 유도하는 기법을 제안한다. 실험을 통하여 VTM(VVC TM) 대비 제안기법의 성능을 확인한다.
-
MPEG과 VCEG은 차세대 비디오 부호화 표준 기술 개발를 위한 JVET(Joint Video Exploration Team)을 구성하여 현재 비디오 표준화인 HEVC 대비 높은 부호화 효율을 목표로 연구를 진행하며 CfP(Call for Proposal) 단계를 진행 중이다. JVET의 공통 플랫폼인 JEM(Joint Exploration Test Model)은 HEVC의 quad-tree 기반 블록 분할 구조를 대신하여 더 많은 유연성을 제공하는 QTBT(Quad-tree plus binary-tree)가 적용되었다. QTBT는 화면 내 부호화 효율을 높이기 위한 하나의 방법으로 휘도와 색차 신호에 대해 분할된 블록 구조를 지원한다. 이러한 방법은 채널 간 블록 분할 모양이 동일하거나 비슷한 경우에 중복되는 블록 분할 신호가 발생할 수 있는 단점이 있다. 따라서 본 논문에서는 화면 내 부호화에서 채널 간 유사도 비교를 이용하여 적응형 색차 블록 방법을 제안한다. 제안한 방법의 실험 결과로 JEM 6.0과 비교하여 CfE(Call for Evidence) 영상에서 평균 0.28%의 Y BD-rate 감소와 함께 평균 124.5%의 부호화 복잡도 증가를 확인하였다.
-
최근 디스플레이 크기 및 영상 해상도가 커짐에 따라 디스플레이와 외부 메모리 간 대역폭이 큰 부담이 되고 있다. 본 논문은 이런 문제를 해결하기 위해 라인 단위 영상 압축 기법을 제안한다. 방향성 인트라 예측, 컬러 성분 간 보상 등으로 구성된 제안기법은 50dB 정도 PSNR 에서 최대 12:1 정도의 압축률을 보인다.
-
본 논문에서는 빔-호핑 위성 전송 시스템을 운용하기 위해 필수적으로 이루어져야 하는 빔 스위칭 타임 플랜 (Beam Switching Time Plan, BSTP) 동기 기법을 제안한다. 제안하는 기법은 게이트웨이의 변조 모듈에서 SF (super-frame) 신호를 전송한 후, 레퍼런스 수신 모듈에서 신호 전송 후 프레임 검출이 일어나기까지 걸리는 시간과 유효한 신호 검출 후 프레임 검출이 일어나기까지 걸리는 시간을 이용하여 BSTP 동기를 이룬다.
-
인공신경망의 확산 및 보급에 따라 적용 영역이 확대되고 있으며 여러 분야에서 획기적인 성능 향상을 이루고 있다. 영상 압축 분야의 기술개발은 기존 코덱 구조 내 각 요소기술의 성능향상을 위한 인공신경망 기술 분야와 기존 코덱 구조가 아닌 end-to-end 학습을 통한 인공신경망 기반 기술 분야로 나뉘어 진행되고 있다. 본 논문에서는 end-to-end 학습을 통한 인공신경망 기술의 비선형 변환 계층 중 GDN(generalized divisive normalization) 계층이 영상 압축에 미치는 영향을 분석한다.
-
본 논문에서는 새로이 시작된 비디오 압축 표준인 VVC(Versatile Video Coding)의 인-루프(in-loop) 필터링을 위한 CNN 구조를 제안한다. 제안하는 CNN 구조는 복호화된 영상을 입력으로 하고 원본 영상과 복호화된 영상의 오차를 손실함수로 사용하여 학습을 진행한다. 또한, 비디오 부호화에서의 다양한 크기의 CU(Coding Unit)를 고려한 다양한 크기의 컨볼루션 필터를 사용하여 특징을 추출하는 구조에 기반하고 있다. 실험을 통하여 제안한 CNN 기반의 필터링이 VVC 의 시험모델인 VTM(VVC Test Model)의 인-루프 필터링의 성능을 개선할 수 있음을 확인하였다.
-
본 논문에서는 기존 신경망 기반의 이미지 압축에 많이 사용되었던 신경망인 ResNet 을 대신하여 더 적은 개수의 파라미터를 사용하여 좋은 성능을 낼 수 있는 신경망 구조인 DenseNet 을 이미지 압축에 사용한다. 이미지 압축을 위해 사용되는 신경망 구조는 일반적으로 오토 인코더 구조인데, 병목 층에서 정보 손실이 상당히 많이 발생한다. 따라서 이미지 압축에서 신경망 내에서의 정보 전달은 상당히 중요하다. 기존의 논문에서는 이를 위해 이전의 정보를 그대로 뒤로 전달해주는 구조인 ResNet 을 사용하여 깊은 층에 대해서도 수렴이 잘 되는 결과를 보여주었다. 그러나 많은 수의 파라미터를 사용하는 단점을 해결하기 위해 본 논문에서는 DenseNet 을 이미지 압축에 사용하였고, 병목 층에서의 정보 손실로 인해 이미지의 고주파수 성분이 사라지는 현상을 해결하기 위해 원래 이미지와 JPEG2000 으로 압축한 이미지와의 차이를 추가 입력으로 넣어주어서 주관적인 화질을 개선하였다.
-
본 논문에서는 비디오 부호화 과정 중 화면 간 예측 부호화 과정에 딥러닝을 적용하여 부호화 효율을 제고하는 알고리즘을 제안한다. 보다 구체적으로 딥러닝으로 생성한 가상의 픽쳐를 현재 프레임의 참조 픽쳐로 사용하는 방법에 대해 설명한다. 부호화 과정에서 복원된 픽쳐 두 장을 이용하여 가상의 보간 픽쳐를 생성하고 생성된 보간 픽쳐를 참조 프레임으로 사용하여 화면 간 예측의 효율을 높인다. 실험에 따르면 참조 픽쳐 리스트를 수정하여 참조 구조를 변경함으로써 HEVC 참조 코덱인 HM 16.9 대비 평균 1.4%의 BD-rate 감소 효율을 제공하였다.
-
2017년 UHD 본방송을 시작한 후 ESG, TIVIVA와 같은 부가서비스들이 지속적으로 도입되고 있다. 최근에 UHD 재난경보방송 도입 논의가 시작되었고, 서비스 방향을 TV에서 공공미디어로 확대하는 방안에 논의가 이어지고 있다. 재난경보방송의 대상이 TV가 아닌 다른 유형의 수신기들로 달라지면 서비스 시나리오도 달라진다. 기존의 아날로그 TV재난방송은 TV 화면에 자막으로 재난 문자가 표출되었고, DMB 재난경보방송은 내비게이션에서 알람음을 동반한 팝업창에 문자 메시지 형태로 표출되었다. UHD 재난경보방송 서비스가 공공미디어로 확장되기 위해서 역시 새로운 서비스에 관련한 다양한 연구가 요구된다. 이에 본 논문은 공공미디어를 통한 UHD 재난경보방송의 서비스 요구사항에 있어 3가지 연구 과제를 점화하고 있다. 우선 기존과 다른 재난 정보전달 서비스인 만큼 공공미디어를 통한 재난경보방송의 서비스 성격 정립이 필요하다. 그리고 공공미디어 수신 환경에 적합한 다양한 메시지 형식이 연구되어야 한다. 마지막으로 공공미디어를 통한 재난경보방송 시스템과 솔루션의 원격 관리 방안을 모색하고자 한다.
-
본 연구에서는 재난경보방송의 문제점과 공공미디어의 활용에 대해 알아보았다. 일반 이용자 인터뷰를 실시한 결과에 따르면, 재난경보방송은 주로 휴대폰을 통한 문자메시지로 받고 있었고, 대부분 이 방식에 대해 만족하지 못하고 있었다. 그리고 공공미디어를 이용한 재난경보방송의 필요성에 대해 대부분 동의하고 있었지만 기존에 접해본 경험이 없기 때문에 효율적 운영방안에 대해서는 제시하지 못하였다. 마지막으로, 공공미디어 시범사업은 대다수가 지하철 버스 내 외 안내판을 꼽았다.
-
최근 우리나라에서도 지진이 발생하는 등 각종 재난의 발생 빈도가 증가하고 있어 이에 대비하는 사회적 필요성이 대두되고 있다. 특히, 재난발생 시 일반 대중들에 전달되는 경보와 방송에 대한 관심이 높아지고 있다. 국내 재난경보방송시스템은 오랜 역사를 거쳐 정부와 지자체가 관심을 가지고 구축해 왔으며, 인구가 밀집되어 있는 장소나 여름철 집중호우가 예상되는 유원지 등에 집중적으로 설치되어 있다. 옥외를 중심으로 경보방송을 서비스하고 있었으나 건물 내부에는 경보나 방송이 전달되지 못하여 재난발생 시 대규모 피해가 예측되므로 옥내경보방송 서비스의 필요성이 중요하게 인식되었고 최근에는 지자체 별로 활발하게 시스템 설치가 진행되고 있다. 옥내경보방송은 구내방송시설인 전관방송시스템과 연계되어 서비스하는 방향으로 진행되고 있으며 본 저자도 이에 동의하는 바이다. 그러나 전관방송시스템은 오랜 동안 이와 같은 필요성이 없는 상태에서 구축되어 왔고 제조사 별로 외부장비의 연계 방식에 대하나 규격이 다르게 발전해 왔다. 따라서 옥내경보방송장치와 전관방송시스템을 연계하기 위해서는 장비의 제어와, 오디오 인터페이스(interface)가 필수적 요소이므로 이를 반드시 연계하여야 한다. 본 논문에서는 옥내경보방송장치와 전관방송시스템들의 인터페이스를 위해 문제점들을 분석하고 이들의 개선방안에 대해 연구한다. 또한 연계 규격의 표준화에 대한 필요성을 강조하여 각 제조사들이 연계 규격을 준수하고 보다 많은 국민들이 재난경보방송 서비스를 누릴 수 있도록 제언한다.
-
현재 우리나라는 방송 사업자의 재난방송 의무가 다양한 법령에 분산되어 있어, 중복 및 충돌 가능성이 항상 존재한다. 본 논문은 이와 같은 문제를 해결하기 위해 현행 재난방송의 법적 정의를 분석하고, 이를 기반으로 하향식 접근방법을 사용하여 방송 사업자를 통한 재난 정보 전달관련 법령 체계의 재정립을 제안한다. 재난방송의 목적, 방송 내용, 방송 시기 등을 조사하여 방송통신발전 기본법의 재난방송 정의에서 야기될 수 있는 모호성, 중복성, 충돌가능성 등의 문제점을 분석하였다. 이러한 문제점의 해결 방안으로 현 재난방송의 범위를 수동적 재난방송과 능동적 재난방송으로 분류하는 체계를 제안하였다. 이러한 체계는 앞으로 재난방송관련 정책 수립 및 재난방송 제도개선을 위해 도움이 될 것으로 기대한다.
-
최근 우리나라는 다양한 매체를 활용한 재난경보 전달 시스템을 운영하고 있다. 하지만 시스템 연동 및 자동화에 있어 많은 문제점을 가지고 있다. 본 논문은 이와 같은 문제를 해결하기 위해 우리나라와 미국의 관련 규정을 조사 분석한다. 미국은 능동적 재난방송을 법으로 규정하지 않고, 수동적 재난방송만 연방정부 규칙으로 정한다. 이러한 규칙은 시스템 간의 연동을 위한 표준, 수신기 재난경보 수신을 위한 요구사항 등 기술적인 규정을 포함하고 있다. 반면 국내 규정은 주로 관련 인적 행정 조직의 운영에 초점을 맞추고 있다. 향후 다양한 매체를 통해 고도화된 재난방송을 위해, 우리나라도 이러한 기술적인 요구사항을 법령에서 규정해야 한다. 본 논문에서 분석한 미국 사례 분석은 ATSC 3.0 재난방송의 기술적 규칙 작성에 많은 도움을 줄 것으로 기대한다.
-
최근 증강현실 산업 분야가 많은 각광을 받고, 시장이 성장함에 따라 보다 쉽게 증강현실을 구현 할 수 있도록 많은 SDK(Software Development Kit)들이 발표되었다. 기존에 발표 된 SDK들이 대부분 강체 추적만을 제공한다. 이는 현재 추적 알고리즘의 기반이 되는 이론이 강체에 한정되어 있기 때문이다. 그러나 제안하는 프레임워크는 강체 추적뿐만 아니라 비강체 추적 또한 가능하다. 이를 위하여, 제안하는 프레임워크는 증강현실의 핵심 기술인 추적 엔진과 보다 넓은 확장성을 가지도록 추적하고자 하는 물체를 사전에 분석하고 실시간으로 모델 변형 정보를 추정하는 시뮬레이션 엔진으로 구성된다. 추적 엔진은 기본적으로 물체의 표면에 존재하는 특징점 정보를 이용하여 추적을 진행 하되, 비강체 추적을 위하여 시뮬레이션 엔진의 도움을 받는 형태로 구성된다. 시뮬레이션 엔진에서는 물체의 역학 파라미터를 추정하여 이를 추적을 진행 할 때, 추적 엔진의 물체 표면 특징점 정보를 이용하여 물체의 변형 정보를 추정한다. 또한 제안하는 프레임워크는 성능 상의 장점 외에도 오픈소스로 공개되기에 국내 증강현실 시장 성장에 발판이 될 것으로 기대된다.
-
최근 디지털 홀로그래피는 3차원 영상을 획득, 처리 및 재생을 하지만, 디스플레이 전자 소자 특성에 의한 시야각이 작아서 사용자의 관찰 가능한 시역이 제한적인 단점이 있으며, 따라서 복원된 입체 영상과 사용자 사이에 상호작용 서비스 제공이 용이하지 않는 한계를 지니고 있다. 본 논문에서 우리는
$360^{\circ}$ 전방향 (1,024 시점)의 홀로그래픽 3D 콘텐츠를 FFT 알고리즘을 이용하여 생성하고, 이 콘텐츠를 디스플레이할 수 있으면서 동시에 이 콘텐츠와 사용자 간 상호작용이 가능한, 광시야각 (${\pm}60^{\circ}$ ) 홀로그래픽 디스플레이 시스템의 설계 및 제작한 결과를 실증한다. -
증강현실 콘텐츠에서 가려짐 표현은 사실감을 위한 필수적이다. 가려짐이란 가상 물체의 일부가 실제 사물에 의해서 가려져서 표현되는 것을 의미한다. 이는 카메라의 트래킹 정보와 함께 현재 관찰하고 있는 실제 세계의 3차원 스캔 정보를 같이 획득해야 한다. 카메라 트래킹이란 현재 카메라가 세상의 어디에 위치해있는지, 어떤 자세로 바라보고 있는지에 대한 정보를 실시간으로 획득하는 기술이다. 3차원 스캐닝이란 실제 물체를 이루는 모든 점들의 3차원 위치 관계를 파악하는 과정이다. 가상물체의 3차원 위치와 자세가 실제물체의 위치/자세와의 관계를 통해서 가상물체의 그려야할 부분과 그리지 말아야할 부분을 판단할 수 있다. 본 논문에서는 트래킹과 스캐닝을 동시에 처리하여 가려짐 표현이 가능한 증강현실용 트래킹 기술을 제안한다. 카메라 트래킹이 실내외에서도 제약없이 동작하기 위해서 스테레오 카메라를 활용하였다. 트래킹은 카메라 프레임간 특징점들의 상호 관계를 파악하는 방법에 의해서 구하였다. 스테레오 카메라 이미징을 통해서 매 프레임마다 실세계의 3차원 깊이정보를 파악하게 되고, 이를 앞서구한 카메라 위치자세를 통해서 3차원 깊이 데이터를 병합하는 과정으로 스캐닝기술을 구현하였다.
-
최근 증강현실(augmented reality) 기술이 큰 주목을 받고 있다. 스마트폰, HMD 등과 같은 모바일 기기의 성능 향상 및 위치 기반 서비스의 보편화로 인해 증강현실 기술의 유용성을 입증하는 다양한 응용 분야들이 소개되고 있다. 증강현실은 기본적으로 현실세계에 가상의 디지털 콘텐츠를 자연스럽게 병치하여 인간의 감각과 인식을 확장시키는 실감미디어 기술이다. 증강현실을 구현하기 위해서는 사용자나 현실세계의 상황을 파악하고 인지하기 위한 컴퓨터 비전 기술, 가상의 디지털 콘텐츠를 생성하고 렌더링하기 위한 컴퓨터 그래픽스 기술, 증강현실 콘텐츠와 상호작용하기 위한 상호작용 기술, 사용자 중심의 증강현실 프로그램 개발을 지원하기 위한 저작 기술 등 다양한 요소 기술들을 필요로 한다. 본 논문에서는 컴퓨터 비전 기술 중의 하나로 객체의 3차원 움직임(포즈 변화)을 추적하기 위한 방법들의 최신 동향을 간략하게 분석하고, 향후 발전 방향에 대해 전망해 본다.
-
현재 기술의 블렌딩 된 동영상을 재생하는 과정에서 사용하는 기법은 각각의 이미지들을 스티칭 후 동영상을 재생하므로 이전 프레임의 경계를 고려하지 않는다. 이러한 과정에서 움직임이 동일한 경계 부분을 정확하게 파악하여 연결하지 못하는 오류가 발생하여 자연스러운 영상 재생이 불가능하다. 이에 대한 해결책으로 각 영상의 frame 을 추출하여 경계의 가중치를 비교한 후 차이가 클 경우 새로운 경계를 생성하여 적용하는 과정을 고안했다. 상기의 과정을 통해 블렌딩 된 동영상의 초기 오류가 크게 감소하였다. 본 논문에서는 해당 기술에 대한 구체적인 방안을 제시하여 다양한 동영상을 효과적으로 개선하여 오류를 최소화한 동영상을 얻을 수 있도록 하였다.
-
최근 국내 지상파 UHD 방송이 시작됨에 따라 시청 중에 방송망과 브로드밴드 망을 통해 IBB 실시간 부가 서비스를 제공 받을 수 있게 되었다. 이에 따라 사업자는 IBB 서비스 표준 중 컴패니언 스크린 서비스 표준에 따라 지상파 UHD 방송 시청자들이 방송 수신기의 컴패니언 디바이스를 사용하여 연관 콘텐츠를 수신할 수 있는 기능을 제공해야 한다. 이에 본 논문에서는 IBB 부가서비스 중 생방송 이어보기 서비스를 컴패니언 디바이스를 통해 제공할 수 있는 시나리오 및 모델을 제시한다. 본 논문의 서비스 모델은 ATSC 3.0 과 HbbTV 2.0 표준의 방송 환경 시스템에서 동작함을 상정한다. 오픈소스 소프트웨어를 사용하여 해당 시스템의 설계 및 구현하여 서비스 동작을 보인다.
-
지금까지 영상 콘텐츠 제작 기술의 발전은 SD(Standard Definition)에서 시작하여 HD(High Definition)와 FHD(Full High Definition)를 거쳐, UHD(Ultra High Definition)에 이르기까지 화질을 중심으로 이루어져 왔다. UHD 에 이르며 육안으로는 그 이상의 해상도로 제작된 콘텐츠와 구분하는 것이 힘들어졌으며, 이에 영상 콘텐츠 제작은 화질이 아닌 제한된 촬영 장비들로부터 촬영 방법, 영상 화각의 개선 작업 등으로 그 방향을 전환하고 있다. 이의 연장선 상에서 360 도 영상에 대한 기술개발이 활발히 이루어 지고 있다. 방송 분야에서는 360 도 영상의 실시간 스트리밍 적용 가능성이 모색되고 있는데, 이것이 가능 하려면 대량의 동영상 데이터를 실시간으로 스티칭하여 전달하는 기술이 필요하다. 따라서 고속 이미지 스티칭이 가능해질 경우 실시간 동영상 스티칭을 통해 방송 통신 분야에서의 서비스 향상에 기여할 것으로 보인다. 본 논문은 이미지의 edge 정보를 방향성을 가진 데이터로 분할하여 특징점을 추출하고, 이후 가중치를 통한 특징점 매칭으로 기존의 이미지 스티칭 방법 보다 빠른 속도의 알고리즘을 제안한다.
-
최근 미디어의 생성 및 소비 기술의 발전으로 몰입도 있는 콘텐츠에 대한 수요가 증가하고 있다. View Interpolation 기술은 두 개의 좌/우 영상을 기반으로 하여 두 영상의 중간 시점에 해당하는 영상을 생성해내는 기술이다. 먼저 Depth Hole Filling Module을 이용하여 좌/우 영상 및 그에 대응하는 깊이 지도를 입력으로 받아 깊이 지도에 존재하는 오류를 검출하고, 보정한다. 깊이 지도의 오류 보정이 완료되면, 해당 데이터를 각각 Feature Matching Module 및 Layer Dividing Module로 전달한다. Feature Matching Module은 실사 영상 내의 특징점들을 검출하고, 두 영상 내 특징점을 매칭하는 역할을 수행하며, Layer Dividing Module은 깊이 값을 기반으로 영상의 Layer를 분할한다. Feature Matching Module에서 특징점의 매칭이 완료되면, 특징점의 영상 내 좌표 및 해당 좌표에서의 깊이 값을 Distance Estimating Module로 전달한다. Distance Estimating Module은 전달받은 특징점의 좌표 및 해당 좌표에서의 깊이 값을 기반으로 전체 깊이 값에서의 이동도를 계산한다. 이와 같이 이동도의 계산 및 Layer 분할이 완료되면, 각 Layer를 이동도에 기반하여 이동시키고, 이동된 Layer들을 포개어 배치함으로써 View interpolation을 완성한다.
-
최근 인터넷을 통한 UHD (Ultra High Definition) 스트리밍 서비스의 수요가 증가했으며 네트워크에 효율적으로 비디오 스트리밍 서비스를 제공하기 위해 HTTP 적응적 스트리밍 (HTTP Adaptive Streaming, HAS) 서비스가 등장하였다. 그러나 HTTP 적응적 스트리밍은 세그먼트의 ON-OFF 패턴으로 인해 다중 클라이언트 환경에서 공정성 (Fairness), 안정성 (Stability), 효율성 (Efficiency)을 저하시키는 문제가 있다. 본 논문에서는 다수의 HAS 클라이언트 환경에서 공정성, 안정성, 효율성을 향상시키기 위한 홈 공유기에서 인코딩 비트율 기반의 대역폭 할당 기법을 제안한다. 제안 기법은 OFF 구간을 줄이기 위해 인코딩 비트율에 맞추어 할당할 대역폭을 결정함으로써 안정적인 스트리밍을 보장한다. 실험을 통해 다중 HAS 클라이언트 환경에서 공정성, 안정성 및 효율성이 향상된 것을 확인하였다.
-
오디오 음량을 자동으로 제어하는데 있어 음성이 있는 구간에 대해서 음량이 급격히 줄어드는 것을 막기 위해 콘텐츠에 대한 분석이 필요하다. 본 논문에서는 방송 음량을 조절을 위한 세부 기술로 딥러닝 기반의 콘텐츠 분류 기술을 제안한다. 이를 위해 오디오를 무음, 음성, 음성/오디오 혼합, 오디오의 4개로 정의하고 이를 처리하기 위한 mel-spectrogram을 이용하여 2D CNN 기반의 분류기를 정의하였다. 또한 학습을 위해 방송 오디오 데이터를 활용하여 학습/검증 데이터 셋을 구축하였다. 제안한 방식의 성능을 확인하기 위해 검증 데이터셋을 활용하여 정확도를 측정하였으며 약 81.1%의 정확도를 가지는 것을 확인하였다.
-
영상의 관심 영역 검출은 영상처리 및 컴퓨터 비전 응용 분야에서 꾸준하게 사용되고 있는 기법이다. 특히, 근래 심층신경망 연구의 급격한 발전에 힘입어 심층신경망을 이용한 관심 영역 검출 기법에 대한 연구가 활발하게 진행되고 있다. 한편 Fully Convolutional Network(이하 FCN)은 본래 심층 예측(Dense Prediction)을 통한 의미론적 영상 분할(Semantic Segmentation)을 수행하기 위해 제안된 심층신경망 구조이다. FCN을 영상의 관심 영역 검출에 활용하여도 기존 관심 영역 검출 기법과 비교하여 충분히 좋은 성능을 발휘할 수 있다. 그러나 FCN에 사용되는 convolution 층의 수가 많고, 이에 따른 가중치(weight)의 개수도 기하급수적으로 늘어나 검출에 필요한 시간 복잡도가 매우 크다는 문제점이 있다. 따라서 본 논문에서는 기존 FCN이 가진 검출 시간 복잡도의 문제점을 convolution 층의 가중치 관점에서 해결하고자 이를 조절하여 FCN의 관심 영역 검출 속도를 향상시키는 방법을 제안한다. 적절한 convolution 층의 가중치를 조절함으로써, MSRA10K 데이터셋 환경에서 검출 정확도를 크게 저하시키지 않고도 최대 약 20.5%만큼 검출 속도를 향상시킬 수 있었다.
-
최근 4K/8K 급 초고품질 콘텐츠의 서비스에 관심이 집중되는 만큼 스트리밍 서비스에 대한 연구도 활발히 이루어지고 있다. 하지만 단일 PC 성능의 한계로 인해 SW 기반 영상 처리에 어려움을 겪고 있다. 본 논문에서는 분산 처리를 통해 실시간 영상 처리가 가능하도록 시스템을 제안한다. 제안한 시스템은 영상 패킷 분석 및 분할, 분산 트랜스코딩, 패킷 통합 단계로 이루어지며 Hadoop 과 Spark 를 이용하여 실시간 분산 처리를 지원한다. 실험 결과는 초고품질 입력 영상(
$3840{\times}2160@60Hz$ , YCbCr 4:2:2, 10-bit)에 대해 평균 74.47fps 의 트랜스코딩 속도를 보인다. -
지속적인 딥러닝 기반의 영상처리 기술의 발전으로 객체분류나 객체검출 문제에 대해서 뛰어난 성능 보이고 있다. 하지만 객체추적 문제에서는 성능이 좋은 추적기는 실시간 동작이 불가능하고 딥러닝 기반의 객체추적도 단일 객체에만 고려한 기법이 많기 때문에 개선할 필요가 있다. 전처리로 검출된 객체영역과 kalman filter를 통해 예측된 추적영역 간의 embedding feature 비교를 통해 동일인물인지 판단하여 고유 ID를 부여하고 추적한다. 객체끼리 교차하거나 가려지는 상황에서 추적을 실패하게 되는데 이 후에 지속적인 추적을 위해 IoU 비교를 통해 후보 추적기로 남겨두는 과정을 거친다. 실험 결과 실시간 동작여부와 객체끼리 교차하거나 프레임 밖으로 나갔다가 다시 나타나는 경우에도 추적이 가능함을 확인하였다.
-
본 논문에서는 딥러닝 기반의 주행 차로 인식 기법을 활용한 차선 변경 검출 기술을 제안한다. 제안한 방법은 주행 차로, 좌우 차로, 차량 등 3 종의 이미지 데이터를 학습, 검증, 실험 데이터로 나눠 활용하였다. 주행 차로 및 차선 변경 인식을 위하여 변형된 AlexNet 모델을 개발하였다. 실험 결과 주행 차로 69.45%, 좌우 차로 66.9%, 차량 76.4%의 인식률 결과를 보여 기존 패턴인식 방법과 비교하여 우수한 결과를 보였다.
-
최근 수 년간 비디오 콘텐츠 소비 공간이 인터넷으로 확장되며 지능적 비디오 콘텐츠 추천 기술 개발이 진행되어 왔다. 하지만 지능적 비디오 콘텐츠 추천 기술은 사용자의 기호나 업로드된 비디오 콘텐츠의 제목 등을 기반으로 하여 비디오 콘텐츠 클래스에 대한 분석 없이 유사한 비디오 콘텐츠를 탐색하고 추천해주는 기술이 대부분이다. 본 논문에서는 지능적 콘텐츠 추천을 위한 딥러닝 기반 방송 콘텐츠 클래스 분류 시스템을 제안한다. 방송 콘텐츠 내 영상 정보를 이용하여 방송 콘텐츠 클래스를 분류하며 높은 분류 정확도를 보여주는 것을 확인할 수 있다.
-
최근 이미지의 Visual 정보를 추출하고 Multi label 분류를 통해 나온 결과의 상관관계를 modeling하여 문장으로 출력하는 CNN-RNN 아키텍처가 많은 발전을 이뤘다. 이 아키텍처의 출력은 이미지의 정보가 요약되어 문장으로 표현되기 때문에 Semantic정보가 풍부하여 유사 콘텐츠 검색에도 사용 가능하다. 하지만 결과 문장에 사람이 포함 되면 광범위한 검색 결과를 얻게 되고 부정확한 결과를 초래하게 된다. 이에 본 논문에서는 문장에서 사람을 인식하여 Identity를 부여함으로써 검색어를 좀 더 구체적으로 생성하고자 한다. 이 문제를 해결하기 위해 자연어 처리의 분야 중 하나인 개체명 인식(Named Entity Recognition) 문제로 다루며, 가장 많이 사용되고 있는 모델인 Bidirectional-LSTM-CRF와 CoNLL2003 dataset을 사용하여 수행 한다.
-
최근 실시간 대용량 미디어에 대한 사용자의 요구가 증가함에 따라 자연스러운 영상 재생을 위한 전송 기법이 활발히 연구되고 있다. MPEG MMT 는 이러한 차세대 대용량 미디어 전송 규격으로 주목 받고 있다. 하지만 실시간 대용량 미디어의 크기는 점차 커지고 있고 이에 따라 보다 효율적이고 빠른 전송을 위해서 다각도의 연구가 필요하다. 본 논문에서는 MMT 기반의 실시간 대용량 미디어 전송의 개선을 위하여 병렬 전송을 제안하고 이에 따른 MMT 의 활용 방법을 제시한 인터페이스를 소개한다.
-
최근 네트워크 기술과 스마트 단말의 보급으로 인해 비디오 스트리밍 서비스에 대한 수요가 증가하게 되었다. 네트워크를 효율적으로 사용하여 비디오 스트리밍 서비스를 제공하기 위해 적응적으로 전송률을 조절하는 HTTP (HyperText Transfer Protocol) 적응적 스트리밍 서비스가 주목 받게 되었다. UHD (Ultra High Definition) 콘텐츠는 HD (High Definition) 콘텐츠에 비해 적어도 4 배 이상의 크기를 갖기 때문에 끊김 없는 UHD 콘텐츠 스트리밍 서비스를 제공하기 위해서는 많은 가용 대역폭이 필요하다. 기존의 HTTP 적응적 스트리밍 방식은 정상 상태 (Steady State)에서 가용 대역폭보다 낮은 품질의 비디오 세그먼트를 일정 시간마다 주기적으로 요청하여 다운로드 받는다. 정상 상태에서는 가용 대역폭과 콘텐츠의 인코딩 율에 차이에 따라 On-Off 구간의 패턴이 반복되어 발생하고, 빈번한 Off 구간에 의해서 대역폭이 낭비되는 문제점이 있다. 따라서 본 논문에서는 HTTP 적응적 스트리밍에서 UHD 콘텐츠의 효율적인 대역폭 활용을 위한 세그먼트 전송 기법을 제안한다. 제안하는 기법은 Off 구간의 빈도수를 줄이기 위한 집단 세그먼트 전송 방식과 대역폭 낭비를 최소화 하기 위한 세그먼트 품질 조절기법으로 구성되어 있다.
-
본 논문에서는 관심 영역 보존을 고려한 이미지 리사이징 최적화 기법을 제안한다. 이미지 리사이징은 입력 영상을 다양한 비율의 디스플레이나 하드웨어 플랫폼에 적용이 가능한 비율의 영상으로 변환하는 것에 목적을 둔다. 변환 과정에서 인지적 특성을 고려하여 관심 영역 검출을 통해 주요 객체의 왜곡을 최소화하고자 한다. 목표 비율로의 리사이징 시 각 영역별 변환 비율이 상이하게 결정되어야 하고, 이 과정에서 관심 영역 왜곡과 영상 보간 불가능의 문제가 발생한다. 관심 영역 왜곡과 보간 불가능 상태를 최소화하기 위해 영역별 변환 비율을 결정하는 최적화 기법을 제안하여 관심 영역이 보존된 최적화된 결과 영상을 획득하고자 한다.
-
차종 별 교통량 자료는 도로의 유지관리나 분석 등의 행정 처리 업무에 필요한 기본 자료임과 동시에 각종 연구에 활용된다. 본 시스템은 그 일환으로서 화물차나 일반차량을 구분하여 특정 도로의 화물차 비율이나 교통량을 파악하는데 활용할 수 있다. 머신 러닝 알고리즘 중에서 높은 성능을 보이는 Support Vector Machine (SVM) 알고리즘을 이용하여 도로 위의 일반차량과 화물차를 구분하였다. 우선, 화물차와 일반차량의 차이를 구분하고자 각각의 영상에 대해 Histogram of Oriented Gradients (HOG) 기반 특징점을 추출하고 이에 따라 1 차원 벡터로 표현된 데이터를 SVM 으로 분류하여 구분한다.
-
본 논문에서는 야간 도로 영상을 보정하여 주간 영상으로 변환하는 알고리즘을 제안한다. 영상 변환 딥러닝 알고리즘인 Generative Adversarial Network(GAN)를 기반으로 주야간 도로 영상을 학습시켜 주야간 상호 변환이 가능한 시스템을 구현한다. 우선, 입력 영상에 대해 변환된 영상을 출력하는 generative network 를 정의한다. 또한, 변환된 영상을 다시 본래 영상으로 변환하는 inverse network 를 정의한다. Generative network 와 inverse network 를 모두 통과한 결과 영상과 본래 영상의 차 영상을 통해 손실 함수를 정의함으로써 파라미터를 목적에 맞게 학습시킬 수 있다. 또한, generative network 를 통과한 결과 영상과 목적하는 영상을 구분하는 discrimination network 를 정의하여 discrimination network 와 generative network 의 minimax two- player game 을 통해 변환된 영상이 실제 목적 영상과 유사하도록 유도한다. 제안하는 알고리즘을 적용하여 야간 도로 영상의 보정을 수행하면 주변 물체 인식이 어려운 야간 영상을 물체 인식이 용이한 주간 영상으로 변환 할 수 있다.
-
본 논문에서는 전기 자동차 충전소의 전력 소모량 추정 알고리즘을 웹 서버에 도입하여, 충전소에 의한 전력소비가 주변 전력 계통에 미치는 영향을 모니터링할 수 있는 시스템을 제안한다. 우선, 관련 기관으로부터 공급 받는 지역 내 실시간 충전소 별 이용 상태 정보로부터 충전 시간과 그 횟수를 도출하고, 이를 충전소 마다 누적하여 소비 전력을 추정한다. 이렇게 추정된 충전소 별 전력 소모량을 웹 페이지를 통해 사용자에게 시각화하여 제공한다. 또한 같은 지역의 구간별 실시간 교통량 또한 같은 방식으로 제공하여, 전기 자동차 충전소 전력소모량의 변화 추이와 교통량의 변화 추이 간 상관관계를 확인할 수 있도록 한다. 따라서 제안하는 시스템은 지역 내 전기 자동차 충전소의 전력 소모량 및 그 변화 추이 관측하고 이를 바탕으로 지역 내 충전소 추가 설치 필요성, 전력 계통 부하 예측, 충전소 재배치 등 전기 자동차 충전소 운영 전략을 수립하는데 사용할 수 있다.