한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference) (Proceedings of the Korean Society of Broadcast Engineers Conference)
한국방송∙미디어공학회 (The Korean Institute of Broadcast and Media Engineers)
- 반년간
과학기술표준분류
- 미디어/커뮤니케이션/문헌정보 > 미디어/수용자
한국방송∙미디어공학회 2020년도 하계학술대회
-
최근 MPEG-I 그룹에서는 표준화가 진행중인 몰입형 미디어(Immersive Media)에 대한 압축 성능 탐색이 이루어지고 있다. 몰입형 비디오는 다수의 시점 영상과 깊이 맵을 통한 깊이 맵 기반 이미지 렌더링(DIBR)을 바탕으로 제한적 6DoF 을 제공하고자 하는 기술이다. 현재 MIV(Model for Immersive Video) 기술에서는 바탕 시점(Basic View)과 각 시점의 고유한 영상 정보를 패치 단위로 모아둔 추가 시점(Additional View)으로 처리하는 모델을 채택하고 있다. 그 중에서 추가 시점은 일반적인 영상과는 달리 시간적/공간적 상관성이 떨어지는 분절적인 형태로 이루어져 있어 비디오 인코더에 대해 최적화가 되어 있지 않으며, 처리 방법의 특성에 따라 자기 유사적인 형태를 지니게 된다. 따라서 MIV 에서 스크린 콘텐츠 코딩 성능과 함께 화면 내 블록 카피(IBC: intra block copy) 기술에 대한 성능을 분석 결과를 제시한다. IBC 미적용 대비 최대 7.56%의 Y-PSNR BD-rate 감소가 가능함을 확인하였으며, 영상의 특성에 따라 IBC 의 선택 비율을 확인하여 추가 시점의 효율적인 압축 형태를 고찰한다.
-
최근 몰입형 가상 현실을 제공하기 위한 360 도 영상 전송 기술이 활발히 연구되고 있다. 그러나 현재 가상현실 기기가 가지는 연산 능력 및 대역폭으로는 고화질의 360 도 영상을 전송 및 재생하기에 한계가 있다. 해당 문제점을 극복하기 위해 본 논문에서는 사용자 시점의 고화질 360 도 영상 제공을 위해 사용자 시점 타일을 추출하는 움직임 제한 타일 셋 기반 타일 추출기를 구현한다. Versatile video coding (VVC) 기반 타일 인코더를 이용해 360 도 영상에 대한 비트스트림을 생성한 후, 사용자 시점에 해당하는 타일들을 선택한다. 이후 선택된 타일들은 제안하는 타일 추출기에 의해 추출되고 전송된다. 또한, 전체 360 도 영상에 대한 저화질 비트스트림을 전송하여 갑작스러운 사용자 시점 변경에 대응한다. 제안된 타일 추출기를 기반으로 360 도 영상 전송을 수행하면, 기존 VVC 기반 시스템 대비 대비 평균 24.81%의 bjontegaard delta rate (BD-rate) 감소가 가능함을 확인하였다.
-
최근 초고화질 영상, 가상현실 등 프리미엄 콘텐츠에 대한 요구가 커지면서 360° VR과 8K TV 등의 시장이 확대되고 있다. 360° VR 영상을 만드는 데에 스티칭 기술이 사용되고 있고, 8K 영상을 촬영할 수 있는 장비는 매우 제한적이기 때문에 스티칭 기술을 통해 콘텐츠를 확보하려는 노력이 이어지고 있다. 스티칭 기술은 여러 영상을 합성하여 기존 카메라의 좁은 시야각 문제를 해결하고 보다 넓은 시야각의 영상을 만드는 기술이다. 최근에는 해당 분야에 관한 연구가 진행됨에 따라 이미지를 넘어 동영상 스티칭에 대한 연구가 주로 진행되고 있다, 기존 동영상 스티칭 방식은 이미지 스티칭 방식을 프레임마다 반복하기 때문에 시간이 오래 걸린다는 단점이 있다. 컴퓨터 비전 분야에서는 딥러닝을 활용하여 객체가 존재할 것으로 예측되는 부분에 사각형 모양의 경계 상자(Bounding box)를 생성하는 객체 탐지(Object detection) 분야에 관한 많은 연구가 이루어져 왔고 이를 기반으로 객체의 경계선을 검출하여 해당 영역만을 구분하는 객체 분할(Instance segmentation)에 대한 연구 또한 진행 중이다. 본 논문에서는 앞서 말한 스티칭 속도 문제를 해결하기 위하여 빠른 속도로 객체 분할이 가능한 YOLACT를 이용하여 스티칭 속도를 개선하는 방안을 제안한다.
-
단안 영상에서의 깊이 추정은 주어진 시점에서 촬영된 2 차원 영상으로부터 객체까지의 3 차원 거리 정보를 추정하는 것이다. 최근 딥러닝 기반으로 단안 RGB 영상에서 깊이 정보 추정에 유용한 특징 맵을 추출하고 이를 이용해서 깊이를 추정하는 모델들이 기존 방법들의 성능을 넘어서면서 관련된 연구가 활발히 진행되고 있다. 또한 Attention Model 과 같이 특정 특징 맵의 채널 혹은 공간을 강조하여 전체적인 네트워크의 성능을 개선하는 연구가 소개되었다. 본 논문에서는 깊이 정보 추정을 위해 사용되는 특징 맵을 강조하기 위해서 Attention Model 을 추가한 AutoEncoder 기반의 깊이 추정 네트워크를 제안하고 적용 부분에 따른 네트워크의 깊이 정보 추정 성능을 평가 및 분석한다.
-
심층 신경망은 영상 분류, 음성 인식, 그리고 문자 번역 등 다양한 분야에서 효과적인 성능을 보여주고 있다. 신경망의 구조 변화, 신경망 간의 정보 전달, 그리고 학습에 사용되는 데이터 증대 등의 확장된 연구를 통해 성능은 더욱 발전하고 있다. 그 중에서도 데이터 증대는 기존에 수집한 데이터의 변형을 통해 심층 신경망에 더 다양한 데이터를 제공함으로써 더욱 일반화된 신경망을 학습시기키는 것을 목표로 한다. 하지만 기존의 음향 관련 신경망 연구에서는 모델의 학습에 사용되는 데이터 증대 방법의 연구가 영상 처리 분야만큼 다양하게 이루어지지 않았다. 최근 영상 처리 분야의 데이터 증대 연구는 학습에 사용되는 데이터와 모델에 따라 최적의 데이터 증대 방법이 다르다는 것을 실험적으로 보여주었다. 이에 영감을 받아 본 논문은 자연에서 발생하는 음향을 분류하는데 있어서 최적의 데이터 증대 방법을 실험적으로 찾으며, 그 과정을 소개한다. 음향에 잡음 추가, 피치 변경 혹은 스펙트로그램의 일부 제한 등의 데이터 증대 방법을 다양하게 조합하는 실험을 통해 경험적으로 어떤 증대 방법이 효과적인지 탐색했다. 결과적으로 ESC-50 자연 음향 데이터 셋에 최적화된 데이터 증대 방법을 적용함으로써 분류 정확도를 89%로 향상시킬 수 있었다.
-
본 논문에서는 큰 크기의 심층 신경망을 압축하기위해 네트워크 수준의 가중치 공유방법인 Global Weight 패러다임을 최초로 제시한다. 기존의 가중치 공유방법은 계층별로 가중치를 공유하는 것이 대부분이었다. Global Weight 는 기존 방법과 달리 전체 네트워크에서 가중치를 공유하는 효율적인 방법이다. 우리는 Global Weight 를 사용하여 학습되는 새로운 컨볼루션 연산인 Global Weight Convolution(GWConv)연산과 GWConv를 적용한 Global Weight Networks(GWNet)을 제안한다. CIFAR10 데이터셋에서 실험한 결과 2.18 배 압축에서 85.64%, 3.41 배 압축에서 85.46%의 정확도를 보였다. Global Weight 패러다임은 가중치 공유가 궁극적으로 풀고자 했던 중복되는 가중치를 최소화하는 획기적인 방법이며, 추후 심도 있는 연구가 수행될 수 있음을 시사한다.
-
본 논문에서는 서로 다른 특성을 갖기 때문에 표준화가 어려운 엣지 플랫폼에서 동일한 머신 러닝 모델로도 확장 가능한 분석 서비스를 하기 위해, 마이크로서비스 기반으로 협업 분석 하는 설계 방법을 소개한다. 이를 위해 실제 사용자 분석 결과 적응적인 컨텐츠 서비스 시나리오를 고려하였다. 서로 다른 성능을 갖는 엣지가 협업하기 위해서 클라우드에서 제공 받는 어플리케이션을 마이크로 서비스화 하고 다수의 엣지에 해당 서비스를 분산 분포하여 연결한다. 해당 방법은 전체 서비스를 상호 독립적인 최소 구성 요소로 분할하고 모든 요소가 독립적으로 연동되어 타스크를 수행하게 하며 유사한 프로세스는 공유함으로서 상대적으로 성능이 떨어지는 엣지들간 협력으로 효율적인 분석 서비스 제공이 가능하도록 할 것이다.
-
최근 들어 정부의 적극적인 지원책에 힘입어 전통적인 축산농장의 환경을 스마트 축사로 개선하는 사업이 다양하게 추진되고 있다. 이에 축산농장의 스마트화를 위해 다양한 축산용 ICT 기기들이 개발되어 도입되고 있고, 클라우드기반의 인터넷환경까지 연결되고 있으나, 이러한 ICT 기기들을 사용하여 스마트 축사를 구축하고 운영하는데, 편의성 측면에서나 효율성 측면에서 어려움을 겪는 경우가 다수 발생하고 있다. 이 문제를 해결하기 위해, 축산 현장에서 사용자의 편의성 측면을 고려하여 축산현장 정보를 기록하는 스마트 블랙박스 시스템을 개발하고, 효율성을 고려하여 이 시스템을 위한 지능형 시스템 관제 플랫폼을 개발하였다. 그리고 현장상황에서 실증평가를 통해 축산 인들이 현장에서 축산 ICT 기기를 쉽고, 안전하게 운영하도록 하도록 사용자 환경을 구축하였다. 본 논문에서는 개발된 스마트 축산 ICT 블랙박스 시스템(Smart.Dx)과 IoT센서 수집용 게이트웨이(Smart.Dn), 그리고 클라우드 데이터 분석 솔루션(Smart.Center)을 기술한다. 이 연구내용은 또한 축산업에 종사하는 고령자나 스마트폰 환경에 익숙하지 않은 사용자 환경 특성을 고려하여, 유니버셜 디자인의 7대 원칙을 지원하고 있다.
-
일반적으로 CCTV 녹화기는 24시간 중단없이 다중 카메라로 부터 수신되는 Video, Audio, Meta 데이터를 파일형태로 저장한다. 그리고 다양한 IoT 센서들은 사건(event)이 발생되었을 때, 입력되는 데이터를 기록한다. 그런데 이 형태의 데이터를 통합하여 사용하는 서비스들에 대한 요구가 증대되고 있다. 그런데 영상데이터와 IoT센서 데이터를 분리해 저장하고 관리하는 기존의 방식으로는 사용 센서의 개수 등에 따라 물리적인 크기가 커지고 관리의 복잡성이 커지는 문제가 발생한다. 본 논문에서는 다중 카메라로부터 입력되는 동영상 데이터와 IoT 센서 데이터를 통합하여 저장하는 방안을 제시한다. 이러한 통합 데이터의 고속 입출력을 지원하기 위해, 본 연구에서는 자체 파일시스템을 개발하였고 저장되는 각각의 파일을 mp4 표준을 따르게 하여 호환성을 보장하도록 구현하였다. 그래서 동영상 파일 포맷으로 널리 사용되는 MP4 포맷에 IoT센서 데이터를 함께 저장함으로써 동영상과 IoT센서의 정보를 효율적으로 관리하고 검색의 편의성을 높일 수 있게 되었다.
-
쿠버네티스는 컨테이너를 사용하는 분산 클라우드에서 컨테이너화를 쉽고 빠르게 배포/확장할 수 있어 유용한 플랫폼이다. 쿠버네티스에서 다양한 애플리케이션들이 동작하며 서비스를 제공하고 있다. 서비스의 원활한 제공을 위하여 고객과 서비스수준에 대한 약속인 SLA와 SLA의 기준이 되는 SLO에 필요한 지표를 확인하는 것은 중요하다. 본 논문은 쿠버네티스 클러스터로 구성된 분산 클라우드 DECENTER를 소개하고 DECENTER에서 분산 AI 애플리케이션의 효율적인 SLO를 지원하는 모니터링 시스템을 제안한다.
-
최근 컴퓨터 비전 분야에서는 딥러닝 기술을 활용하면 기존 방식을 뛰어 넘는 높은 수준의 성능 향상을 기대할 수 있다. 특히 고, 영상 감지 시스템에서의 침입 탐지와 같은 보안 분야에서는 실시간 성과 높은 수준의 정확도를 보장하기 때문에 딥러닝 기술의 적용은 필수적으로 인식 되고 있다(Lee et. al., 2019). 본 논문에서는 상용 서비스 중인 영상 감지 시스템의 침입 탐지 기술 동향 및 Edge Computing 기술을 활용한 영상 인식 시스템의 개선 방안을 제시한다.
-
최근 딥 러닝을 이용한 방법들이 이미지 분류에서 뛰어난 성능을 보임에 따라, 복잡한 특징을 담고 있는 얼굴 이미지에 대해 이를 적용하려는 시도가 늘어나고 있다. 특히, 이미지로부터 주요한 특징들을 추출하여 간결하게 이미지를 대표할 수 있는 이미지 기술자 (Image descriptor)를 딥 러닝을 통해 생성하는 연구가 인기를 끌고 있다. 이는 딥 러닝 끝 단에 있는 Fully-connected layer 의 출력으로 얻을 수 있으며 이미지의 의미론적 상관관계를 이용하여 학습된다. 구체적으로, 이미지 기술자는 실수형 벡터 데이터로서, 한 장의 이미지를 수치화 하여 비슷한 이미지 사이에는 벡터 거리가 가깝게, 서로 다른 이미지 사이에는 벡터 거리가 멀게 구성된다. 본 연구에서는 미리 학습된 인공 신경망을 통과시켜 얻은 얼굴 이미지 기술자를 활용하여 멤버 분류를 위한 두 개의 인공 신경망을 학습하는 것을 목표로 한다. 제안된 방법을 검증하기 위해 얼굴 인식에 널리 사용되는 벤치 마크 데이터셋을 활용하였고, 그 결과 제안된 방법이 높은 정확도로 멤버를 분류할 수 있다는 것을 확인하였다.
-
본 논문에서는 합성곱 기반의 얼굴 검출기 Dual Shot Face Detector (DSFD)에 대하여, 특징점 맵의 희소화와 채널 프루닝 목적 함수를 사용하여 네트웍 경량화를 수행하였다. 특징점 맵을 희소화하기 위해 L1 목적 함수를 사용했고, 특징점 맵의 채널 프루닝을 하기 위해 채널 최대값이 가장 낮은 채널들의 합을 최소화 시키는 목적함수를 적용했다. 기존의 신경망은 특징점 맵 희소화 비율이 45%였고 두 목적 함수를 적용했을 때 69.67% 로 희소화 비율이 높아진 것을 확인했다. 얼굴 검출 성능을 다양한 조명, 크기, 환경, 각도, 표정의 얼굴들을 포함하는 영상들로 이뤄진 Wider Face 데이터 셋으로 실험한 결과, average precision은 하락 했고 easy validation set에서 0.9257, hard validation set에서 0.8363 였다.
-
IoT 산업과 인공지능 기술의 발전으로 다양한 데이터를 분석하여 서비스에 쉽게 활용할 수 있게 되었다. 이에 대해 클라우드 기반으로 된 분석 기술이 주로 발전하였으나, 개인 정보 노출 위험성 및 네트워크 종속성 문제를 해결하기 위해 최근에는 엣지 기반으로 분석하고 클라우드와 협업하는 기술 연구가 활발하게 진행되고 있다. 리소스가 제한적인 엣지 디바이스 기반 환경에서 원활한 서비스를 제공하기 위해서는 서비스의 기능을 목적별로 최소화하여 독립적이고 경량화된 어플리케이션을 엣지에 배포하고 실행되게 해야 한다. 마이크로서비스 설계 기법은 이를 해결 할 수 있는 대표적인 방법으로 대두되고 있다. 본 논문에서는 여러 마이크로 서비스의 결과를 전달 받아 최종적으로 적합한 결과를 재생하는 컨텐츠 제공 서비스 구조를 제안하고 구현 결과를 소개하였다. 높은 데이터 처리 성능을 요구하는 영상 처리 서비스를 제공함에 있어 제안하는 방법을 활용하여 엣지 디바이스 활용 효율성을 높이고 보다 만족도 높은 컨텐츠 제공 서비스를 제공할 수 있다.
-
중앙 집중형 구조로 인터넷을 통해 온디맨드 컴퓨팅 리소스를 제공하는 클라우드 컴퓨팅 기술이 범용화 됨에 따라, 다양하고 높은 성능의 컴퓨팅 자원을 사용하는 어플리케이션이 늘고 있다. 하지만 특정 어플리케이션은 인터넷을 이용한 중앙 집중형 구조인 클라우드 컴퓨팅 자원을 사용하는 경우 서비스 품질에 영향을 받을 수 있다. 본 연구는 영상 기반 멤버 검증 어플리케이션의 운용에 있어 영상 데이터의 방대한 크기에 따른 지연시간, 네트워크 병목현상 및 영상에 포함된 얼굴 이미지로 인한 개인신상정보 관련 문제 등을 완화하기 위한 마이크로서비스화 및 분산 배치 기법을 보인다. 또한 이 멤버 검증 어플리케이션의 분산 배치 기법을 적용하여 Docker 컨테이너 단위 마이크로서비스의 배포, 스케일링, 운영을 자동화하기 위한 오픈소스 플랫폼인 Kubernetes를 활용하여 구현함으로써 검증하였다.
-
최근 Panorama와 360도 영상이 대표되는 몰입형(Immersive) 미디어 콘텐츠의 사용이 증가하고 있다. 몰입형 영상 콘텐츠는 사용자에게 현장감을 제공해야 하지만, 촬영 카메라 간의 시차(Parallax)로 인해 영상 콘텐츠에서 시차 왜곡이 발생할 수 있고, 이는 사용자의 콘텐츠 몰입을 제한하기 때문에 해당 영상 콘텐츠의 제작 기술인 영상 스티칭의 높은 정확도가 요구되고 있다. 지금까지 스티칭 영상의 시차 왜곡을 줄이기 위하여 다중 호모그래피 추정 방법과 Seam Optimization 방법이 제안되었지만, 영상 내 사물 배치에 따라 기술 적용이 제한될 수 있다. 이에 본 논문에서는 Mask R-CNN을 활용하여 사물을 세그먼트화하고, 사물의 종류에 따라 각각 다른 가중치 적용을 통해 시차 왜곡을 방지하며, 영상 내 사물의 배치에 따라 시차 왜곡이 발생할 상황에서는 사용자의 인지 중요도가 낮은 사물로 시차 왜곡을 유도하는 영상 스티칭 방법을 제안한다.
-
본 논문에서는 360 도 VR 영상을 전송하는 기법의 일종인 타일 기반 전송을 MMT(MPEG Media Transport) 프로토콜 기반으로 구현하기 위하여 영상의 공간 분할 정보를 전달하는 방법을 소개한다. 360 도 VR 영상 전송은 대용량 미디어 전송인 동시에 사용자의 움직임에 따라 신속하게 적응적 영상을 전달해야 한다. 타일 기반 전송은 HEVC(High Efficiency Video Coding)의 MCTS(Motion Constrained Tile Sets) 기법을 이용하여 뷰포트에 해당하는 타일들을 고화질로 전달함으로써 이러한 요구사항을 해결한다. 반면, MMT 프로토콜은 초저지연 고화질 영상 전송에 유리한 기술로써 사용자의 시점 변화에 따라 기민하게 영상의 품질을 변환시킬 수 있다. 따라서 HEVC 의 SEI(Supplemental Enhancement Information) 메시지에 포함되는 타일들의 공간 분할 정보를 MMT 프로토콜에 적용하는 방식에 따라 적응적 타일 기반 전송 기법의 효율을 높일 수 있다.
-
실감미디어의 수요가 높아짐에 따라, 실감 미디어 컨텐츠 제작에 반드시 필요한 깊이영상에 대한 중요성이 커지고 있다. 다시점 영상으로부터 계산된 깊이 영상은 물체 주위와 배경 영역에 홀을 가지고 있다. 이러한 깊이영상에서의 홀을 채울 때, 이에 대응하는 컬러영상의 색상 특성을 고려하는 방법을 제안한다. 본 논문에서는 컬러 영상의 화소들을 색상 유사성을 이용하여 클래스로 분류하고, 홀의 깊이정보를 예측할 때 같은 클래스의 유효한 깊이값 만을 사용하는 방법을 소개한다. 제안하는 방법을 사용하면 깊이영상의 홀을 효율적으로 채워 넣을 수 있다. 실감미디어 제작에 있어 제안하는 방법을 사용한다면, 사실감 있는 깊이 정보를 얻을 수 있다.
-
본 논문은 UHD 모바일 환경에서 서비스 핸드오프를 위한 관련 파라미터를 DNS 프로토콜을 적용하여 통신망을 통해 제공하기 위한 서비스 핸드오프 제공 방법에 관한 것이다. 이를 위해 본 논문에서는 DNS 기반 서비스 핸드오프 프레임워크를 기술하고, 관련 기능을 검증하기 위한 서비스 핸드오프 송신 플랫폼과 RF 간 또는 RF 와 브로드밴드 간 핸드오프를 처리하기 위한 수신 플랫폼을 소개하고자 한다. 제안한 방법을 적용할 경우 지상파 UHD 모바일 수신기에 브로드밴드 모듈이 탑재될 경우, 사용자의 이동 동선에 최적으로 서비스 핸드오프 정보를 적응적으로 제공할 수 있어 핸드오프 성능을 향상시킬 수 있다.
-
본 논문에서는 ATSC3.0 Layered-Division-Multiplexing Multiple-Inputs-Multiple-Outputs 방송 시스템에서 Core-Layer(CL) 신호 복조 시 기존 Gaussian-Approximation(GA) 기법과 Partial-GA(PGA) 기법을 선택적으로 사용하여 PGA 기법과 성능은 거의 동일하며 복잡도는 더 작은 새로운 Hybrid PGA(HPGA) 복조 기법을 제안하고자 한다. 제안된 복조 기법은 수신단 신호의 Injection Level(IL) 값이 송신 IL보다 높아 CL 신호 입장에서 채널 상태가 좋을 경우 GA 기법을 사용하고, 반대로 수신단 IL 값이 송신 IL보다 낮아 채널 상태나 좋지 않을 경우 성능을 우선한 PGA 기법을 사용하게 된다. 실험 결과 성능은 PGA 기법과 거의 동일하고 복잡도는 PGA 기법의 복잡도 대비 약 25% 정도 작아짐을 보인다.
-
본 논문에서는 기 구축된 케이블 방송망 인프라 교체에 따른 경제적 부담을 줄이면서도 효과적으로 네트워크 개선 및 진화가 용이하도록 가입자에 근접한 지점까지 전송 장치를 위치하는 방법을 제안한다. 최근 들어 케이블 방송망은 융합화, 지능화, 개인화 형태로 발전하는 미래 방송·통신 서비스의 수요 충족에 한계를 보이고 있어 이를 해결하기 위한 전송 기술의 개발 및 네트워크 진화 등이 요구되고 있는 실정이다. 국내 케이블 방송 사업자들도 네트워크 개선 및 신규 서비스 도입 등의 노력을 시도하고 있으나 기존에 설치 및 구축된 케이블 방송·통신 인프라의 전반적인 교체에 따른 경제적 부담이 걸림돌이 되고 있다. 제안한 방법에서는 전송 장비를 셀인입점으로 이동함으로 셀 분할 비용을 절감할 수 있으며 향후 셀인입점 이후의 종단 망만 업그레이드함으로써 네트워크의 개선이 가능한 장점을 가진다.
-
본 논문에서는 정밀한 3차원 복원 및 시점 합성을 위해 매칭 비용을 반복적으로 업데이트하는 Generalized Soft 3D Reconstruction (GenSoft3D) 알고리즘을 제안한다. 먼저 다시점 영상들과 카메라 자세정보가 주어지면 GenSoft3D는 볼륨 기반의 다시점 스테레오 매칭 알고리즘으로 시점별 초기 매칭 비용 볼륨 및 시차 맵을 계산한다. 그 후 정제 과정에서 각 시점은 모든 시차 맵을 이용하여 표면 확률 및 가시 확률을 계산한다. 표면 확률은 초기 매칭 비용 업데이트에 사용하며, 가시 확률은 폐색 영역의 정확한 시차를 계산하기 위해 사용된다. 해당 정제 과정을 일정 횟수 반복할 경우 시점별 고정밀의 시차 맵 획득이 가능하다. 또한 시차 맵의 정확도가 향상됨에 따라 정확한 시점 합성이 가능하다.
-
본 연구는 119구조구급활동 시스템의 데이터를 활용하여 어린이 놀이시설에서 발생한 사고에 대해 분석하였다. 어린이 놀이시설사고는 7~9세, 봄과 가을, 하교시간 이후인 15~18세, 미끄럼틀, 그네, 트램펄린 등에서 사고 발생이 많은 것을 확인 할 수 있었다. 향후 사고 예방을 위해서 취약시간과 놀이기구에 대한 관리 강화 및 픽토그램과 QR코드, 키오스크 형태의 위험안내를 통한 사고예방 및 개선방안을 제시한다.
-
코로나 바이러스가 2019년 12월 처음 중국 우한에서 발생한 뒤 우리나라를 포함한 전 세계로 확산되어 있다. 각 나라에서는 사전차단을 위한 방역과 격리 등 바이러스의 확산을 막기 위하여 온 힘을 다하고 있으며, 우리나라 역시 국가 차원에서 대응정책을 펼치고 있다. 이에 코로나 바이러스를 대비한 정부의 대응정책과 긴급재난문자를 이용한 상황지원 현황, 그리고 포스트 코로나 시대의 긴급재난문자 발전방향에 대하여 살펴보고자 한다.
-
디지털과 인터넷의 발달로 재난안전 정보 서비스는 오프라인, 온라인 등 다양한 채널을 통하여 제공되고 있다. 특히, 재난안전과 관련된 정보는 재난 대비와 재난 피해에 영향을 미치는 점에서 재난안전 정보 서비스 제공은 중요하다. 그러나 노인은 오프라인과 온라인 정보 접근성에 있어 제한사항이 있다. 따라서 본 연구에서는 노인의 관점에서 현재 제공되고 있는 대비에 초점을 둔 재난안전 정보 서비스를 오프라인과 온라인으로 구분하여 현황분석을 하였다. 노인을 위한 재난안전 정보 서비스의 개선방안을 통하여 앞으로 재난안전 정책에서 나아가야할 방향을 살펴보고자 한다.
-
현대 사회에서는 재난의 유형과 피해가 다양해지고 이에 따른 위험성이 증가하여 재난에 대응하기 위한 운영 및 관리의 필요성이 증가하고 있다. 특히 건축물의 대형화, 복잡화로 인하여 대규모 상업시설 및 다중이용시설은 실내 구조가 복잡하기 때문에 재난 발생 시 안전한 대피 경로를 파악하여 이동하는 것이 어려운 문제가 있다. 이에 본 연구에서는 재난 발생 시에 대규모 시설 내에서 이용자가 안전한 대피경로를 확인하고 이동할 수 있도록 지원하기 위한 통합관제체계 구축 방안에 대해서 연구하였다. 본 연구에서 제시하는 통합관제체계와 스마트폰 어플리케이션을 연계하여 재난 발생 시, 시설 이용자에게 안전한 대피경로를 안내함으로써 실내 공간에서의 대패를 지원할 수 있다.
-
어린이 교통관련 안전사고 잠재적 위험요인 및 개선요인을 도출하기 위해 119구조구급자료 중 6세부터 11세까지의 어린이 사고 자료를 분석하였다. 4개 광역지자체의 2014년부터 5년간 자료에 대한 사고내용을 전수 조사하여 분석하였다. 주요 사고 장소 및 시간대 분석 결과 어린이 교통사고는 하교시간 오후 시간대에 도로에서의 집중적 관리가 필요한 것으로 나타났다. 어린이 교통사고 잠재적 위험요인을 분석한 결과 자동차와 자전거를 이외 탈 것에 관한 사고비율이 최근 높아지고 있음을 확인하였다. 연간 교통사고 전체 건수에 대한 추이는 큰 변화는 없었으나 개인 탈것의 사고 증가는 뚜렷하였다. 그 중 킥보드에 대한 사고가 가장 많았고, 퍼스널 모빌리티가 가장 뚜렷한 증가 분야였다. 현재 어린이에게 적용되고 있는 퍼스널 모빌리티 등에 대한 안전가이드라인이나 규정 등은 미비하나 향후 퍼스널 모빌리티의 보급은 크게 늘어날 것으로 전망된다. 향후 어린이 교통사고를 줄이기 위해서는 어린이가 개인 전동 이동수단 활용 시 안전에 대한 규정마련과 교육이 시급하다.
-
재난 상황 발생 시 피해를 최소화하기 위해서는 재난 발생에 대한 신속한 경보와 재난 상황에 대응할 수 있는 정보를 알리는 것이 중요한 요인이다. 이를 위해 여러 국가에서는 음성, 영상, 문자 등 다양한 형태로 재난 상황에 대한 정보를 전달하는 기술에 대해 개발을 진행하고 있다. 이러한 기술 중 휴대전화의 문자전송 기능을 기반으로 재난 정보를 전달하는 기술은 스마트폰에 대한 보급률 증가와 기지국 기반 전송으로 재난 발생 범위에 대한 근접한 정보 제공 기능을 갖춘 대표적인 재난 정보전달 기술이다. 본 논문에서는 이러한 재난문자 서비스에 대한 일본 현황에 대해 살펴봄으로써 기술적으로 고도화되어야 할 방향에 대해 논의하고자 한다.
-
최근 딥러닝을 이용한 자동차 번호판 인식 알고리즘에 있어서 인조 번호판을 생성하여 데이터 수집과 라벨링 작업 시간을 줄이기 위한 연구가 진행되고 있다. 하지만 인조 번호판의 특성상 정면의 이미지로 구성되어 있기 때문에 자동차의 정면에서 촬영된 번호판의 인식률은 높지만 측면에서 촬영된 번호판의 경우 인식률이 낮아진다. 본 논문에서는 다양한 카메라 설치 위치에 따른 다각도로 촬영된 번호판 영상의 인식률을 보완하기 위해 이미지를 3차원으로 회전하여 데이터를 생성하는 인조 번호판 생성기 프로그램을 개발하였다. 3차원 회전을 하였을 때 번호판 인식 성능을 비교하기 위해 기존 방식으로 생성한 번호판과 제안 방식으로 생성한 번호판 각 600,000장씩 생성하여 총 1,200,000장을 생성하였으며, 데이터의 비율에 따라 10가지의 학습 데이터 셋을 구성하였다. 인조 번호판 데이터의 학습 결과를 평가하기 위해 실제 번호판 이미지 1789장으로 테스트 셋을 구성하였고, 기존의 인조 번호판 생성 방식과 인식 정확도를 비교 분석하였다.
-
기존에 개발한 삼각형 닮음 조건 기반 영상 간 유사 공간 계산 알고리즘은 근접 거리에 과도하게 많은 특징점이 추출되면 정확도가 낮아지는 점, 계산 과정에서의 Threshold를 주관적으로 설정해 주어야 해 정확한 Threshold를 찾기 위하여 전체 알고리즘을 여러번 반복하여 실행시켜야 하는 점에서 비효율적인 측면이 있다. 이를 해결하기 위하여 본 논문에서는 기존의 삼각형 닮음 조건 기반 영상 간 유사 공간 계산 알고리즘에 근접 거리 내의 특징점을 제거하는 알고리즘과 서로 다른 Threshold를 가진 유사 공간 계산 알고리즘들을 병렬적으로 계산해 한 번의 알고리즘 실행만으로 자동적으로 적절한 Threshold를 찾을 수 있도록 하는 모듈을 추가하여 기존의 알고리즘과 비교하여 더 효율적으로 영상 간 유사 공간을 계산해낼 수 있도록 개선된 삼각형 닮음 조건 기반 영상 간 유사 공간 계산 알고리즘을 제안한다.
-
마스크 쓴 얼굴에 대해 랜드마크 분석을 진행하기 위해서는 대량의 마스크가 착용된 얼굴 데이터셋이 필요하다. 본 논문에서는 공개된 얼굴 데이터셋에 자동으로 마스크를 합성하여 대량의 마스크를 착용한 얼굴 데이터셋을 생성하는 시스템을 제안한다. 마스크는 얼굴의 많은 부분을 가리는 물체이다. 따라서 마스크를 쓴 얼굴에 대해서는 일반적인 얼굴 데이터셋으로 학습된 landmark detector가 잘 작동하지 않는다. landmark detector가 잘 작동하게 하려면 마스크를 쓴 얼굴에 대해서 학습을 시켜야 한다. 그러나 현재 마스크를 쓴 얼굴 이미지와 풍부한 landmark 정보를 함께 가지고 있는 데이터셋이 존재하지 않기 때문에 학습에 어려움이 있다. 이 문제를 해결하기 위해 마스크 얼굴 이미지 데이터셋을 만들어내는 방법을 제안하고 마스크를 착용한 얼굴에도 잘 작동하는 랜드마크 검출기를 학습시켜 그 효용을 입증하였다.
-
저조도 환경에서 획득한 CCTV 컬러 영상은 품질이 좋지 않으므로, 일정 조도 이하의 저조도에서 CCTV 는 근적외선을 이용하여 회색조 영상을 획득한다. 본 논문에서는 저조도에서 획득한 근적외선 영상을 이용한 물체 검출 및 GAN 을 통해 재구성된 컬러 영상에 생기는 컬러 잡음을 제거하는 방법을 제안한다. 기존의 재구성된 컬러 영상의 PSNR 측면에서 22.5dB 가 나왔으나, 영상 합성을 통해 컬러 노이즈를 제거한 영상의 PSNR 은 34dB 가 나왔다. 본 논문은 컬러 노이즈를 제거하면서 원래의 색의 유지가 제대로 이루어 졌는지는 주관적인 평가 방법을 통해 확인하였다.
-
본 논문에서는 초고속 카메라 기반 투구 궤적 분석 시스템 자동화를 위한 투구 유무 판단 방법을 제안한다. 기존의 카메라 기반 투구 궤적 분석 시스템에서는 궤적 분석을 위한 투구 영상을 수동으로 확보해야 하는 한계가 있다. 이를 해결하기 위해 투수가 던진 공이 포수를 향해 등가속도 운동을 한다는 특성을 이용하여 자동으로 영상 시퀀스 내 투구 유무를 판단한다. 먼저 프레임 별로 야구공 위치를 추정하고, 추정된 공 위치들을 사용해 공 궤적을 모델링한다. 이후 모델링 된 각 궤적 별로 투구 시작 위치와 종료 위치를 획득하고, 시작 위치와 종료 위치에 대한 편차 값을 기준으로 투구 유무를 결정한다. 제안하는 방법의 정확도를 측정하기 위해 실제 야구 경기를 촬영한 영상을 이용하여 실험하였고, 영상 내 모든 투구를 정확하게 판단했음을 확인하였다.
-
본 논문에서는 VVC 화면간 예측 모드 Combined Inter-intra Prediction(CIIP)의 화면내 예측 과정에서의 향상된 PLANAR 예측 방법을 제안한다. Combined Inter-intra Prediction(CIIP) 모드는 화면간 예측 신호와 PLANAR 모드로 생성되는 화면내 예측 신호를 가중합 하여 최종 예측 신호를 생성하는 모드이다. 제안하는 방법은 화면간 예측 신호로 생성된 예측 샘플을 PLANAR 모드 예측 과정에서 우측 및 하단의 참조 샘플로 사용한다. 이후 PLANAR 예측 및 가중합 하여 예측 신호를 만들어내는 것은 기존 CIIP와 동일하다. 제안하는 방법의 성능 평가를 위하여 VVC의 참조 소프트웨어인 VTM 9.0에 구현하였으며, 기존 VTM 9.0과 부호화 성능을 비교한 결과로 휘도 성분에서 0.01 % 부호화 성능 감소를 보이고 색차 성분에 대하여 각각 0.17%, 0.13% 부호화 성능 향상을 보인다.
-
비디오 영상으로부터 객체를 추적하는 문제에 있어서 폐색은 오늘날까지도 해결해야하는 문제 중 하나다. 폐색이란 영상 속 찾고자 하는 객체가 이전 프레임에서는 존재했지만 특정 프레임에서는 전경 혹은 다른 객체에 의해 가려져 모습이 보이지 않는 것을 의미한다. 폐색이 나타난 상황에서 해당 객체를 추적하기 위해서는 이전 프레임까지 추적된 정보를 바탕으로 영상에 다시 객체가 나타날 때까지 위치를 잘 예측해야 한다. 본 논문은 비디오 영상의 폐색 환경에 강인한 다중 객체 추적 알고리즘을 제시한다. 이를 위해 딥러닝 기반의 LSTM 구조를 활용하여 객체의 형태 정보를 학습하고 칼만 필터를 이용해 객체의 속도 정보를 학습한다. 두 정보를 조합하여 폐색이 발생하였을 때 객체의 형태와 위치를 예측하여 영상 속에 객체가 다시 등장하더라도 추적 성능을 최대화 한다.
-
인물에 대한 얼굴 이미지 데이터를 수집할 때 유효하지 않은 데이터를 수작업으로 걸러내는 것은 많은 시간과 인력의 투자를 필요로 한다. 얼굴 데이터 셋을 생성할 때 FaceNet을 거쳐 불필요한 정보들을 미리 걸러내고, 사람이 직접 얼굴 데이터의 유효성을 체크하는 수고를 덜어 얼굴 데이터 셋 생성에 있어서의 번거로움을 줄이고자한다. 본 논문에서는 FaceNet을 통해서 얼굴 이미지 데이터에 대한 데이터 수집 시, 더욱 좋은 성능으로 정제된 데이터 셋을 생성하고자 하였다.
-
본 논문은 단일의 옷감 이미지로 가상의 그래픽 렌더링을 위해 Pix2Pix 방법을 이용하여 Normal map 을 생성하는 방법을 제시한다. 구체적으로 단일의 이미지를 이용해서 Normal map 를 생성하기 위해, Color image 와 Normal map 쌍의 training dataset 을 Pix2Pix 방법을 이용해서 학습시킨다 또한, test dataset 의 Color image 를 입력으로 넣어 생성된 Normal map 결과를 확인한다. 그리고 선행연구에서 사용되어오던 U-Net 방식의 방법과 본 논문에서 사용한 Pix2Pix 를 이용한 Normal map 생성 결과를 SSIM(Structural Similarity Index)으로 비교 평가한다. 또한, 생성된 Normal map 을 렌더링하고자 하는 가상 객체의 사이즈에 맞게 사이즈를 조정하여 OpenGL 로 렌더링한 결과를 확인한다. 본 논문을 통해서 단일의 패턴 이미지를 Pix2Pix 로 생성한 Normal map 으로 옷감의 디테일을 사실감 있게 표현할 수 있음을 확인할 수 있었다.
-
보행자 재 검출 알고리즘, 즉 person Re-Identification 알고리즘은 주어진 영상 내에 존재하는 보행자들 중 특정 보행자를 검출해내는 방법이다. 최근까지 보행자 재 검출 알고리즘에 대한 여러 연구가 진행되어 오고 있지만 기존의 CNN 네트워크를 이용한 보행자 재 검출 알고리즘의 경우, 실제 영상 데이터를 이용하여 보행자 재 검출을 할 경우 주변 환경 조건이나 조명의 조건, 보행자를 촬영한 방향 등에 따라 정확도가 떨어지는 현상이 발행한다. 이에 따라, 보행자 재 검출 알고리즘을 수행하는데 있어서, 조명 등의 조건에 구애 받지 않고 정확한 검출을 할 수 있도록 style transfer를 이용하여 영상을 변형하여 보행자 재검출을 수행하는 연구를 진행한다.
-
본 논문에서는 다중 스케일로 구성된 뉴럴 네트워크를 이용하여 영상 내 모아레 무늬을 제거하는 기법을 제안한다. 제안하는 기법은 영상 피라미드를 생성하여 모아레 무늬를 구성하는 다양한 주파수 범위의 정보를 제거한다. 각 branch는 Multi-scale Feature Block (MFB)과 Tone-Mapping Block (TMB)으로 구성하여 효과적으로 모아레 현상을 제거하고 저하된 색상 저하를 복원한다. 컴퓨터 모의실험을 통해 제안하는 기법이 기존 기법에 비해서 높은 모아레 제거 성능을 보이는 것을 확인한다.
-
본 논문에서는 dense point cloud 의 평면영역에서 발생하는 bump 을 줄이기 위한 방법을 제시한다. 이상적인 point cloud 의 평면영역에서 점의 위치의 차이가 균일하다는 특성을 이용하여 점의 위치를 재구성하는 방식을 제시한다. 또한 더 작은 개수의 점으로 물체를 나타낼 수 있으며, 더 작은 잡음이 나타나는 sparse point cloud 의 성질을 고려하여 dense point cloud 의 점의 개수 또한 감소시킨다. 따라서 제안하는 알고리즘을 적용하여 dense point cloud 의 잡음을 감소시키면 평면영역의 bump 감소 및 점 개수의 감소를 통한 데이터 전송 시 더 작은 크기로 보낼 수 있다.
-
In this letter, we propose a novel approach for stitching stereoscopic panoramas. When stitching stereoscopic panoramas, the amount of depth retrieved is the most important factor to pay attention for. Also, it is very crucial to deliver the two left and right panoramas with the right depth information to deliver good 3D perception. However, when stitching the two panoramas independently using the state-of-the-art algorithms and methods, we do still have some inconsistencies with the disparity map retrieved from the panoramas. To overcome this problem, we propose a method that modifies the latest conventional algorithm by making the two panoramas dependent of one another. This brings two panoramas with a much more consistent disparity map that lets users fully immerse into a comfortable stereoscopic vision.
-
Light Field (LF) cameras capture both spatial and directional information of light rays. Current LF cameras have a problem of a low spatial resolution. There have been lots of existing works carried out to improve the resolution of LF images. In this paper, those existing works will be divided into two categories: hardware-based approaches and software-based approaches, and we will look into and compare several experiment results in order for LF spatial resolution enhancement. Finally, the direction for the future spatial resolution enhancement will be suggested.
-
포인트 클라우드 콘텐츠는 실제 사물을 수천만 개의 점으로 표현하는 미디어 콘텐츠이다. 각 점들은 색상 값과 3 차원 공간상의 위치로 구성 되어있다. 이러한 컨텐츠를 영상 미디어로 활용하기 위해서는 실시간으로 네트워크를 통해 전달되는 포인트 클라우드 콘텐츠를 고품질의 영상으로 시각화 할 필요성이 있다. 본 연구에서는 포인트 클라우드 콘텐츠를 구성하는 점들이 임의의 순서로 입력될 때, 각 점이 투영된 형상을 원형으로 나타내어 블렌딩하는 원형 splat 기반의 실시간 시각화 기법을 제안한다.
-
본 논문은 고정되지 않고 흔들리는 영상을 각 프레임마다 이미지 스티칭(Image Stitching)으로 비디오를 구성하였을 때 생기는 영상이 심하게 흔들리는 문제 등을 보완하기 위해 새로운 비디오 스티칭(Video Stitching) 방법을 제안한다. NISwGSP 알고 리즘으로 각 프레임 이미지를 스티칭하고 스티칭 형태를 어느 정도 유지시켜주는 새로운 코스트 함수를 도입하여 스티칭 영상의 흔들림 문제를 해결한다. 메쉬(Mesh) 기반 이미지 스티칭 알고리즘인 NISwGSP를 써서 비디오 스티칭을 할 때 메쉬의 버텍스(Vertices)를 이전 프레임의 버텍스로 유지하도록 하여 스티칭 형태를 고정시키는 것이 본 논문에서 제시하는 방법이다.
-
포인트 클라우드는 2D 이미지를 3D 로 복원하고 표현하는 방법으로써 많은 연구가 진행되고 있다. 하지만 포인트 클라우드로만 표현할 경우 포인트와 포인트 사이에 빈 공간이 존재하여 실제 3D 물체와 차이가 존재한다. Mesh Reconstruction 은 보다 실제 3D 물체처럼 보이기 위해 포인트와 포인트를 이어 mesh 를 생성하는 방법인데 생성된 mesh 의 quality 는 texturing 을 거친 최종 결과에 큰 영향을 끼친다. 기존에 존재하는 이미지를 기반으로 생성된 포인트 클라우드의 Mesh Reconstruction 방법은 노이즈에 어느 정도 강한 면을 보이지만 최종 결과에서 잘 이어진 mesh 를 생성하지 못하고 hole 이 존재하는 문제가 있다. 본 논문에선 노이즈에 강하면서 최종 결과에서 잘 이어진 mesh 를 만들 수 있도록 하는 Mesh Reconstruction 알고리즘을 제안한다.
-
Depth map is the most common way of expressing 3D space in immersive media. In this paper, we propose a post-processing method to improve the quality of depth map. In proposed method, a depth map is divided into segments, and the plane of each segment estimated using RANSAC. In order to increase the accuracy of the RANSAC process, we apply matching reliability of each pixel in depth map as a weighting factor.
-
기존의 스티칭 사용되어 온 특징점 추출 방법들은 영상의 고주파 영역과 저주파 영역에 따라 빈도수가 다르다는 특징이 있고, 이러한 특징점 빈도수의 불균일성 없이, 일정한 간격으로 분포하는 특징점 매칭하는 계층적 탐색 기반 매칭 방법을 제안한다. 이는 스티칭 영상의 화질 개선뿐만 아니라 3D VR 영상의 화질개선에서도 효과를 줄 수 있다.
-
3DoF+ 및 6DoF를 구현하기 위해선 사용자의 움직임에 따른 운동시차를 반영하여 가상 시점 이미지를 렌더링 해야 한다. 이를 위한 방법 중 하나인 멀티뷰 기반 합성 방법은 멀티뷰 데이터(텍스쳐, 뎁스맵, 카메라 파라미터)를 기반으로 가상 시점 이미지를 합성한다. 본 논문은 멀티뷰 기반 합성의 과정 중 하나인 메쉬 구성 단계에서 뎁스맵과 텍스쳐의 엣지 정보를 고려한 효율적인 메쉬 구성을 제안한다. 제안 방법은 각 2×2 화소 격자 단위로 엣지의 방향을 측정하고 측정한 엣지를 고려한 보간으로 1/2 화소들을 생성한 뒤, 이 새로운 화소들을 메쉬 구성에 이용하여 기존 방법보다 특성이 비슷한 화소끼리 메쉬를 구성하게 하였다. 제안한 방법으로 합성된 이미지는 뭉게짐 현상과 잔상 현상이 사라진 결과를 보였다.
-
3DoF+ 비디오 부호화 표준을 개발하고 있는 MPEG-I 비주얼 그룹은 표준화 과정에서 참조 SW 코덱인 TMIV(Test Model for Immersive Video)를 개발하고 있다. TMIV 는 제한된 공간에서 동시에 여러 위치에서 획득한 뷰(view)의 텍스처(texture) 비디오와 깊이(depth) 비디오를 효율적으로 압축하여 임의 시점의 뷰 렌더링(rendering)을 제공한다. TMIV 에서 수행되는 깊이 비디오의 비트 심도 스케일링 및 압축은 깊이 정보의 손실을 발생하며 이는 렌더링(rendering)된 임의 시점 비디오의 화질 저하를 야기한다. 본 논문에서는 보다 효율적인 깊이 비디오 압축을 위한 히스토그램 등화(histogram equalization) 기반의 구간별(piece-wise) 깊이 매핑 기법을 제안한다. 실험결과 제안기법은 자연 영상(natural sequence)의 End-to-End 부호화 성능에서 평균적으로 3.1%의 비트율 절감이 있음을 확인하였다.
-
본 논문에서는 다시점 카메라 시스템을 통해 실사기반의 3D 모델을 획득하여 모션센서와 같은 별도의 기기 없이 해당 모델에 대한 고정밀 스켈레톤 추출 기법에 대해서 제시한다. 다시점 카메라 시스템을 이용하여 생성한 3D 모델을 앞, 뒤, 좌, 우 각 위치에서의 사상 매트릭스로 사상 영상을 생성하고 딥러닝 기술을 이용하여 2D 스켈레톤을 추출한다. 그리고 사상 매트릭스의 역변환 과정을 통해 2D 스켈레톤의 삼차원 좌표를 계산하고 추가적인 후처리를 통해 고정밀 스켈레톤을 획득한다.
-
본 논문에서는 원격 탐사 영상 정합에서 정확도는 유지하면서 특징점 매칭 (Matching) 복잡도를 줄이기 위해 입력 영상을 전처리하는 구조물 검출 네트워크를 이용한 원격 탐사 영상 정합 방법을 제안한다. 영상 정합의 기존 방법은 입력 영상에서 특징점을 추출하고 설명자 (Descriptor)를 생성한다. 본 논문에서 제안하는 방법은 입력 영상에서 특징점 매칭에 영향을 미치는 구조물만 추출하여 새로운 영상을 만들어 특징점을 추출한다. 추출된 특징점은 필터링 (Filtering)을 거쳐 원본 영상에 매핑 (Mapping)되어 설명자를 생성하여 특징점 매칭 속도를 향상시킨다. 또한 구조물 검출 네트워크에서 학습 영상과 시험 영상의 특성의 차이로 생기는 성능 저하 문제를 개선하기 위해 히스토그램 매핑 기법을 이용한다. 아리랑 3 호가 획득한 원격 탐사 영상에 대한 실험을 통해 제안하는 방법은 정확도를 유지하면서 계산 시간을 SURF 보다 87.5%, SIFT 보다 92.6% 감소시킬 수 있다.
-
이머시브 비디오 서비스를 위해 MPEG-I Visual 그룹에서는 3DoF+ 기술과 관련하여 MIV(Metadata for Immersive video)의 표준화를 진행하고 있으며, 이를 위해 다시점 영상 및 전방위 장면을 촬영한 ERP 규격의 영상들이 주어진 경우에 운동시차를 제공할 수 있는 영상 합성 레퍼런스 소프트웨어인 TMIV SW를 제공한다. TMIV는 기본적으로 송신부인 인코더와 수신부인 디코더로 구성이 되어있으며, 인코더에서 가장 중요한 기능은 다수의 입력 시점영상 간의 중복된 데이터를 찾아내서 제거하는 프루닝 과정이다. 프루닝 방법에 따라 데이터 전송량과 디코더에서의 합성 품질이 달라지기 때문에 인코더에서 핵심이라고 할 수 있다. 본 논문은 인코더의 프루닝의 효율을 높이기 위해 전체 흐름도에서 프루닝 순서 변경 과정을 추가하고 그 과정에서 시점 영상간 중첩 영역을 계산하여 이를 토대로 프루닝 순서를 결정하는 방법을 제안하였고 이를 통해 데이터 압축률이 향상됨을 확인할 수 있었고, 또한 수신부에서 영상 합성의 품질이 달라짐을 확인할 수 있었다.
-
본 논문에서는 포인트 클라우드 정합 시스템 자동화를 위한 재정합 프로세스에서 정합의 실패 유무를 판단하는 기존의 정합 평가 방법을 개선한 방법을 제안한다. 포인트 클라우드 정합 자동화를 위해 정합의 실패를 판단하여 다시 정합하는 재정합 프로세스는 자동화 시스템에서 필수적인 요소이다. 기존의 정합 평가 방법은 정합하고자하는 두 포인트 클라우드의 점의 간격이나 데이터의 양이 다를 경우 계산된 정합 오차가 정성적인 결과와는 다르게 측정되는 문제가 발생하는데, 이는 재정합 프로세스에서 치명적인 오류를 초래한다. 제안하는 방법은 참조 포인트 클라우드에서 가장 인접한 목표 포인트 클라우드의 세 점이 이루는 평면과의 수직 거리를 계산하고, 일정 거리 임계치를 만족하는 점들의 개수를 측정해 계산된 오차를 검증하여 정합 오판단율을 효과적으로 감소시켰다.
-
컴퓨터 생성 홀로그램(CGH)에서 시야각은 매우 중요한 특성이다. 시야각에 따라 홀로그램을 볼 수 있는 영역이 결정되며 시야각을 넘어가게 되면 재구성된 오브젝트가 잘려 보이게 된다. CGH의 최대 시야각은 회절 격자 방정식에 의해 결정이 되며, 해당 수식에 따르면 홀로그램 재생 장치인 공간 광 변조기(SLM)의 픽셀 피치에 반비례한다. SLM의 픽셀 피치를 줄이는 것은 어렵고 비용이 많이 들기 때문에 본 논문에서는 고해상도 랜덤 바이너리 위상 마스크를 SLM에 부착하여 CGH의 시야각을 확장하는 방법을 제안한다. CGH를 계산하는데 자주 사용되는 반복 푸리에 변환 알고리즘(IFTA)에 위상 평균화 단계를 도입하여 SLM과 위상 마스크간의 픽셀 크기 및 개수의 차이를 극복하였다. 또한 스칼라 회절 이론을 바탕으로 한 홀로그램 시뮬레이션에 제안한 방법을 적용 후 가상 눈 모델을 도입하여 두 개의 물체로 이루어진 홀로그램을 재구성하고 여러 각도에서 관찰하여 시야각이 향상되는것을 검증하였다.
-
JPEG 위원회는 JPEG XL 이라 불리우는 차세대 이미지 코딩의 표준화를 진행하였다. JPEG XL 은 기존 JPEG 에서 사용하는 8×8 크기의 블록뿐만 아니라, 최소 2×2 부터 최대 32×32 크기의 블록을 유동적으로 사용함으로써 부호화 성능의 개선을 가능하게 한다. 부호화기 구조 내의 DCT 블록 분할은 부호화 성능을 결정하는 주요한 요소 중 하나이다. 본 논문에서는 SML(Sum Modified Laplacian)을 기반으로 하는 DCT 블록 분할 방법을 제안한다. 제안하는 방법은 이미지에서 상대적으로 변동이 적거나 균일한 영역을 선택하기 위해 SML 을 활용하였으며, 이 영역에서는 큰 DCT 블록으로 부호화하여 기존 부호화기의 성능을 개선하였다.
-
JPEG 은 현재의 디지털 이미지 시장에서 가장 널리 사용되는 형식 중의 하나로 대부분 디지털 이미징 응용에서 많이 사용되고 있다. 이와 같은 환경에서 새로운 이미지 부호화 표준의 적용이 없이 현재의 디지털 시장에 쉽게 적용할 수 있는 부호화 방법을 제안한다. 논문에서는 JPEG 의 부호화에 사용되는 YCbCr 색 공간에서 YCbCr 성분의 좌표축을 변환하여 밝기 성분 (Y 성분)이 보다 많은 정보를 가지도록 하는 CCT (Color Coordinate Tuning) 알고리즘을 제안한다. 실험을 통하여 블록별로 동적으로 CCT 알고리즘을 적용함으로써 기존 JPEG 부호화의 성능이 개선됨을 보였다.
-
본 논문에서는 Intra 코딩 기반의 위상 홀로그램 압축 방법을 제안한다. 제안하는 방법은 다음과 같다. 홀로그램을 Intra 코딩의 블록 단위로 세그먼트를 나누는 과정, Intra 코딩의 예측을 고려한 위상 펼침 과정, H.265/HEVC 입력을 고려한 양자화 과정, 마지막으로 H.265/HEVC를 이용한 압축과정으로 구성된다. 제안한 알고리즘은 위상정보에 아무런 전후처리를 하지않고 H.265/HEVC를 압축한 결과보다 100:1 이상의 고압축률 구간에서 압축효율이 향상되었다.
-
논문에서는 3D 체적형 모델을 이용하여 홀로그램에 랜덤 위상 효과를 주는 방법을 제안한다. CGH(Computer Generated Hologram)에서 랜덤 위상의 추가는 실제 촬영하여 획득한 홀로그램에서 물체 표면의 난반사에 대한 영향을 고려한 것이다. 이 랜덤 위상은 생성한 홀로그램의 광 시야각 확장 효과가 있다. 하지만 이것은 랜덤으로 발생하기 때문에 홀로그램 시퀀스를 생성할 때 같은 객체 표면에 대해서 고정된 효과를 줄 수 없다. 본 논문에서는 CGH를 진행할 때 물체의 고유한 랜덤 위상 추가를 위해 3D 체적형 모델을 사용하는 방법을 제안한다.
-
고해상도의 홀로그램을 얻기 위한 다양한 연구가 지속되고 있다. 본 논문은 고해상도의 위상 홀로그램을 획득하기 위하여 딥러닝 기반의 학습과 복원 결과를 가지고 분석을 진행한다. 사용된 위상 홀로그램은 보편적인 이미지와 값의 범위가 동일하다. SISR(Single Image Super Resolution)에서 좋은 결과를 보인 네트워크를 사용하여 위상 홀로그램에 대한 학습을 진행하였다. 네트워크로 획득한 홀로그램과 원본 홀로그램의 복원 결과를 비교하여, 차이점과 개선해야할 것들에 대해서 심도 있게 분석한다.
-
본 논문에서는 딥 러닝 기반의 홀로그램생성기를 통하여 얻은 홀로그램의 공간 확장 기법을 제안한다. 방대한 계산 양을 줄이기 위하여 딥 러닝 기반의 홀로그램생성기를 만들었다. 하지만 이 홀로그램생성기는 객체가 놓일 공간에 제한이 있다. 홀로그램생성기의 공간 확대는 학습시간이나 네트워크의 확장 등 비용적 부담이 크다. 따라서, 생성기로부터의 홀로그램을 서브 홀로그램으로 이용하여 넓은 공간의 객체를 홀로그램으로 만들고 복원할 수 있음을 보인다.
-
본 논문은 USAC(Unified Speech and Audio Coding) 오디오 부호화 기술의 성능 개선에 관련한 것이다. USAC 은 FD(Frequency domain) 양자화 모듈과 LPD(Linear prediction domain) 양자화 모듈을 탑재하고 있다. 본 논문에서는 LPD 모드로부터 생성되는 잔차신호에 대하여 주파수 영역에서 다중밴드로 분할하고 각 밴드 별 양자화를 독립적으로 수행함으로써 USAC 의 LPD 모드의 양자화 효율을 개선하였다. 그 결과 동일 조건에서 제안방법이 기존의 LPD 모드의 성능을 음질 측면에서 향상시킴을 확인할 수 있었다.
-
6 자유도 오디오 재현 기술은 사용자가 6 자유도를 가지는 콘텐츠 또는 응용에서 음향학적 주변 환경과 사용자의 위치에 맞는 오디오를 재현하는 기술로서, 가상 현실, 게임 등에 적용이 될 수 있다. 6 자유도 오디오는 기존의 고정된 위치에서 재생되는 채널 기반 오디오와는 다른 특징이 있어 오디오 재생 장치와 헤드폰 또는 스피커만으로 수행하던 기존의 오디오 청취 평가 방법으로 비교하고 평가하는 것이 불가능하다. 최근 MPEG 오디오 서브그룹에서는 6 자유도 오디오 재현 기술에 대한 표준화를 진행하고 있으며, 이를 평가할 수 있는 시스템도 함께 제시하고 있으며, 2019 년 12 월에는 제안한 시스템을 활용한 파일럿 테스트가 진행이 되었다. 본 논문에서는 MPEG 에서 진행한 파일럿 테스트 시스템과 평가 방법에 대하여 살펴보고, 본 기관에서 평가한 내용 및 결과에 대해 기술하며, MPEG 에서 제시한 평가 시스템이 6 자유도 오디오 재현 기술의 평가에 적절한지에 대한 의견을 제시한다.
-
오디오 초 해상도 기술은 저 해상도의 오디오 신호를 이용하여 고 해상도의 오디오를 복원 또는 생성해 내는 기술이다. 본 기술 분야는 기존에 주파수 대역 확장, 인공 대역 확장 기술 등으로 연구되었으나, 최근 딥러닝 기술의 발전, 이미지 초 해상도 기술 연구 등에 힘입어 오디오 초 해상도 기술 이라는 이름으로 주로 연구되고 있다. 본 논문에서는 이러한 오디오 초 해상도 기술에 연구 동향에 대하여 설명하고, 기존의 논문 들에서 주로 다루고 있는 음성 데이터 베이스가 아닌 MedleyDB 음악 데이터 베이스를 활용하여 실험을 수행하였다. 실험은 4-폴드 교차 검증을 통해 수행되었으며, 실험 결과 제안하는 컨벌루션 신경망 구조 기반 오디오 초 해상도 기술은 입력 저해상도 오디오 대비 SNR 이 3.41 dB 향상됨을 확인하였다.
-
본 논문에서는 CNN을 이용한 TCX 모드 기반의 주파수 정보 복원 기술을 제안한다. TCX 모드는 USAC에서 지원하는 음성을 위한 양자화 기술로 부호화 과정에서 포락선을 평탄화한 후 양자화한다. 이러한 평탄화 동작은 주파수 정보 간의 상관도를 높여 네트워크의 학습을 쉽게 만들고 예측 성능을 높인다. 제안하는 방법은 청각 심리 모델 기반으로 구현된 주파수 정보 복원 방법에 TCX 모드 기반의 양자화 방법을 적용하여 일부 주파수 정보만을 사용해 손실된 주파수 정보를 복원한다. 제안하는 방법을 사용해 기존 방법보다 낮은 학습 오차를 얻었고 최적화 되지 않은 조건에서 동등한 음질을 얻었다.
-
본 논문에서는 선택적 노이즈 캔슬링을 위한 환경 인지 기술을 제안한다. 기존의 노이즈 캔슬링은 모든 소리를 구분 없이 차단하여 여러 가지 문제를 유발할 수 있으며 공통된 노이즈 캔슬링 동작으로 각 소음에 최적화된 성능을 보장할 수 없다. 이러한 문제를 해결하기 위해 제안하는 방법은 대표적 오디오 특성인 멜-스펙트로그램과 스펙트로그램 기반의 시간적 특성 벡터를 사용하여 환경 인지를 진행한다. 본 논문에서는 attack, rotation, sawing으로 구성된 3가지 소음과 speech, tonal로 구성된 2가지 비 소음으로 총 5가지 클래스를 분류한다. 제안하는 방법에서 특성 벡터로 멜-스펙트로그램만을 사용했을 때 87.5%의 분류 성능을 보였으며, 스펙트로그램 기반의 시간적 특성을 추가했을 때 분류 성능이 91.2%로 향상되었다.
-
본 논문에서는 ANC 시스템의 빠른 수렴을 위한 적응 필터의 초기화 방법을 제안한다. 기존 ANC 시스템은 적응 필터의 계수를 0으로 초기화한다. 이러한 초기화 방법은 일반적으로 발생하는 외부 소음의 특성을 고려하지 않은 방법으로 ANC의 수렴 소요시간이 길다. 이와 같은 문제를 해결하고자 본 논문에서는 핑크 노이즈를 입력으로 ANC를 수행하여 얻은 적응 필터의 계수 값을 초기값으로 사용하는 새로운 초기화 방법을 제안한다. 제안한 방법으로 여러 잡음에 대해 실험한 결과, 낮은 초기 에러를 갖고 기존 방법보다 빠르게 수렴하는 것을 확인하였다. 또한, 기존 방법에서 수렴하지 못한 일부 소음에 대해서도 수렴하는 것을 확인하였다.
-
본 논문에서는 딥러닝 기반 얼굴 인식 알고리즘에 대해 살펴보고, 이를 청각장애인용 방송에서 화자를 식별하고 감정 표현 자막을 표출하기 위한 배우 얼굴 인식 기술에 적용하고자 한다. 우선, 배우 얼굴 인식을 위한 방안으로 원샷 학습 기반의 딥러닝 얼굴 인식 알고리즘인 ResNet-50 기반 VGGFace2 모델의 구성에 대해 이해하고, 이러한 모델을 기반으로 다양한 전처리 방식을 적용하여 정확도를 측정함으로써 실제 청각장애인용 방송에서 배우 얼굴을 인식하기 위한 방안에 대해 모색한다.
-
본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.
-
한국수화언어(한국수어)는 농인들이 사용하는 언어이며, 농인이라 함은 청각장애를 가진 사람으로서 한국수어를 일상어로 사용하는 사람을 말한다. 수어를 하나의 언어로써 다른 언어로의 번역 또는 상호번역을 위하여 기계학습 기반의 기술이 연구개발 되고 있으나, 수어는 영상 기반의 언어이고 한국수어의 문법 및 사전체계의 구축이 진행 중인 이유로 한국수어의 번역기술은 상대적으로 다른 이종언어 간의 번역기술에 비하여 발전속도가 느리다. 본 논문에서는 한국어를 한국수어로 번역하여 표현하기 위하여 필요한 수어 스크립트 포맷 및 데이터 인터페이스 규격을 제안한다.
-
한국수화언어가 2016년 2월 제정된 한국수화언어법(약칭, 한국수어법)을 통해 한국어와 동일한 대한민국 공식 언어로 인정받았지만, 사회적 인식 부족과 서비스 비용 문제로 널리 사용되지 못하고 있다. 그리고 일상생활에서 접하는 많은 한국어 정보들 조차도 농인들은 쉽게 이해하기 어렵기 때문에 정보 접근에 대한 차별성 문제가 지속적으로 언급되고 있다. 이를 해결하기 위한 대안으로 아바타를 이용한 수어 서비스가 대두되고 있지만, 한국어-한국수어 번역을 위한 자연어처리 기술의 한계로 인해 일기예보와 같이 탬플릿 기반의 서비스에 국한되거나 비수지신호 표현에 대한 기술 부족으로 인해서 서비스 상용화까지 도달하지 못하고 있는 상황이다. 본 논문에서는 딥러닝 기반으로 한국어에서 한국수어로 변환하기 위한 병렬 말뭉치 데이터 전사 및 변환 시스템 설계 방법을 제안하고자 한다.
-
지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있다. 현재의 폐쇄자막 방송은 속기사가 실시간으로 방송을 보면서 입력하기 때문에 지연이 있다. 또한 이렇게 입력된 폐쇄자막은 TV 프로그램 영상과 별도로 저장되기 때문에 영상과 그 시작점이 맞지 않는 경우가 대부분이다. 폐쇄자막을 온라인 서비스 등에 제공하고자 할 때 이러한 문제로 인해 영상과의 동기가 맞지 않아 사용이 어렵다. 본 논문에서는 TV 프로그램의 음성을 인식하여 동기화된 텍스트를 추출하고, 이를 기 저장된 폐쇄자막과 정렬하여 동기화하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하였을 때 대부분의 음절과 라인에서 동기화가 정확히 이루어짐을 확인하였다.
-
인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.
-
방송의 디지털화에 따른 비장애인 대비 소외 계층의 정보 접근성의 부족은 소외 계층에 대한 정보 격차를 심화시킬 수 있다. 이에 캐릭터 수화 방송, 자막 방송 등 장애인을 위한 방송 서비스의 양적, 질적 개선에 관한 연구가 진행되고 있다. 자막 방송 서비스의 경우, 관련 법령에 따라 서비스를 실시하고 있으며 지상파 UHD 방송의 경우에도 본 방송을 시작한 이래 폐쇄 자막 서비스 시스템을 구축하여 서비스를 제공하고 있다. 이러한 기존 자막 서비스는 텍스트 형태의 단조로운 내용 전달 방식이어서 다양한 스타일로 풍부하게 내용을 전달하는 것에 대한 요구가 있다. 이에 본 논문에서는 지상파 UHD 방송을 대상으로 개선된 형태의 자막 서비스인 감성자막 서비스를 소개하고 이를 위한 감성 자막 편집기 기술 개발에 대하여 다룬다. 감성자막 서비스는 화자의 감정 정보를 자막 메타데이터에 추가적으로 제공하여, 감정에 따라 다양한 이모티콘이나 다른 종류의 폰트 스타일로 자막 서비스가 가능하게 하는 서비스이다. 감성자막 편집기는 이러한 감성 자막 메타데이터를 추가, 편집하고 감성자막 파일로 생성하기 위한 시스템으로, 지상파 UHD 송출 시스템 및 폐쇄 자막 표준을 고려하여 개발하였다.
-
본 논문에서는 청각장애인에게 자막방송을 제공하기 위하여 오디오 콘텐츠에 등장하는 음향 사건을 분류하는 기법을 제안한다. 제안된 기법은 복수의 잔차 신경망(ResNet)을 연결하는 연쇄잔차(concatenated residual) 신경망 구조를 갖는다. 신경망의 입력 특징을 위해 음성의 멜-주파수 켑스트럼 벡터를 다수의 프레임으로 결합하여 형성한 2 차원 이미지와 전체 프레임에 대한 멜-주파수 켑스트럼 벡터들로부터 얻은 1 차원의 통계 특징벡터를 얻는다. 각각의 입력은 2 차원 잔차 신경망과 1 차원 잔차 신경망으로 모델링되고, 두 개의 잔차 신경망을 연쇄연결(concatenation)하는 구조를 가진 연쇄잔차 신경망으로 구성된다. 성능평가를 위해 수집된 데이터셋으로부터 6-fold 교차검증을 통해 평가한 결과, 85.48%의 분류 정확도를 얻을 수 있었다.
-
공항은 다양한 시설들이 혼재되어 있는 복합 공간으로 원하는 장소로 이동하기 위해서는 지도나 표지판뿐만 아니라 유·무인 안내 서비스를 이용하는 것이 필수적이다. 그러나 이러한 시설 안내 서비스는 이용객의 대다수를 차지하는 비장애인을 기준으로 설계되어 있는 것이 대부분이며, 특히 청각장애인은 음성 언어인 한국어를 통한 의사소통이 어려워 이러한 안내 서비스의 사각 지대에 놓여있다고 볼 수 있다. 본 논문에서는 청각장애인을 대상으로 공항 내 시설 위치 안내 서비스를 제공하는 키오스크를 구현하기 위해 마커리스(makerless) 한국 수어 인식 기술을 적용하는 방법을 제안한다. 기존의 알고리즘들이 수어를 인식하기 위해 사용자의 신체에 마커(marker)를 부착하거나 사용에 제약이 있는 깊이, 자기장 센서 등을 활용한 데 반해, 특징점 기반의 인식 기술은 별도의 마커 없이 RGB 영상만을 활용하여 수어를 인식하기 때문에 사용자의 편의성을 극대화할 수 있는 방법이다. 영상 기반의 마커리스 수어 인식 기술을 위치 안내 키오스크에 적용함으로써 청각장애인이 다른 사람의 도움 없이 공항 시설을 쉽고 안전하게 이용할 수 있도록 지원할 수 있으며, 나아가 배리어프리 (barrier-free) 공항을 구현하는 데에 큰 도움이 될 수 있을 것으로 기대된다.
-
국내에서는 재난 발생 시 재난으로 인한 피해를 경감시키기 위해 다양한 경보 전달 채널을 활용하여 국민에게 경보를 전달하고 있다. 이 논문은 재난 경보 전달 채널별로 경보를 전달하기 위한 CAP 메시지 설계 철학과 기본 사양을 서술한다. 재난 경보 전달 채널들 중 이동통신망 채널과 방송망 채널 프로파일을 위해 사용되는 요소들을 중점적으로 서술한다.
-
다양한 재난경보 전달 매체 중 재난문자 서비스는 재난 발생 시 재난 지역과 관련된 대국민 대상으로 재난경보를 빠르고 신뢰성 있게 전송할 수 있는 보편 매체이다. 현재 국내 재난문자 서비스는 2G/4G 셀룰러 환경에서 셀룰러 이동 단말기에 재난문자를 전송한다. 특히 4G 이상의 셀룰러 시스템은 재난문자 전송을 위하여 SIB를 이용한다. 그러나 현 재난문자 서비스는 셀룰러 이동 단말기만 수신이 가능한 한계를 보인다. 재난경보 수신의 성공률을 높이기 위하여 다양한 수신 단말기의 재난문자 서비스 지원이 필수적이다. 현재 NB-IoT는 4G 셀룰러 환경을 기반으로 광범위한 지역에 저전력 서비스를 제공한다. 본 논문에서는 NB-IoT가 재난문자 수신을 위하여 필요한 프로토콜 규격과 NB-IoT 기반의 재난문자 서비스를 위한 네트워크 구조를 제시한다.
-
Cell Broadcast Service (CBS)는 제어 채널을 사용하는 셀 지정 단문 방송형 서비스이며 다수의 사람들에게 일정 크기의 문자정보를 특정 서비스 영역으로 전송하는 서비스 방식을 의미한다. CBS를 이용하면 특정 정보를 빠르고 저렴하게 전달할 수 있기때문에 광고나 정보 서비스에 활용될 수 있으나 국내에서는 재난정보 전달을 위한 수단으로 이용되고 있다. 본 논문에서는 4G 및 5G 망에서 CBS를 이용하여 재난정보를 전송하기 위해 사용되는 시스템 파라미터 및 변경점에 대해 살펴본다. 또한, 한국과 미국에서 재난정보 구분을 위해 사용하는 메시지 식별자의 비교를 통해 긴급재난문자의 문제점을 분석한다.
-
최근 국내에서도 여러 지역에서 지진의 발생이 빈번해지고 있으며, 대형 화재나 COVID-19 바이러스의 확산과 같은 다양한 형태의 재난재해 상황으로 인해 재난경보를 제공하기 위한 서비스에 대한 관심이 더욱 증가하고 있다. 본 논문에서는 ATSC 3.0 기반의 지상파 UHD 헤드엔드 시스템을 통해 전송되는 멀티미디어 재난경보 방송 서비스 신호를 분석하기 위한 모니터링 시스템의 동작을 분석한다. 구현된 모니터링 시스템을 이용하여 헤드엔드 장비에서 전송되는 멀티미디어 재난경보의 시그널링 분석을 통해 현재 시범서비스 중인 재난경보 방송 서비스의 안정적인 제공에 기여할 것으로 기대한다.
-
공익을 목적으로 제공되는 재난경보 서비스에서 누군가의 해킹으로 잘못된 재난경보 메시지가 전달되면 사회적으로 큰 혼란이 발생할 수 있다. 본 논문에서는 지상파 UHD 방송을 통한 재난경보 메시지가 해킹으로부터 안전하게 보호될 수 있도록 ATSC 3.0 표준에 정의된 서명 방식을 기반으로 하여 보안 기능을 구현하는 방안을 제안한다.
-
본 논문에서는 지방자치단체(지자체)에서 관리하는 다양한 예·경보시스템들이 별도의 서버로 관리되어 다원화 운영으로 복잡할 뿐만 아니라 제공하는 정보의 내용과 범위도 통일되지 않았던 문제점과 중앙 정부에서 재난정보 전달에 대한 결과 정보를 실시간으로 확인이 어려웠던 문제점을 해결하기 위한 방안 및 시스템에 대해서 제안한다. 제안하는 차세대 통합 예·경보 플랫폼은 웹서비스 형태로 접속하여 부여된 권한에 따라 재난정보를 한 번의 클릭을 통해 다양한 매체로 전달할 수 있을 뿐만 아니라, 재난정보 전달에 대한 결과도 실시간으로 확인 가능한 장점을 지니고 있다. 본 논문에서는 국내 예·경보시스템의 현황을 살펴보고 이를 기반으로 차세대 통합 예·경보 플랫폼의 구조 및 전달하는 재난정보 프로파일을 제안하고 이를 통해 기존 예·경보 시스템을 통합 연동 및 관리하는 방안에 대해 설명한다.
-
재난상황에서 통신망의 불통상황에 대비하여 지상파 방송망을 통한 재난경보메시지를 전달하는 것이 사회안전망의 구축을 위해 매우 중요하게 부각되고 있다. 특히, 사회가 국제화 되고 다양한 국가의 사람들과의 경제 교류를 통해 국내 서비스라고 할지라도 외국인을 대상으로 한 재난경보 메시지도 제공 되어야 재난 상황에서 인명 피해를 최소화 할 수 있다. 지상파 방송 시스템은 비디오 등 정규 프로그램 편성 외에 데이터 채널을 활용하여 다양한 정보를 송출할 수 있으며, ATSC 3.0 방송 시스템은 IP 방식의 데이터 송출을 통해 특정 대상을 타겟으로 정보를 보내는 것이 가능하다. 따라서 이러한 지상파 방송망을 통한 IP 데이터 송출의 장점을 잘 활용하면 재난 상황에서 적은 데이터를 가지고도 효율적으로 다양한 언어로 국민들에게 안전 정보를 보낼 수 있다. 이를 통해 국내 거주 외국인들이 재난에 대비하는데 크게 기여할 수 있다. 본 연구는 디지털 방송망을 통해 다국어 재난메시지를 보내기 위한 효율적인 방법을 제안한다.
-
포인트 클라우드는 다수의 3D 포인터를 사용한 3D 데이터의 표현 방식 중 하나이며, 멀티미디어 획득 및 처리 기술의 발전에 따라 다양한 분야에서 주목하고 있는 기술이다. 특히 포인트 클라우드는 3D 데이터를 정밀하게 수집하고 표현할 수 있는 장점을 가진다. 하지만 포인트 클라우드는 방대한 양의 데이터를 가지고 있어 효율적인 압축이 필수적이다. 이에 따라 국제 표준화 단체인 Moving Picture Experts Group에서는 포인트 클라우드 데이터의 효율적인 압축을 위하여 Video based Point Cloud Compression(V-PCC)와 Geometry based Point Cloud Coding에 대한 표준을 제정하고 있다. 이 중 V-PCC는 기존 High Efficiency Video Coding(HEVC) 표준을 활용하여 포인트 클라우드를 압축하여 활용성이 높다는 장점이 있다. 본 논문에서는 V-PCC에 사용하는 HEVC 코덱을 2020년 7월 표준화 완료될 예정인 Versatile Video Coding으로 대체하여 V-PCC의 압축 성능을 더 개선할 수 있음을 보인다.
-
포인트 클라우드는 수십만 또는 수백만개의 포인트로 객체 또는 장면을 나타내며, 그 데이터의 양은 엄청 나기 때문에, 다양한 대역폭 또는 장치에서 효과적인 서비스를 위해 확장성 기능을 갖춘 압축 체계 개발이 필요하다. 이에 따라, 단방향 패치 패킹을 활용한 LoD 제어 테이블 기반 밀도 확장성(LoD control table based Density scalability by using Unidirectional Patch packing, LDUP) 방법을 이용한 확장성에 대한 연구가 이루어졌다. 그러나, LDUP 방법은 2D 그리드의 크기를 조작하는데 한계가 있어, 패치 사이의 거리가 드물게 패킹되고, 이는 압축 효율을 떨어뜨린다. 본 논문에서는 이러한 단점을 극복하기 위해 양방향 패치 패킹을 활용한 LoD 제어 테이블 기반 밀도 확장성(LoD control table based Density scalability by using Bidirectional Patch packing, LDBP) 방식을 제안한다. 제안된 LDBP 방법은 패치가 패킹된 영상에서 빈 공간을 효과적으로 감소시켰으며, 압축 효율 측면에서 LDUP 방법에 비해 더 높은 BD-Rate 이점을 얻었다. 제안된 LDBP 방법은 3D 포인트 클라우드 압축 시 포인트 클라우드 밀도 확장성을 기존의 LDUP 보다 효과적으로 달성하였다.
-
포인트 클라우드 콘텐츠는 3 차원 공간에 수십만 개가 넘는 점들의 집합으로 이루어진 3D 데이터로 각 점들은 3 차원 공간의 좌표 데이터를 필요로 하고 추가적으로 색 (color), 반사율 (reflectance), 법선 벡터 (normal vector) 등과 같은 속성으로 구성되어 있다. 기존 2D 영상보다 한단계 높은 차원을 가진 3D 포인트 클라우드를 사용자에게 효율적으로 제공하기 위해서 고효율의 압축 기술 연구가 진행되고 있는데, 다양한 장치에서 발생하는 성능 차이에 구애 받지 않고 사용자에게 알맞은 서비스를 제공하기 위해서는 다양한 확장성에 대한 연구가 필요하다. 이에 본 논문에서는 포인트 클라우드 압축에 사용되는 Video-based Point Cloud Compression (V-PCC) 구조에 SHVC 코덱을 적용하여, 밀도 확장성을 갖는 포인트 클라우드 압축 비트스트림을 생성하는 방안을 제안하였다.
-
In this paper, we reviewed the method on the codec-agnostic design of MPEG V-PCC. The codec-agnostic approach designed V-PCC can use any video codec for compression. Thus, adoption with other codecs beside HEVC has not been systematically discussed. Through the analysis of the design issues that related to MPEG EVC and JPEG. We provided a strategy on choosing and targeting different video codecs for V-PCC.
-
방통융합기술이 급격히 발전하고 이에 따른 서비스가 진화함에 따라 기존 미디어 환경은 실감화, 지능화, 연결화, 융합화 되는 스마트미디어 시대로 진입하면서 인간 생활에 혁신을 가져오고 있다. 기존 교육 환경이 학교의 틀에서 일방향의 형태로 지식을 전달하는 체제이지만, 4차 산업혁명시대에 진입하면서 사회는 굳은 조직과 질서의 틀을 벗어나 빠르게 다변화 하고 복잡해지는 사회 구조가 되어 가고 있어 지식을 쌓는 전통적인 교육보다는 당면한 문제를 주도적으로 해결할 수 있는 창의적 역량을 키워주어야 사회에서 적응할 수 있는 시대가 되었다. 따라서 이러한 스마트미디어를 교육 시스템에 활용하면 4차 산업혁명시대에 적합한 창의적 역량을 발휘할 수 있을 것이며 학습의 성취도, 만족도, 몰입도 등에서 상당한 효과를 얻을 수 있을 것이다. 본 논문은 현재와 미래의 융합미디어 환경에서 바람직한 교육정책을 제안하고자 한다.
-
미디어 기술의 발전으로 스마트미디어의 대표적인 OTT서비스와 일인방송 규모가 급격히 확대되고 있다. 이로써 Z세대나 밀레니얼세대들은 더 이상 레가시미디어에 종속되지 않고 동기화, 개인화, 직관화, 실감화가 특성인 스마트미디어를 일상생활에서 향유하고 있다. 따라서 미디어 소비 행태도 급격히 변화하여 레가시 미디어인 지상파방송, 유료방송은 광고 매출, 콘텐츠 소비 등에서 디지털 인터넷 플랫폼과 경쟁에 어려움을 겪으며 성장에 어려움을 겪고 있다. 본 논문에서는 OTT와 일인방송이 중심이 되는 스마트미디어에서의 미디어 소비 행태의 변화를 알아보고 이에 따른 스마트미디어의 성장과 교육환경과의 상관성에 대해 고찰하고자 한다.
-
MPEG-IoMT(Internet of Media Thing)는 미디어 사물 간에 데이터를 주고 받을 수 있도록 MPEG 표준화를 진행 중인 프로젝트이다. MPEG-IoMT 에서는 미디어 사물의 자원을 사용할 수 있도록 미디어 사물 인터넷 Usecase 에 맞는 API 를 정의하고 있지만 다수의 미디어 사물을 연결하고자 할 때 자동 연결 플랫폼을 가지고 있지 않는다. 따라서 본 논문에서는 MPEG-IoMT Mission Diagram 기반 미디어 사물 간 자동화 연결을 위해 IoT 에서 주로 활용되는 MQTT 를 이용해 MThing 간 자동 연결 플랫폼을 구현하였다.
-
MPEG-IoMT(Internet of Media Thing)은 국제 표준으로서, 미디어 사물 간 데이터를 주고 받을 수 있도록 데이터 포맷과 API를 정의하고 있고 있기 때문에 본 표준을 통해 호환되지 않는 모든 미디어 사물 간에도 쉽게 연결될 수 있을것이다. 하지만, 현재 여러 미디어 사물 간 자동화된 연결에 대한 표준은 존재하지 않아 미디어 사물을 연결하고자 할 때는 사용자가표준 API를 통해 직접 연결을 해야 하는 단점이 있어 미디어 사물 간 자동 연결이 가능하게 특정 기능에 대한 필요한 미디어 사물을 제공할 수 있는 서술 도구에 대한 필요성이 나타나고 있다. 따라서, 본 논문에서는 Finite Machine 기반으로 미디어 사물 간 자동화된 연결을 제공할 수 있는 Mission Diagram 서술 도구에 대해 제안한다.
-
IoMT 표준은 미디어 관련 분석 기술에 대한 IoT 기술의 적용을 통하여 IoT 기반 프로토콜로 미디어 분석 기술에 대한 제어 및 IoT 기기간 연동을 제어할 수 있는 기술로써 ISO/IEC SC29 산하에서 이루어지고 있는 표준 기술이다. 2019년 국제 표준의 도출을 통하여 각종 미디어 관련 제어 기술을 분석 (Analyze), 입력 (Sensor), 표현 (Actuator), 저장 (Storage) 등의 기기 분류를 통하여 표준화하고 있으며, 다양한 유즈케이스에 대응하는 영상 분석 기술에 대한 인터페이스가 도출된 바 있다. 본 논문은 이러한 인터페이스를 가지는 IoMT 기술에 대하여 서비스를 구성 및 배포 관리하기 위한 기법을 제안한다. IoMT 기기 혹은 서비스를 조합하여 영상 입력으로부터 최종 결과까지의 서비스를 구성하기 위해서는 각각의 IoMT 기기에 대한 설정 및 기기, 서비스간 연결의 설정이 요구된다. 다만 IoMT 표준은 각 IoMT 서비스 기기에 대한 인터페이스만을 정의하고 있어 이러한 기기 및 서비스간 연결에 대한 구성이 포함되어 있지 않으며, 본 논문에서 제시하는 방법은 클라우드에서 사용되고 있는 자원 관리 및 배포 기술인 Kubernetes를 통하여 IoMT 기기들간의 연결을 설정하고 최종 서비스를 구성하는 방법을 포함한다.
-
본 논문에서는 블록체인 기반 재능 거래 플랫폼의 프로토타입을 설계하고 구현한다. 기존에 재능 거래 플랫폼은 서버-클라이언트 모델 기반의 서비스를 제공하여. 서버를 운영하는 비용과 거래에 대한 중재자 인건비가 발생한다. 따라서 이용자들이 높은 거래 수수료를 부담하는 단점을 가진다. 이러한 단점을 보완하기 위해 이더리움 플랫폼 기반 dapp 으로 구현하여 거래 정보를 블록에 올려 서버 및 데이터베이스 운영 비용을 절감하고, 스마트 컨트랙트를 통해 거래 중재자 인건비를 절감하여 거래 수수료를 낮추기 위한 재능 거래 플랫폼을 구현하였다.
-
블록체인의 특성 중 하나인 합의 과정으로 인해 블록체인 상 거래속도는 일반적인 온라인 거래보다 느리다는 단점이 있다. 분산형 어플리케이션 서비스들은 이러한 블록체인의 느린 거래속도와 확장성을 오프체인 트랜잭션으로 해결한다. 오프체인 트랜잭션이란 블록체인 외부에서 거래를 실행하여 이루어진 거래들의 내역을 주기적으로 블록체인에 기록하는 방식이다. 오프체인 트랜잭션을 활용하면 기존의 블록체인 거래방식보다 더 다양한 구조로 시스템을 설계할 수 있다. 본 논문에서는 이러한 오프체인 트랜잭션의 장점을 활용한 실시간 비디오 스트리밍 시스템을 제안한다. 사용자와 서비스 제공자 간의 거래를 위한 오프체인 채널을 연 후 채널 상에서 실시간으로 비용을 지불하고 비디오를 스트리밍 받는 시스템을 설계하였다. 이러한 실시간 스트리밍 방식을 통해 기존 블록체인 서비스의 단점을 극복하였다.
-
단일 영상 기반 초고해상도 복원은 컴퓨터 비전 및 영상처리 분야의 중요한 기초 및 응용 분야 중 하나이며, 딥러닝에 대한 연구가 발전됨에 따라 이를 이용한 다양한 연구들이 활발히 진행되고 있다. 기존 딥러닝 기반 연구들은 복원 성능을 높이기 위해서 다양한 구조의 네트워크를 설계하거나 네트워크를 학습하는 알고리즘들을 중점으로 연구되어 왔다. 최근 들어 네트워크 구조나 설계 이외에 네트워크를 통과하는 정보의 집합체인 특징 맵에 관한 연구들이 진행되고 있다. Attention은 특징 맵에서 채널 간의 관계를 이용하여 특정 채널을 강조하거나 또는 공간 정보를 강조하는 방식으로 특징 맵의 정보를 잘 활용하도록 하여 전체적인 네트워크의 성능을 향상시킨다. 본 논문은 단일 영상 기반 초고해상도 복원 네트워크를 기반으로 다양한 Attention방법들을 적용하고 성능을 비교 및 분석한다.
-
기존의 초해상도 딥러닝 기법은 모델의 깊이가 깊어지면서, 좋은 성능을 내지만 점점 더 복잡해지고 있고, 실제로 사용하는데 있어 많은 시간을 요구한다. 이를 해결하기 위해, 우리는 딥러닝 모델의 가중치를 양자화 하여 추론시간을 줄이고자 한다. 초해상도 모델은 feature extraction, non-linear mapping, reconstruction 세 부분으로 나누어져 있으며, 레이어 사이에 많은 skip-connection 이 존재하는 특징이 있다. 따라서 양자화 시 최종 성능 하락에 미치는 영향력이 레이어 별로 다르며, 이를 감안하여 강화학습으로 레이어 별 최적 bit 를 찾아 성능 하락을 최소화한다. 본 논문에서는 Skip-connection 이 많이 존재하는 MSRN 을 사용하였으며, 결과에서 feature extraction, reconstruction 부분과 블록 내 특정 위치의 레이어가 항상 높은 bit 를 가짐을 알 수 있다. 기존에 영상 분류에 한정되어 사용되었던 혼합 bit 양자화를 사용하여 초해상도 딥러닝 기법의 모델 사이즈를 줄인 최초의 논문이며, 제안 방법은 모바일 등 제한된 환경에 적용 가능할 것으로 생각된다.
-
본 논문에서는 영상 콘텐츠의 지적재산권 보호를 위하여 딥 러닝을 기반으로 하는 워터마킹 시스템 및 하드웨어 가속기 구조를 제안한다. 제안하는 워터마킹 시스템은 호스트 영상과 워터마크가 같은 해상도를 갖도록 변화시키는 전처리 네트워크, 전처리 네트워크를 거친 호스트 영상과 워터마크를 정합하여 워터마크를 삽입하는 네트워크, 그리고 워터마크를 추출하는 네트워크로 구성된다. 이 중 호스트 영상의 전처리 네트워크와 삽입 네트워크를 하드웨어로 설계한다.
-
본 논문에서는 최신 비디오 코딩 기술에서 잔차(Residual)신호 변환을 효율적으로 수행하기 위한 부동기저(Basis)를 사용하는 방법을 제안한다. 기존의 DCT-II 나 DST-VII 과 같은 고정 기저를 사용하는 방법은 대부분의 잔차신호들에 대해 효과적으로 비상관화(decorrelation)를 수행하지만 복잡한 잔차 신호일수록 성능이 떨어지는 문제가 있었다. 이러한 압축 성능하락 문제를 줄이기 위하여 PCA(Principle Component Analysis) 방법 중 하나인 KLT(Karhunen-Loeve Transform)를 이용하여 부동(floating) 변환 기저를 유도하는 방법을 제안한다. 기존의 KLT 를 이용한 변환 커널 유도 방법들의 문제점인 부호화기 및 복호화기 계산 복잡도를 줄이기 위하여 KL 커널을 분해가능한(Separable) 2 개의 1 차원 커널로 유도하는 방법을 제안하고, 원본 잔차신호와 유사한 텍스처를 찾아 커널을 예측하는 과정을 간소화하는 방법을 제안한다. 제안하는 방법은 HEVC 에서 실험되었으며 정지영상 코딩 Main-Profile 에서 평균 1.4%가량의 BD-PSNR(Bjontegaard Delta-Peak Signal to Noise Ratio) 성능 향상을 보였으며 특히 스크린 컨텐츠 영상에서 최대 4.5%의 성능 향상을 보인다.
-
본 논문에서는 YOLO(You Only Look Once) 사물 인식 알고리즘을 활용하여 영상 압축에 적용한다. YOLO 는 물체의 일반화된 특징을 학습한 뉴럴 네트워크이다. 영상을 압축하는 동시에 YOLO 를 활용하여, 영상 내의 사물을 인식한다. 사물이 인식된 영역을 영상 압축을 할 때, 더 구체적으로 예측을 하는 방법을 제안한다. 본 논문에서 제안하는 방법은 QP(Quantization Parameter)를 조절하여, YOLO 로부터 인식된 사물을 더 정교하게 사물을 부호화/복호화한다. VVC(Versatile Video Coding) 기반에서 Rate-Control 를 사용하며, QP 를 조절한다. QP 는 CTU-Level 단위로 조절하며, 사물이 포함된 CTU 는 더 낮은 QP 를 바탕으로 효율적인 화질을 가져온다. 본 논문에서 제안하는 방법은 VVC 기반으로 한 Rate-Control 보다 주관적 화질이 선명한 것으로 보인다.
-
최근 이미지 인식을 위한 Convolutional Neural Network(CNN) 모델의 경량화에 관한 연구가 활발하게 이루어지고 있다. 그중 양자화는 모델을 구성하는 가중치의 크기를 낮추는 방법이다. 기존의 CNN 모델에서 가장 큰 비중을 하는 Fully Connected Layer(FCL)는 내부적으로 32 Bit의 실수 행렬로 표현된다. 본 논문에서는 미리 학습된 실수 가중치를 더 작은 비트의 정수 행렬로 양자화한다. 양자화된 행렬에 대해서 영상 압축 등에서 사용하는 Discrete Cosine Transform(DCT)을 통해 주파수 영역으로 변환한 후 고주파 영역을 생략하는 손실압축 방법을 제안한다. 실험을 통해 그 과정에서 손실에 따른 정확도의 변화를 나타낸다.
-
최근, 광소자에서 공간 변조되는 wavefront profile 특성을 광소자의 표면 단차 변화 없이 단일 두께 박막 상에서 자유로이 구현할 수 있는 기하위상 홀로그램 (geometric phase hologram) 기반의 optical component에 대한 관심이 증대되고 있다. 특히 이를 이용해 제작된 기하위상 렌즈 (geometric phase lens)는 dynamic phase의 공간적 차이에 의해 구현되던 기존 bulk optics 기반의 lens 대비 초박형으로 제작이 가능한 파장 선택적 flat optics 기술로써, 다초점 및 경량화를 요구하는 차세대 디스플레이 기술 (augmented reality 또는 AR, mixed reality 또는 MR) 및 광파변조 및 제어를 요구하는 홀로그래픽 카메라 분야에 대한 응용처로 많은 주목을 받고 있다. 이에 본 논문에서는 해당 기하 위상렌즈에 대한 원리 및 이에 따른 개발이슈 및 해결법에 대해 연구 하였으며, 이에 대한 응용처로 기하위상 렌즈의 편광에 따른 이중초점특성을 이용해, 기존 단일 초점 형성이 가능한 AR기기 대비, 다초점 형성이 가능한 switchable dual-depth 3D AR device를 compact한 모듈과 함께 구현하였다. 또한, 기하위상렌즈의 광파 변조 및 분리특성을 이용한 기하위상 렌즈기반의 자가간섭 홀로그래픽 시스템(GP-self-interference incoherent digital holographic, GP-SIDH)에 편광 이미지센서 적용과 함께 맞춤형 설계/제작된 기하 위상렌즈를 적용함으로써, 기존 GP-SIDH 시스템대비 안정적으로 실시간 복소 홀로그램 획득이 가능한 실시간 공간영상정보 획득용 GP-SIDH을 동영상 프레임으로 구현하였다.
-
기하학적 위상렌즈를 활용한 광시야각 홀로그램 합성을 위한 시스템을 제안하고 설계하여 제작하였다. 광시야각 홀로그램은 실시간 홀로그램 영상을 녹화하는 과정에서 동시에 물체의 다른 파면을 기록할 수 있기 때문에 물체의 3 차원 정보를 일련의 알고리즘을 통해 데이터화 시키는 과정을 가능하게 한다. 본 논문에서는 기하학적 위상렌즈와 편광 이미지 센서를 결합해 비간섭성 광원의 홀로그램을 기록할 수 있는 자가 간섭 디지털 홀로그래피 시스템을 이용하여 관찰하고자 하는 물체의 파면을 다각도에서 기록하는 광시야각 홀로그램 촬영 시스템을 개발하였다.
-
본 논문은 초고해상도 컴퓨터 홀로그램 생성을 위한 GPU 기반 2D Shift-FFT 의 효율적인 구현 방법을 제안한다. 본 연구가 제안하는 알고리즘은 기존에 여섯 단계로 이루어진 처리과정을 다섯 단계로 줄임으로서, 병렬처리에서 비효율적인 메모리 접근 과정을 줄인다. 또한, 핀드(pinned) 메모리 기반의 CPU-GPU 데이터 통신 통로인 핀드 버퍼(pinned buffer)를 사용하고 다중 스트림을 채용함으로써, GPU 활용의 주요 병목원인이 되는 데이터 통신의 부하를 줄이고 GPU 활용 효율을 높인다. 본 연구는 제안하는 알고리즘의 효용성을 증명하기 위해 서로 다른 두 시스템에 알고리즘을 구현하고, 다양한 크기의 행렬에 대한 2D-FFT 처리에 대한 성능을 측정하였다. 그 결과, CPU 기반의 FFTW 라이브러리 대비 최대 3 배, 동일한 GPU 를 사용하는 cuFFT 라이브러리 대비 최대 1.5 배 높은 성능을 달성하였다. 이러한 결과는, 본 연구가 제안하는 알고리즘의 효용성을 보여주는 결과다.
-
본 논문에서는 폴리곤기반 CGH 생성에서 텍스쳐 적용을 위한 준해석적 기법을 소개한다. 각각의 단위 폴리곤의 근방에서 폴리곤에 의해 회절되는 파면을 서로 독립인 기하학적 필드와 텍스쳐 필드의 곱으로 표현한다. 기하학적 필드는 기존의 해석적 방법을 적용하고 텍스쳐필드는 FFT 기반의 비해석적 방법을 적용하여 폴리곤 근방에서의 각스펙트럼을 얻고 이들의 FFT기반 합성곱을 통해 폴리곤 근방의 텍스쳐가 포함된 폴리곤의 회절 파면을 얻고 이를 홀로그램 평면까지 진행시켜 최종 홀로그램을 생성한다. 본 방법은 기하학적 필드에 해석적 방법을 적용하여 FFT기반의 비해석적 방법에 비해 복원 영상의 품질이 우수하며 CGH 생성속도 측면에서는 텍스쳐가 없는 경우의 해석적 방법과 유사하며 텍스쳐 이미지의 해상도에 상관없이 홀로그램 해상도에만 의존하는 장점이 있다.
-
3D 디스플레이 산업에 있어서 홀로그램의 상용화는 여전히 많은 문제점을 가지고 있다. Computer Generated Hologram(CGH)은 홀로그램 분야 중에서도 3D 물체를 생성하는데 여러 가지 강점을 가지고 있지만 큰 해상도를 가진 CGH를 생성하는데 많은 연산시간이 걸려 상업화에 걸림돌이 되고 있다. 이 논문에서는 이를 해결하기 위하여 오목 렌즈 함수를 이용한 초 고해상도 CGH를 생성하는 알고리즘을 이용하여 초 고해상도 홀로그램을 생성하는 방법을 제안하였다. 초 고해상도 CGH를 생성하기 위하여 필요한 일반적인 방법으로 실제로 계산해야 될 CGH의 크기는 4 메가픽셀(2k X 2k) 수준의 저해상도로서, 저사양의 컴퓨터로서도 충분히 빠르고 부담 없이 계산해낼 수 있는 사이즈이다. 생성된 CGH로 Array를 형성한 후, 해당 위치에 알맞은 임의의 오목 렌즈 함수를 곱해줌으로서 임의의 크기 및 복원 거리를 가지는 초고해상도 CGH를 생성할 수 있음을 확인하였다.
-
현재 운영되고 있는 대국민 재난 예.경보시스템은 텍스트 및 음성으로만 재난정보를 제공함으로써 고령자 및 외국인, 장애인들과 같이 재난상황 하에서의 사회적 약자에게는 재난대응을 위한 인지가 쉽지 않으며, 제한된 텍스트 정보로 인해 재난상황을 전달하기에 한계가 존재한다. 이를 해결하기 위해서는 다매체를 통한 다양한 멀티미디어 콘텐츠가 포함된 재난정보에 관한 연구와 이를 자동적으로 생성할 수 있는 기술이 필요하다. 국내에서는 디지털사이니지 및 버스정보시스템과 더불어 최신 ICT 기술인 '5G', 'UHD'를 활용한 멀티미디어 재난정보를 수용하여 제공할 수 있는 고도의 인프라 기반이 마련되어 있어 현재보다 많은 재난정보를 전달하여 국민들로 하여금 신속.정확한 재난상황 인지를 가능케 할 수 있다. 다매체에서 활용 가능한 멀티미디어 재난정보 콘텐츠는 행정안전부 '재난정보공동이용시스템'과 기상청 '지진조기경보시스템'에서 제공하고 있는 다양한 관측 및 분석정보를 기반으로 자동적으로 생성된다. 생성된 멀티미디어 재난정보 콘텐츠는 '발생재난 종류'와 '재난발생 일시', '발생지역'과 같은 기본적인 정보를 포함하여 지도기반 '재난발생 위치'와 '대피소 위치', '대응요령', '기타 정보' 등으로 구성된다. 이러한 재난 콘텐츠는 '경보'와 '후속 경보'를 통해 제공되는 정보에 차이를 두어 상황에 맞게 인지할 수 있도록 연구하였다. 다만, 이러한 재난정보 콘텐츠 제공 서비스를 가능케하기 위해서는 현재와 같은 재난정보 전달체계와 더불어 웹서비스 및 양방향 방송망을 활용할 수 있는 전달체계가 확보되어 보다 신속하게 제공될 수 있도록 기반 기술 연구가 필요하다.
-
지상파 UHD방송이 송출이 된지도 벌써 3년째에 접어들고 있다. 지상파 방송은 무료 보편적 서비스로 누구나가 받을 수 있도록 되어 있지만 실제적으로 방송을 수신하고 있는 가정은 소수인 것으로 알려져 있다. 따라서 본 논문에서는 관련된 UHD방송이 보편적 서비스가 가능하도록 하는 UHD방송공동수신설비에 관련된 현황을 조사하고자 한다. 기초적인 조사로 UHD방송공동수신설비의 구축을 위한 핵심장비인 UHD신호처리기는 다양한 명칭으로 제작되어 보급이 되고 있지만, 현재 UHD방송공동수신설비가 지원되는 사업 외에 자체적인 사례가 거의 없어 UHD방송을 시청하는 공동주택이 2.3%정도 인 것으로 파악된다. 따라서 본 논문에서는 UHD방송 및 방송공동수신설비의 활성화를 위하여 대안을 제시하고자 한다. 먼저 가장 중요한 UHD방송 콘텐츠의 제작이 우선이다. 또한 지상파 방송만이 UHD방송을 하는 것이 아닌 유료방송사업자의 적극적인 참여도 중요하다. 그리고 기술의 적극적인 수용이다. ATSC3.0은 양방향 서비스뿐만 아니라 다양한 플렛폼과 융합될 수 있다. 마지막으로 지상파 방송의 무료 보편적 서비스로서 사회안전을 위한 재난방송의 활용 방안과 함께 UHD방송공동수신설비에도 소소출력 중계기를 외부에 설치하도록 하는 다양한 수신환경 구축이 요구된다할 수 있다.
-
최근 사용자에게 더욱 몰입감 있는 콘텐츠를 제공하기 위한 기술에 대한 관심이 증가하고 있으며 기존의 2D 콘텐츠와는 다른 새로운 방식인 3D 콘텐츠에 대한 연구가 활발히 진행되고 있으며 그 중 가장 대표적인 것이 Point Cloud 영상이라고 할 수 있다. Point Cloud의 경우 수많은 3차원 좌표를 가진 점들로 구성되어 있으며 각 점들마다 Attribute 값을 이용하여 색상 등의 표현이 가능한 구조로 이루어져 있다. 이러한 특성 때문에 Point Cloud 데이터는 방대한 용량을 가지고 있으며 기존의 2D 방식과 데이터 구조가 상이하기 때문에 새로운 압축 표준이 요구되었다. 이에 미디어 표준화 단체인 MPEG(Moving Picture Experts Group)에서는 MPEG-I(Immersive) 차세대 프로젝트 그룹을 이용하여 이러한 움직임에 대응하고 있다. MPEG-I의 part 5(Video-based Point Cloud Compression, V-PCC)에서는 객체를 대상으로 하여 기존의 비디오 코덱을 활용한 Point Cloud 압축 표준화를 진행중이다. V-PCC 데이터의 경우 기존의 2D 영상 데이터와 같이 전송을 통해 소비될 가능성이 아주 높기 때문에 이에 대한 고려가 필요하다. 현재 MPEG에서 표준화를 완료한 MMT(MPEG Media Transport)라는 전송 표준이 존재하기 때문에 이 기술을 활용 가능할 것으로 보인다. 따라서 본 논문에서는 Point Cloud 데이터를 압축한 V-PCC 데이터를 전송 표준 방식인 MMT를 이용하여 전송하는 방안에 대하여 제안한다.
-
최근 DOCSIS 3.1 시스템에서 주파수 이용효율향상을 위해 상향과 하향 신호를 동일대역으로 동시전송하는 DOCSIS3.1 FDX 시스템이 연구되고 있다. 동일대역을 사용할 경우 DOCSIS 3.1 FDX시스템의 하향 송신신호는 높은 전력을 가진 신호로 feedback되어 상향송신기로부터 전송된 낮은 전력의 상향 수신신호와 결합하여 상향수신기에 수신되어진다. 이러한 결합신호는 상향신호와 하향신호간의 심볼타이밍 옵셋이 정확하게 일치하지 않으면 상향신호 성능을 열화시키는 원인이 된다. 본 논문에서는 이러한 문제를 해결하기 위해 주파수영역에서 DOCSIS 3.1 FDX시스템의 상하향신호간 심볼 타이밍 옵셋으로 인한 성능 열화 개선 알고리즘을 제시하고 모의실험을 통해 성능열화를 개선할 수 있음을 보인다.
-
국가기후기술정보시스템은 국내 환경기술과 국외의 수요기술 정보를 제공하는 검색 시스템이다. 그러나 기존의 시스템은 유사한 뜻을 가진 단일 단어와 복수 단어들을 모두 식별하지 못하기에 유의어를 입력했을 경우 검색 결과가 다르다. 이런 문제점을 해결하기 위해 본 연구에서는 유의어 사전을 기반으로한 환경기술 검색 시스템을 제안한다. 이 시스템은 Word2vec 모델과 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Application with Noise) 알고리즘을 이용해 유의어 사전을 구축한다. Word2vec 모델을 이용해 한국어와 영어 위키백과 코퍼스에 대해 형태소 분석을 진행한 후 단일 단어와 복수 단어를 포함한 단어를 추출하고 벡터화를 진행한다. 그 다음 HDBSCAN 알고리즘을 이용해 벡터화된 단어를 군집화 해주고 유의어를 추출한다. 기존의 Word2vec 모델이 모든 단어 간의 거리를 계산하고 유의어를 추출하는 과정과 대비하면 시간이 단축되는 역할을 한다. 추출한 유의어를 통합해 유의어 사전을 구축한다. 국가기후기술정보시스템에서 제공하는 국내외 기술정보, 기술정보 키워드와 구축한 유의어 사전을 Multi-filter를 제공하는 Elasticsearch에 적용해 최종적으로 유의어를 식별할 수 있는 환경기술 검색 시스템을 제안한다.
-
최근, 디지털 콘텐츠 산업이 폭발적으로 성장됨에 따라 고객 유치를 위한 개인화 추천 기술들이 많은 주목을 받고 있다. 개인화 추천 방식들을 큰 갈래로 나누어 본다면 협업 필터링 기술과 내용 기반 기술로 나눌 수 있다. 협업 필터링의 경우 개인화 추천에는 적합하지만 사용자 평가 데이터의 양이 방대해야 하며 초기에 평가자가 없는 콘텐츠에 대해 추천할 수 없는 초기 평가자 문제가 존재한다. 따라서 매일 방대한 양의 콘텐츠가 편입되는 분야에서 사용하기에 큰 결점이 될 수 있다. 본 논문에서는 영화들의 정보가 담긴 데이터 셋과 사용자 평가 데이터, 그리고 사용자의 선호 기준을 의미하는 메타 가중치를 활용한 내용 기반의 맞춤형 영화 추천 시스템을 제안한다. 논문에서는 먼저, 영화를 고를 때 일반적으로 중요시 보는 속성들을 활용하여 영화의 특징 벡터를 구성하고, 이를 사용자 평가와 결합하여 개인의 선호에 대한 특징 벡터를 구성하는 방법을 제안하며, 구성된 데이터와 코사인 유사도, 메타 가중치를 활용하여 사용자 선호와 유사한 영화들을 도출하는 방법을 제안한다. 또한, 평가데이터를 활용하여 구현된 추천시스템의 검증 프로세스를 구성하고, 검증 프로세스를 활용한 손실 함수를 설계하여 적합한 메타 가중치를 학습하는 방법을 제시한다. 본 논문에서 제안하는 시스템은 다수의 속성을 조합하여 활용하므로 추천 결과가 과도하게 특수화 되지 않을 수 있으며, 메타 가중치라는 요소를 통해 더욱 개인화 된 추천을 제공할 수 있다.
-
본 논문에서는 Print-Cam 공격에 강인한 비가시성 워터마크 기법에 대해 제안한다. Print-Cam은 영상을 인쇄하고 다시 스캐닝 혹은 촬영하는 과정으로 워터마크에 큰 손실이 발생한다. 워터마크 삽입 및 추출은 영상을 2차원 이산웨이블릿 변환(2-Dimensional Discrete Wavelet Transform, 2D-DWT)하여 주파수 영역에서 진행하였다. 추출한 워터마크는 디지털 홀로그램이므로 이를 복원함으로써 Print-Cam 공격에 강인함을 보였다.
-
본 논문에서는 5G NR 시스템을 위한 동기 신호를 이용한 cell ID 검출 방법에 대한 성능을 비교하였다. 5G NR(fifth-generation new radio) 시스템의 송신기는 SS/PBCH (synchronization signal/physical broadcast channel) 블록을 송신하며, 수신기는 수신된 SS/PBCH 블록을 이용하여 주파수 및 타이밍 오프셋 (frequency and timing offset)을 추정 할 수 있으며, cell ID (cell identity)는 PSS (primary synchronization signal)와 SSS (secondary synchronization signal)를 통해 검출할 수 있다. 본 논문에서는 cell ID 를 검출할 수 있는 방법으로서 2-stage 디코딩 방법과 결합 최대우도 결정 규칙 (joint maximum-likelihood decision rule: joint ML) 디코딩 방법을 사용하였다. Joint ML 디코딩 방법은 2-stage 디코딩 방법에 비해 더 좋은 검출 성능을 보이지만, 복잡도 측면에서는 2-stage 디코딩 방법이 joint ML 디코딩 방법에 비해 더 낮은 복잡도를 갖는 것을 확인하였다.
-
본 논문에서는 Xilinx 사(社)의 Spartan-6 FPGA 와 Analog Devices 社의 Transceiver 칩인 AD9361 을 이용한 소프트웨어 정의 라디오 장비인 Universal Software Radio Peripheral(USRP) B210 를 이용하여 디지털 방송 표준인 ATSC 의 실시간 영상 송수신 시스템을 신호 처리 소프트웨어인 그누 라디오로 구현하였다. ATSC 에서 사용하는 MPEG 트랜스포트 스트림 영상 신호가 송신부에서 소프트웨어로 디지털 신호 처리되고 Digital-to-Analog Conversion(DAC) 과정을 거쳐 영상 신호가 송출된다. 본 논문은 디지털 방송 수신부에서 핵심 기능을 하는 등화기 알고리즘을 소프트웨어를 통해 구현하여 신호의 왜곡을 보상하는 방법을 제안한다. 수신부에서는 신호를 수신하여 튜너, 매치 필터, 위상 고정루프, 등화기, 비터비 복호 알고리즘 등의 과정을 거쳐 수신한 후 영상을 확인하였다.
-
방송예술 및 콘텐츠 제작 역량을 교육시키는 방송예술특성화 대학으로서 C3(Creativity, Convergence, Contents) 방송예술 창의융합교육 모델인 융합수업을 개설하고 전체 학과에서 신청한 학생들을 대상으로 교육을 진행하였다. 융합수업은 전공이 다른 학생들이 희망하는 콘텐츠 제작과정을 수강하고, 방송사와 산업체에서 실무경험이 풍부한 교수와 전문가들이 직접 콘텐츠 제작을 지도함으로써 고품질의 수준 높은 콘텐츠 제작 교육을 경험할 수 있는 수업이다. 즉, 재학 중 학교수업을 통해 미리 현장 경험을 쌓음으로써 취업 즉시 콘텐츠 제작 역량을 발휘할 수 있는 자신감 함양과 제작현장에 기여할 수 있는 융합형 인재양성 교육프로그램인 것이다. 본 연구에서는 대학이 보유하고 있는 방송용 버츄얼 스튜디오를 활용한 가상 세트 영상 제작 교육 『영화담』을 제작하는 융합수업과 드론 항공촬영을 활용한 제작교육 『드론 탐사대』 융합수업을 실시하여 첨단 기술을 활용한 콘텐츠 협업 제작의 효과와 학생들의 만족도를 분석하였다.
-
최근 방송 사용 음악에 대한 저작권료 배분의 투명성을 위하여 방송음악 식별 기술에 대한 관심이 커지고 있다. 음악 DNA라 부르는 음악의 신호적 특징을 이용하는 기존의 음악식별 기술이 존재하지만, 방송 배경음악의 특성으로 인해 방송 사용 음악 식별에 그대로 활용하기는 어렵다. 방송이나 영화에 사용되는 배경음악은 우리가 일상생활에서 주로 소비하는 가요나 팝과 같은 음악과 비교하여 그 수가 매우 많고, 하나의 음악 테마에 대하여 조금씩 다르게 편곡한 유사 음악들이 다수 존재한다. 즉, 방송 배경음악을 식별을 위해서는 유사한 음악이 많은 대규모 음악 DB를 대상으로 잡음이 섞여 있는 음악을 식별하여야 한다. 한편, 대부분의 음악 식별 시스템은 빠른 검색을 위하여 모든 데이터를 메모리에 올려두고 처리하는 방식으로 동작하는데, 대규모 음악 DB를 지원하기 위해서는 시스템 자원을 적게 사용하면서도 식별율이 떨어지지 않는 특징 추출 파라미터와 인덱싱 파라미터를 찾는 것이 중요하다. 본 논문에서는 이러한 요구사항을 만족하는 배경음악 특징의 추출방법과 이 특징을 효율적으로 검색할 수 있도록 하는 검색 구조를 기술한다.
-
21세기 핵심 키워드 중 하나로 두뇌 산업이 떠오르고 있다. 미국, 일본 등 선진 국가에서는 이미 뇌 연구에 활발한 투자가 진행되고 있다. 이에 따라 본 논문에서는 출생과 성장기 뇌 발달에 문제가 발생하는 발달 장애 아동을 위한 음악 치료 프로그램을 개발하고자 한다. 효과적인 발달 장애 치료를 위해, 조기 발견 후 인지 학습 치료가 필요하다. 그 중 인지 기능과 자가 관리 기능을 기르는 것이 중요한데, 리듬 타이밍 훈련이 발달 장애 아동의 기억 능력 개선에 도움이 된다는 여러 입증된 연구 결과가 있다. 그러나 아직까지 발달 장애 아동을 위한 적절한 치료 방법이 없기에 본 논문에서는 인지 학습 치료가 필요한 아동에게 도움을 주기 위해 동요의 정확한 리듬, 음정을 학습하는 프로그램을 제안한다. 아동의 지속적인 흥미를 끌 수 있는 게임과 인지능력 훈련을 결합하였기에, 보다 좋은 학습 효과를 유도할 수 있을 것이다.
-
최근 유튜브, 네이버와 같은 플랫폼 사업자들은 다양하고 많은 동영상확보를 위해 최대한 시간을 적게 들이고 좋은 퀄리티의 영상을 자동으로 생성해주는 어플리케이션을 개발하는데 AI 기술을 적극적으로 사용하고 있다. 가장 주도적으로 진행하는 곳은 IBM 의 왓슨의 인지하이라이트 기술이다. 관중의 함성소리와 스포츠특성 데이터들을 활용하여 하이라이트 부분의 영상만 자동 생성하고 있다. 하지만 현재까지의 기술은 인간의 감성을 자극하는 스토리 전개방식의 자동영상 생성에 있어서는 부족한 부분이 많이 존재한다.이 에 본 논문은 영화의 클라이맥스 부분의 영상편집방식을 분석하여 이에 대한 장르별 샷 사이즈 변화패턴을 시각화한 후, 장르간 편집 차이점을 패턴화한 템플릿을 구축하여 사용자의 이미지 데이터들을 장르별 클라이맥스 패턴의 특성에 맞게 추천하여 짧은 영상을 자동 생성하는 어플리케이션을 개발하였다. 향후 본 연구는 1 인 미디어 산업 및 사이버교육 분야에서 가장 많이 소요되는 영상편집 시간을 단축하는데 큰 효율이 있을 것이라 기대한다.
-
최근 확장된 인공지능 생태계를 바탕으로 전 분야에 챗봇 서비스(Chatbot Service)의 활용이 증가했다. 이에 따라 챗봇서비스의 활용 분야 및 전달수단도 메신저 앱을 넘어 온라인 웹, 모바일 어플리케이션 등 점차 다양화되는 추세이다. 디지털서비스의 혁신수단으로 인공지능 기반의 챗봇을 적극 도입 중이고 발전하는 챗봇 서비스에 발맞춰 챗봇이 제공하는 데이터도체계를 갖추고 있다. 이에 본 논문은 챗봇이 제공하는 데이터 중 웹을 기반으로 하는 데이터의 시각화 방안을 제시한다. 전국적으로 분포되어있는 방대한 양의 데이터를 처리하여 사용자에게 웹 미디어로 정보를 전달하기 위한 기술적 방법을 연구.개발하였다. 이는 웹을 기반으로 하는 챗봇뿐만 아니라 방대한 양의 정보를 처리해야하는 다양한 웹 미디어서비스에도 적용 가능하며 웹 미디어를더욱 보편화 할 수 있는 방법이다.
-
드론 탑재형 프로젝터 시스템의 경우 비행 시 드론의 모터와 프로펠러 그리고 비행 환경에 의해 발생하는 흔들림이 그대로 프로젝터에 전달되기 때문에 프로젝터에 의해 투영된 영상에 왜곡이 발생하게 된다. 이를 보정하기 위해 센서를 통해 얻어진 드론의 비행정보 기반 투영영상 변환행렬이 적용된다. 본 논문에서는 디스플레이 영역의 해상도를 고정된 값으로 제한하는 대신 비행 환경에 따라 해상도를 결정하는 방법을 제안하고 실제 영상에 적용하였다. 실험 결과, 제안한 디스플레이 영역의 해상도 최적화 방법을 적용하는 경우 기존의 고정된 디스플레이 영역의 해상도보다 확장된 디스플레이 영역의 해상도로 운용 가능함을 관찰할 수 있었다.
-
한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.
-
최근 온라인 쇼핑 시장이 커지면서 소비자들은 다양한 물건을 온라인에서 쉽게 접근하고 구매할 수 있게 되었다. 이와 함께 인터파크의 '톡집사', 네이버 쇼핑 등에서는 다양한 쇼핑몰의 가격 정보를 모아서 소비자들이 합리적인 가격에 상품을 구매할 수 있도록 도와주고 있다. 이에 본 논문에서는 이러한 가격 비교 시스템을 활용하여 판매자들을 대상으로 서비스하는 시스템을 제안한다. 문서 유사도를 비교하기 위하여 쓰이던 코사인 유사도 분석 기법을 쇼핑몰 상품명 분석에 이용할 수 있도록 한다. 실제 상품명 정보를 이용해 코사인 유사도 분석을 실행하고 코사인 유사도 분석 결괏값으로 관련성이 낮은 상품을 배제한다. 나머지 상품의 정보를 바탕으로 최저가 분석을 수행하여 적정 판매가격을 추출하여 제시한다. 따라서 제안하는 방식을 적용하여 상품 분석을 시행하면 비슷한 범주에 있는 상품들을 추출한 뒤 최적의 가격을 제시할 수 있을 것이다.
-
무의식적인 손-얼굴의 접촉으로 인한 감염의 문제점을 해결하기 위해, 얼굴 만지기 행동을 인식할 필요가 있다. 본 연구는 최근 각광을 받는 딥러닝 기술을 이용하여 비디오 영상에서 얼굴 만지기 행동 인식에 대한 연구이다. 우선, 비디오 영상에서 얼굴 만지기와 관련된 11 가지 행동에 대한 시, 공간적 특징을 컨볼루션 신경망을 통해 추출한다. 추출된 정보는 각 행동 레이블로 인코딩되어 비디오 영상에서 얼굴 만지기 행동을 분류한다. 또한, 3D, 2D 컨볼루션 신경망의 대표 네트워크인 I3D, MobileNet v3에 대해 비교 실험을 진행한다. 제안하는 시스템을 적용하여 인간의 행동을 분류하는 실험을 진행했을 때, 얼굴을 만지는 행동을 99%의 확률로 구분했다. 이 시스템을 이용하여 일반인이 무의식적인 얼굴 만지기 행동에 대해서 정량적으로 또는 적시적으로 인식을 하여, 안전한 위생 습관을 확립하여 감염의 확산방지에 도움을 줄수 있기를 바란다.
-
본 논문에서는 딥러닝 (deep learning) 방식을 이용한 5G NR (fifth-generation new radio)의 cell ID (cell identity) 검출 기법을 구현하였다. 5G NR 시스템의 단말 (user equipment)은 초기 접속 (initial access)과정에서 PSS (primary synchronization signal)와 SSS (secondary synchronization signal)을 이용한 동기 획득 및 cell ID 검출이 필요하다. 본 논문에서는 분류 기법 기반의 딥러닝 기술을 이용하여 인공 신경망 모델에 PSS 및 SSS 와 cell ID 의 상관 관계를 학습시키고, 학습된 모델의 성능을 제시하였다.
-
패션산업은 매년 1 조원씩 성장(연평균 2.1%)하며 많은 연구자들의 관심을 받고 있다. 전통적인 패션산업은 점차 디지털화되어 선진적인 컴퓨터 비전 기술을 적용해 소비자들에게 더 좋은 쇼핑 서비스를 제공하고 있다. 본 논문에서는 2014 년부터 2019 년 사이에 구축된 대표적인 패션 데이터셋을 연도별로 정리하고 각 데이터셋에 포함된 주석(annotation)의 특징을 정리했다. 또한 데이터셋이 패션 상품 검출(Fashion detection), 패션 이미지 생성(Fashion image generation), 가상 피팅(Virtual try-on) 그리고 패션 의류 분할(Fashion Clothing segmentation) 등 연구에서의 활용될 수 있는 여부에 대해 분석했다.
-
본 논문에서는 직전 연구였던 비트 평면 분할과 디더링을 통한 다중 학습 통합 신경망 구축에서의 한계점을 분석하고, 향상시킨 방법을 제시한다. 통합 신경망을 구축하는 방법에 대해 최근까지 시도되었던 방법들은 신경망을 구성하는 가중치(weight)나 층(layer)를 공유하거나 태스크 별로 구분하는 것들이 있다. 이와 같은 선상에서 본 연구는 더 작은 단위인 가중치의 비트 평면을 태스크 별로 할당하여 보다 효율적인 통합 신경망을 구축한다. 실험은 이미지 분류 문제에 대해 수행하였다. 대중적인 신경망 구조인 ResNet18 에 대해 적용한 결과 데이터셋 CIFAR10 과 CIFAR100 에서 이론적인 압축률 50%를 달성하면서 성능 저하가 거의 발견되지 않았다.
-
본 논문에서는 홀로그램 영상 콘텐츠의 지적재산권 보호를 위하여 워터마킹을 딥 러닝을 기반으로 하는 네트워크로 수행한다고 가정하고, 이 네트워크를 학습시킬 때 학습 데이터 세트를 어떻게 구성하는 것이 워터마킹 네트워크에 가장 효율적인지에 대해, JPEG Pleno에서 표준 데이터 세트로 제공하고 있는 홀로그램들을 사용하여 분석한다. 이 홀로그램들의 표준편차에 따라 학습 데이터세트의 구성을 달리하여 동일한 워터마킹 네트워크에 학습시킨 후 학습에 사용되지 않은 시험 데이터세트를 시험하여 나온 결과의 비가시성과 워터마크, 데이터의 추출률을 비교함으로써 학습 데이터세트 구축 방식에 대해 분석한다.
-
본 논문은 YOLO v4 알고리즘을 이용하여 산업 현장에서 근로자의 개인 보호장비를 검출하는 방법을 제시한다. 학습데이터 주석은 사람 영역, 안전모, 안전 조끼 혹은 벨트 영역을 검출하도록 처리하였으며, 학습데이터 2,198개, 검증데이터 275개를 학습하는 데 이용하였다. 실험 결과 학습 반복 수 10,000번을 기준으로 81.81%의 mAP가 나옴을 확인하였다. 추후 정확도 개선을 위해 학습데이터 구축 및 전·후처리 알고리즘 관련 연구를 수행할 예정이다.
-
최근 딥 러닝을 이용해 기계로 인간을 대체하는 스마트 팩토리에 대한 연구 및 개발이 활발히 진행되고 있다. 그러나 FPCB를 Placing하는 방법에 기계를 도입하는 과정은 발전이 더딘 상태이다. 현재 로봇 팔을 이용해 Placing하는 방법은 사람이 직접 로봇 팔을 튜닝해 사용하고 있다. 이에 본 논문은 딥 러닝을 이용한 영상처리 기법을 활용해 FPCB를 사람의 개입 없이 트레이에 삽입하는 기법을 개발하였다. 이를 위해 여러 알고리즘을 비교한 후 각각의 장단점을 고려해 적합한 알고리즘을 제시하였다. 본 논문에서 제시하는 기법은 FPCB에 아무 행동을 가하지 않으며, 힘 센서, 깊이 센서 등 기타 센서들의 도움 없이 RGB 센서(카메라)를 통해 획득한 이미지만을 이용해 자동화가 가능하다. 또한, 개발 단계에서 실제 기계를 이용해 이미지 촬영, 이동 등을 진행했기 때문에 조명, 로봇 팔 위치 등 알고리즘 외 조건들에 영향을 받지 않고 실제 사용이 가능하다.
-
초해상화 딥러닝 기법은 학습 시 수렴하기까지 최소 수백 번의 에폭을 필요로 하며 오랜 시간이 걸린다. 최근, 영상 인식용 딥러닝 모델에서는 학습 수렴 속도를 향상시키기 위해 픽셀, 채널간 불필요한 상호연관 정보를 제거하는 Deconvolution 기술이 제안되었다. 본 논문에서는 최초로 Deconvolution 기술을 초해상화 딥러닝 방법에 적용하여 학습 수렴 속도 증가를 시도했다. 영상 인식 딥러닝 기법과 다르게 초해상화 딥러닝 기법은 이미지 특성 추출 부분과 이미지 복원 부분의 정보를 보존하는 것이 중요하기 때문에, EDSR을 Baseline 모델로 사용하여 양쪽 끝의 레이어는 기존의 Convolution 연산을 그대로 유지하고, 중간 레이어의 ResBlock 내의 Convolution 연산만 Deconvolution 연산으로 바꿔서 구성하였다. 초해상화 벤치마크 데이터셋을 사용한 실험 결과, 수렴속도가 빨라지지 않는 결과를 도출했다. 본 논문에서는 Deconvolution 기술이 Baseline 모델의 성능을 개선하지 못하는 이유를 초해상화 분야에서 기본적으로 적용되는 Residual Learning 기법 때문으로 분석했다.
-
본 논문에서는 기존 인공 신경망 기반 시계열 학습 기법인 Recurrent Neural Network (RNN)의 많은 연산량 및 고 사양 시스템 요구를 개선하기 위해 랜덤 포레스트 (Random Forest)기반의 새로운 시계열 학습 기법을 제안한다. 기존의 RNN 기반 방법들은 복잡한 연산을 통해 높은 성능을 달성하는 데 집중하고 있다. 이러한 방법들은 학습에 많은 파라미터가 필요할 뿐만 아니라 대규모의 연산을 요구하므로 실시간 시스템에 적용하는데 어려움이 있다. 따라서 본 논문에서는, 효율적이면서 빠르게 동작할 수 있는 시계열 다층 랜덤 포레스트(Time series Multilayered Random Forest)를 제안하고 산불 조기 탐지에 적용해 기존 RNN 계열의 방법들과 성능을 비교하였다. 다양한 산불화재 실험데이터에 알고리즘을 적용해본 결과 GPU 상에서 방대한 연산을 수행하는 RNN 기반 방법들과 비교해 성능적인 한계가 존재했지만 CPU 에서도 빠르게 동작 가능하므로 성능의 개선을 통해 다양한 임베디드 시스템에 적용 가능하다.
-
최근 MPEG 에서는 인공신경망 모델을 다양한 딥러닝 프레임워크에서 상호운용 가능한 포맷으로 압축 표현할 수 있는 NNR(Compression of Neural Network for Multimedia Content Description and Analysis) 표준화를 진행하고 있다. 본 논문에서는 MPEG-NNR 에서 CNN 모델을 압축하기 위한 지역 비선형 양자화(Local Non-linear Quantization: LNQ) 기법을 제시한다. 제안하는 LNQ 는 균일 양자화된 CNN 모델의 각 계층의 가중치 행렬 블록 단위로 추가적인 비선형 양자화를 적용한다. 또한, 제안된 LNQ 는 가지치기(pruning)된 모델의 경우 블록내의 영(zero) 값의 가중치들은 그대로 전송하고 영이 아닌 가중치만을 이진 군집화를 적용한다. 제안 기법은 음성 분류를 위한 CNN 모델(DCASE Task)의 압축 실험에서 기존 균일 양자화를 대비 동일한 분류 성능에서 약 1.78 배 압축 성능 향상이 있음을 확인하였다.
-
데이터의 다양성은 학습에 따른 모델의 성능을 좌지우지하는 중요한 요소이다. 그렇기 때문에 많은 양의 데이터를 확보하는 것은 학습에 있어서 아주 중요하다. 하지만, 데이터를 수집하는 것은 시간과 비용이 많이 드는 단계 중 하나이다. 본 논문에서는 제한된 데이터를 가지고 이미지 처리를 거쳐 대량의 데이터로 증폭시켜 많은 양의 데이터를 확보하는 과정에 대해 제안한다. 가지고 있는 YOLOv4용 학습 데이터 셋을 활용하여 사용자로부터 입력받은 확대/축소 비율, 각도로 데이터를 변형하고, 이렇게 추가로 생성된 데이터 셋을 기존 학습 데이터 셋에 재포함시키는 소프트웨어를 개발하는 것을 목표로 한다. 구현된 소프트웨어로 증폭된 대량의 데이터 셋을 다시 원본 학습 데이터 셋에 추가하고, 같은 영상에 대해서 원본 데이터 셋만 학습시킨 경우의 객체 검출 결과와 증폭된 학습 데이터 셋이 포함된 데이터 셋의 경우의 객체 검출 결과를 비교하여 그 성능을 검증하고 분석하도록 한다.
-
최근에는 증강현실, 로봇공학 등의 분야에서 객체의 위치 검출 이외에도, 객체의 자세에 대한 추정이 요구되고 있다. 객체의 자세 정보가 포함된 데이터셋은 위치 정보만 포함된 데이터셋에 비하여 상대적으로 매우 적기 때문에 인공 신경망 구조를 활용하기 어려운 측면이 있으나, 최근에 들어서는 기계학습 기반의 자세 추정 알고리즘들이 여럿 등장하고 있다. 본 논문에서는 이 가운데 Dense 6d Pose Object detector (DPOD) [11]의 구조를 기반으로 하여 가구의 조립 설명서에 그려진 가구 부품들의 자세를 추정하고자 한다. DPOD [11]는 입력으로 RGB 영상을 받으며, 해당 영상에서 자세를 추정하고자 하는 객체의 영역에 해당하는 픽셀들을 추정하고, 객체의 영역에 해당되는 각 픽셀에서 해당 객체의 3D 모델의 UV map 값을 추정한다. 이렇게 픽셀 개수만큼의 2D - 3D 대응이 생성된 이후에는, RANSAC과 PnP 알고리즘을 통해 RGB 영상에서의 객체와 객체의 3D 모델 간의 변환 관계 행렬이 구해지게 된다. 본 논문에서는 사전에 정해진 24개의 자세 후보들을 기반으로 가구 부품의 3D 모델을 2D에 투영한 RGB 영상들로 인공 신경망을 학습하였으며, 평가 시에는 실제 조립 설명서에서의 가구 부품의 자세를 추정하였다. 실험 결과 IKEA의 Stefan 의자 조립 설명서에 대하여 100%의 ADD score를 얻었으며, 추정 자세가 자세 후보군 중 정답 자세에 가장 근접한 경우를 정답으로 평가했을 때 100%의 정답률을 얻었다. 제안하는 신경망을 사용하였을 때, 가구 조립 설명서에서 가구 부품의 위치를 찾는 객체 검출기(object detection network)와, 각 개체의 종류를 구분하는 객체 리트리벌 네트워크(retrieval network)를 함께 사용하여 최종적으로 가구 부품의 자세를 추정할 수 있다.
-
VVC(Versertile Video Codec)의 화면 내 예측은 인코더에서 영상을 적절하게 사각형 블록으로 분할하고, 블록 주변의 먼저 재구성된 참조샘플들을 이용하여 예측블록을 형성한다. 인코더는 화면 내 예측 모드에서 각 PU(Prediction Unit)에 대하여 MIP(Matrix-based weighted Intra Prediction) 적용 여부, MIP에서 matrix의 인덱스, MRL(Multi Reference Line)의 인덱스, DC/Planar/Angular 모드에 대한 최적모드를 고려하여 각 정보를 디코더로 전송하며 각 후보모드들의 압축효율을 비교하는 과정에서 높은 연산량을 요구한다. 본 논문에서는 이러한 모드 결정은 원본영상으로도 대략적인 결정이 가능하다는 전제를 가지고 NN(Nueral Netwrok)의 일종인 CNN(Convolutional Nerual Network)를 이용하여 복잡한 모드 결정 방법을 생략하는 방법을 제안한다.
-
의식주 중에서 자신을 표현하고 외부와의 교류를 할 수 있는 분야는 패션분야로서 인간 생활과 밀접한 관계를 가지고 있으며 사람들의 개인화된 성향 변화 및 인터넷 환경의 개선으로 트렌드는 빠르게 변화하고 있다. 인공지능 기술의 발전은 단순히 객체의 검출 및 분류에서 벗어나 패션 아이템의 분석 및 세부적인 속성을 분석할 수 있는 수준에 다다랐으며 인공지능 기술을 활용하여 사용자에게 추천할 수 있는 서비스가 출시되고 있다. 패션 트렌드의 빠른 변화 및 인공지능 기술의 발전으로 이를 활용한 플랫폼에 기반을 두어 디자이너에게는 디자인 기술을 향상시킬 수 있으며 사용자에게는 개인화된 제품을 구매할 수 있는 플랫폼 개발이 요구되고 있다. 본 논문에서는 인공지능 기술 기반 패션 분석 기술 개발을 위하여 패션 검출 모듈, 패션 검색 모듈, 패션 검색을 위한 벡터 검색 모듈, 상하의 분리를 위한 세그먼테이션 모듈, 패션 복종 분류 모듈을 개발하여 통합하였으며 패션 검색 정확도는 Top-5 기준 75.28%, 벡터 검색 속도는 벡터당 0.002m sec 이하, 세그먼테이션 추출 정확도 87.6%이상, 패션 검출 결과 IoU 0.5 환경에서 96.2%, 복종분석 90.54%의 성능을 보였다.
-
최근 이미지 분류의 성능 향상을 위해 깊은 레이어와 넓은 채널을 가지는 모델들이 제안되어져 왔다. 높은 분류 정확도를 보이는 모델을 제안하는 것은 과한 컴퓨팅 파워와 계산시간을 요구한다. 본 논문에서는 이미지 분류 기법에서 사용되는 딥 뉴럴 네트워크 모델에 있어, 프루닝 방법을 통해 상대적으로 불필요한 가중치를 제거함과 동시에 분류 정확도 하락을 최소로 하는 동적 필터 프루닝 방법을 제시한다. 원샷 프루닝 기법, 정적 필터 프루닝 기법과 다르게 제거된 가중치에 대해서 소생 기회를 제공함으로써 더 좋은 성능을 보인다. 또한, 재학습이 필요하지 않기 때문에 빠른 계산 속도와 적은 컴퓨팅 파워를 보장한다. ResNet20 에서 CIFAR10 데이터셋에 대하여 실험한 결과 약 50%의 압축률에도 88.74%의 분류 정확도를 보였다.
-
오래 전부터 모델 기반 최적화 방법이 이미지 디블러링을 위해 널리 사용되어 왔고, 최근에는 학습 기반 기술이 영상 디블러링에서 좋은 성과를 보이고 있다. 본 논문은 ADMM과 깊은 합성곱 신경망 잡음 제거기 이미지 prior를 이용하여 모델 기반 최적화 방법의 장점과 학습 기반 방법의 장점을 모두 활용할 수 있는 방법을 제안한다. 본 방법을 이용하여 기존 방법보다 더 좋은 디블러링 성능을 얻을 수 있었다.
-
영상의 세부 분류 인식에 대한 연구는 계속적으로 발전하고 있지만, 다형성의 성질을 갖는 동물에 대한 객체인식 연구는 더디게 진행되고 있다. 본 논문은 개와 고양이에 해당하는 애완동물 이미지만을 이용하여, 세부 분류인 동물의 종을 분류하는 것을 목표로 한다. 이를 위해 본 논문에서는 기계학습으로 여러 분야에서 좋은 성과를 얻고 있는 딥러닝을 이용하였으며, 그 중에서도 이미지 인식 분야에서 뛰어난 성능을 보인 Convolutional Neural Network(CNN)과 구글에서 제공하는 오픈소스 기반 딥러닝 프레임워크인 Tensorflow를 활용하였다. 제안하는 방법에 대해 37종의 애완동물 이미지, 총 7390장에 대하여 학습 및 실험하여 그 효과를 검증하였다.
-
본 논문에서는 U-Net 모델을 이용하여 정교하고 반복되는 패턴을 가진 인쇄물에 대한 비지도 학습을 통한 딥러닝 기반 이상치탐지(Anomaly Detection) 방법을 제안하였다. 인쇄물(카드)의 비정상 패턴 검출을 위하여 촬영한 영상으로부터 카드 영역을 분리한 이미지로 구성된 Dataset을 구축하였고 정상 이미지와 동일한 이미지를 출력하기 위해, 정상 이미지와 마스크 이미지 쌍의 Training dataset을 U-Net으로 학습하였다. Test dataset의 이미지를 입력으로 넣어 생성된 마스크 결과를 원본 마스크 이미지와 비교하여 이상 여부를 판단하는 본 논문의 방법이 정상, 비정상 인쇄물을 잘 구분하는 것을 확인하였다. 또한 정상과 비정상 이미지 각각을 학습한 지도학습 기반 CNN 분류 방법을 입력 영상과 복원 영상 간의 복원 오차를 비교하여 객체의 이상 여부를 판별하는 본 논문의 방법과 비교 평가하였다. 본 논문을 통해 U-Net을 사용하여 별도로 데이터에 대한 label 취득 없이 이상치를 검출할 수 있음을 확인할 수 있었다.
-
HEVC(High Efficiency Video Coding)의 색차신호 화면내 예측(Intra Prediction)은 복호화된 주변 화소로부터의 예측과 동일한 위치의 휘도신호의 예측 모드를 이용한 예측을 수행한다. 본 논문에서는 색차신호 화면내 예측의 성능 향상을 위하여 합성 곱 신경망(CNN: Convolutional Neural Network) 기반의 색차신호 예측 기법을 제안한다. 제안하는 기법은 복원된 주변 블록의 휘도 및 색차신호로부터 CNN 을 이용하여 현재블록의 색차신호를 예측한다. 실험결과 제안한 CNN 기반의 색차신호 예측 기법이 HEVC 의 색차신호 화면내 예측보다 향상된 성능을 보임을 확인하였다.
-
최근 원격 탐사 영상의 발달로 인해 작지만 중요한 객체에 대한 탐지 가능성이 커져 건물 변화 탐지에 대한 관심이 높아지고 있다. 본 논문은 건물 변화 탐지 방법 중 가장 좋은 성능을 가진 PGA-SiamNet 의 세부 변화 탐지의 정확도가 낮은 한계점을 개선시키기 위해 DensNet 기반의 Dense Siamese Network 를 제안한다. 제안하는 방법은 공개된 WHU 데이터 세트에 대해 변화 탐지 측정 지표인 TPR, OA, F1, Kappa 에 대해 97.02%, 99.5%, 97.44%, 97.16%의 성능을 얻었다. 기존 PGA-SiamNet 에 비해 TPR 은 0.83%, F1 은 0.02%, Kappa 는 0.02% 증가하였으며, 세부 변화 탐지의 성능이 우수함을 확인할 수 있다.
-
CNN(CNN: Convolutional Neural Network)은 컴퓨터 비전의 많은 분야에서 뛰어난 성능을 보이고 있으며, 단일 영상으로부터 깊이(depth) 추정에서도 기존 기법보다 향상된 성능을 보이고 있다. 그러나, 단일 영상으로부터 신경망이 얻을 수 있는 정보는 제한적이기 때문에 스테레오 카메라로부터 얻은 좌/우 영상으로부터의 깊이 추정보다 성능 향상에 한계가 있다. 따라서 본 논문에서는 에지 맵(edge map)을 이용한 CNN 기반의 단일 영상에서의 깊이 추정의 개선 기법을 제안한다. 제안 방법은 먼저 단일 영상에 대한 전처리를 통해서 에지 맵과 양방향 필터링된(bilateral filtered) 영상을 생성하고, 이를 CNN 입력으로 하여 기존 단일 영상 깊이 추정 기법 대비 개선된 성능을 보임을 확인하였다.
-
고위험의 재난 상황에서 사람이 상황을 판단하고, 요구조자를 탐색하며, 구조하는 것은 추가 피해를 발생시킬 수 있다. 따라서 재난 상황에서도 이동과 접근이 용이한 무인항공에 관한 연구와 개발이 활발히 이루어지고 있다. 재난 상황에서 신속하게 대처하기 위해서는 선제적 상황인지 기술이 필요하다. 이에 본 논문은 구조 및 대피를 위해 사람, 자동차, 자전거 등의 객체를 인식하고 중복 인식을 피하기 위해 추적하는 딥러닝 기반 다중 객체 추적 시스템을 제안한다. 2019 인공지능 R&D 그랜드 챌린지 상황인지 부문에서의 대회 결과로 실험 성능을 증명한다.
-
이미지 초해상도는 딥러닝의 발전과 함께 이를 활용하며 눈에 띄는 성능향상을 이루었다. 딥러닝을 기반으로 한 대부분의 이미지 초해상도 연구는 딥러닝 네트워크 모델의 구조에 대한 연구 위주로 진행되어 왔다. 그러나 최근 들어 딥러닝 기반의 이미지 초해상도가 합성된 데이터에 대해서는 높은 성능을 보이지만 실제 데이터에 대해서는 높은 성능을 보이지 못한다는 사실이 주목받고 있다. 이에 따라 모델 구조를 바꿔 성능을 향상 시키는 것에는 한계가 있어 데이터의 활용이나 학습 방법에 대한 연구의 필요성이 증대되고 있다. 따라서 본 논문은 이미지 초해상도를 위한 난이도 조절 기반 전이학습법(transfer learning)을 제안한다. 제안된 방법에서는 이미지 초해상도를 배율을 난이도가 쉬운 낮은 배율부터 순차적으로 전이학습을 진행한다. 이는 이미지 초해상도의 배율이 높아질수록 학습이 어렵기 때문이다. 결과적으로 본 논문에서는 높은 배율의 이미지 초해상도를 진행하기 위해 낮은 배율의 이미지 초해상도, 즉 난이도가 쉬운 학습부터 점진적으로 학습을 진행하였을 때 더욱 빠르고 효과적으로 학습할 수 있음을 보여준다. 제안된 전이학습 방법을 통해 적은 횟수의 업데이트로 학습을 진행하였을 때 일반적인 학습방법 대비 약 0.18 dB 의 PSNR 상승을 얻어, RealSR [9] 데이터셋에서 28.56 dB의 성능으로 파라미터 수 대비 높은 성능을 얻을 수 있었다.
-
공공시설에 대한 안전점검은 공공시설의 노후화에 따라 정기적인 검사의 필요성이 요구되고 있다. 기존의 안전점검 방식은 대부분 육안으로 점검하는 것에 의존하는데 이는 점검자의 숙련도에 따라 결과의 품질이 달라지게 된다. 본 논문에서는 XAI 기반의 공공시설물 건전도 안전검사 평가시스템을 제안하며, 이는 점검자의 숙련도와 무관하게 항상 같은 결과를 도출해 내며 XAI 를 통해 사용자에게 안전점검에 대한 결과를 제시해준다. 공공시설물 중 터널 시설물의 안전검사 평가시스템을 기반으로 하는 연구를 진행하였으며 이는 수정없이 교량 시설물 등 다른 공공시설물에 적용이 가능하다. 본 논문은 5 가지로 구분된다. 1) 터널 이미지와 균열에 마스크를 적용한 이미지 두 가지의 데이터 셋을 448x448 로 생성한다. 2) UNet 과 Resnet152 의 두 모델을 적용한 혼합 모델을 이용하여 생성한 데이터 셋을 훈련시킨다. 3) 훈련된 혼합 모델에서 생성된 분할 이미지에 대해 노이즈 제거 과정을 진행한다. 4) 노이즈 제거가 끝난 이미지에 스켈레톤화(Skeletonization)를 적용시켜 균열 이미지의 뼈대를 구한다. 뼈대 이미지 기반으로 균열의 길이, 두께, 위치등의 정보를 얻는다. 5) XAI 부분에서는 뼈대 이미지의 정보를 토대로 균열의 위치, 두께, 길이 등에 대해 계산을 진행한 후 사용자에게 제시해준다.
-
본 논문에서 육안으로도 구별하기 힘든 송전선과 같은 객체가 포함된 송전설비를 효과적으로 검출하는 방법을 제안한다. 객체 인식 모델에 송전탑 데이터 셋을 학습시켜 송전설비 Region of Interest(ROI)를 추출한다. 송전선 데이터 셋을 ResNet50 에 학습하고, 추출된 ROI 영상을 Guided Grad-CAM 을 출력한다. 추출된 Guided Grad-CAM 에 노이즈 제거 후처리를 적용하여 송전설비를 추출한다. 본 논문에서 제안된 기법을 적용할 경우 드론 또는 UAV 헬기 등에서 촬영된 영상으로 송전설비 유지보수가 가능하다.
-
We propose a unique client-driven music genre classification solution, that can identify the music genre using a deep convolutional neural network operating on the time-domain signal. The proposed method uses the client device (Jetson TX2) computational resources to identify the music genre. We use the industry famous GTZAN genre collection dataset to get reliable benchmarking performance. HTTP live streaming (HLS) client and server sides are designed locally to validate the effectiveness of the proposed method. HTTP persistent broadcast connection is adapted to reduce corresponding responses and network bandwidth. The proposed model can identify the genre of music files with 97% accuracy. Due to simplicity and it can support a wide range of client hardware.
-
An indoor localization system that uses Wi-Fi RSSI signals for localization gives accurate user position results. The conventional Wi-Fi RSSI signal based localization system uses raw RSSI signals from access points (APs) to estimate the user position. However, the RSSI values of a particular location are usually not stable due to the signal propagation in the indoor environments. To reduce the RSSI signal fluctuations, shadow fading, multipath effects and the blockage of Wi-Fi RSSI signals, we propose a Wi-Fi localization system that utilizes the advantages of Wi-Fi RSSI heat maps. The proposed localization system uses a regression model with deep convolutional neural networks (DCNNs) and gives accurate user position results for indoor localization. The experiment results demonstrate the superior performance of the proposed localization system for indoor localization.
-
부분 공간 군집화는 고차원 데이터에서 의미 있는 특징들을 선별 및 추출하여 저차원의 부분 공간에서 군집화 하는 것이다. 그러나 최근 딥러닝 활용한 부분 공간 군집화 연구들은 AutoEncoder을 기반으로 의미있는 특징을 선별하는 것이 아닌 특징 맵의 크기를 증가시켜서 네트워크의 표현 능력에 중점을 둔 연구되고 있다. 본 논문에서는 AutoEncdoer 네트워크에 Channel Attention 모델을 활용하여 Encoder와 Decoder에서 부분 공간 군집화를 위한 특징을 강조하는 네트워크를 제안한다. 본 논문에서 제안하는 네트워크는 고차원의 이미지에서 부분 공간 군집화를 위해 강조된 특징 맵을 추출하고 이를 이용해서 보다 향상된 성능을 보여주었다.
-
본 논문에서는 GAN 과 자기 지도 학습(self-supervised learning)을 통해 입력 얼굴 영상의 공간 해상도를 4 배 증가시키는 기법을 제안한다. 제안하는 기법은 변형된 StarGAN v2 구조의 생성자와 구분자를 사용하여 저해상도의 입력 영상만을 가지고 학습 과정을 거쳐 고해상도 영상을 복원하도록 자기 지도 학습을 수행한다. 제안하는 기법은 복원된 영상과 고해상도 영상 간의 손실을 줄이는 지도 학습이 가지고 있는 단점을 극복하고 입력 영상만을 가지고 영상 내부에 존재하는 특징을 학습하여 얼굴 영상에 대한 고해상도 영상을 복원한다. 제안하는 기법과 Bicubic 보간법과의 비교를 통해 우수성을 검증한다.
-
인공신경망의 예측 결과에 대한 원인을 분석하는 것은 모델을 신뢰하기 위해 필요한 작업이다. 이에 컴퓨터 비전 분야에서는 돌출맵 또는 히트맵의 형태로 모델이 어떤 내용을 근거로 예측했는지 시각화 하는 모델 해석 방법들이 제안되었다. 하지만 오디오 분야에서는 스펙트로그램 상의 시각적 해석이 직관적이지 않으며, 실제 어떤 소리를 근거로 판단했는지 이해하기 어렵다. 따라서 본 연구에서는 히트맵의 청취 분석 시스템을 제안하고, 이를 활용한 음향 장면 분류 모델의 히트맵 청취 분석 실험을 진행하여 인공신경망의 예측 결과에 대해 사람이 이해할 수 있는 설명을 제공할 수 있는지 확인한다.
-
기존에 지도학습 방법은 성능은 좋지만, 학습할 때 비디오 데이터와 정답 라벨이 있어야 한다. 그러나 이러한 데이터의 라벨을 수동으로 붙여줘야 하는 문제점과 그에 필요한 시간과 돈이 크다는 것이다. 이러한 문제점을 해결하기 위한 다양한 방법 중 자기지도학습(Self-Supervised Learning) 중 하나인 회전 방법을 비디오 데이터에 적용하여 학습하는 연구를 진행하였다. 본 연구에서는 두가지 방법을 제안한다. 먼저 기존의 비디오 데이터를 입력으로 받으면 단순히 비디오 자체를 회전시키는 것이 아닌 입력으로 들어온 비디오의 각각 프레임이 시간이 지나면서 일정한 속도로 회전을 시킨다. 이때의 회전은 총 네 가지 각도[0, 90, 180, 270]를 분류하도록 하는 방법론이다. 두 번째로 비디오의 프레임이 시간이 지나면서 변할 때 프레임 별로 고정된 각도로 회전시키는데 이때 회전하는 속도 네 가지 [1x, 0.5x, 0.25x, 0.125]를 분류하도록 하는 방법론이다. 이와 같은 제안하는 pretext task들을 통해 네트워크를 학습한 뒤, 학습된 모델을 fine tune 시켜 비디오 분류에 대한 실험을 수행 및 결과를 도출하였다.