Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
2020.11a
-
4차 산업혁명 기술의 핵심은 클라우드, 인공지능 및 빅데이터이다. 더욱 효과적인 재단경보 서비스를 위해 재난경보 시스템에 4차 산업혁명기술의 적용이 요구된다. 민방위경보를 포함한 재난경보 시스템의 목표는 다양한 정부기관이 발령한 경보를 효과적으로 국민에게 전달하는 것이다. 효과적인 재난경보를 위해 전달망의 높은 안정성, 유연성, 통합성, 포괄성이 요구된다. 이 논문은 효과적 재난경보를 위해 4차 산업혁명 기술을 적용한 5G/6G 이동통신 네트워크의 일부 구조를 차용하는 차세대 재난경보 플랫폼을 제시한다.
-
현재 국내에는 여러 가지 경보전달 시스템이 운영되고 있으나 국가 단위의 경보시스템은 민방위 경보시스템이 거의 유일하다 하겠다. 이러한 민방위경보 전달체계 현황에 대한 분석을 통해 현재의 문제점을 짚고, 향후 개선에 필요한 시사점을 도출하고자 한다. 민방위경보는 민방공경보와 재난경보를 포괄하고 있지만, 현재는 민방공경보에 치우친 운용절차와 경보전달체계를 갖고 있으며, 이는 근래에 들어 광역단위의 재난경보 상황에 대한 민방위경보시설을 이용한 대국민 경보대응이 점차 늘어나는 추세이긴 하지만 민방공경보에 치우친 경보전달체계로 인한 재난경보 대응 운용에서 제약을 받고 있음이 사실이다. 이에 본 논문은 민방위경보가 민방공경보와 재난경보를 동등한 수준으로 이해하고, 현재의 민방위경보 전달체계의 개선점을 토대로 시사점을 짚어내어 차세대 융합형 통합경보전달체계를 도출함을 목적으로 하였다.
-
재난문자 전송은 기지국에서 다수의 단말기로 재난문자를 전달하는 단방향 프로토콜인 CBS 긴급 재난문자 서비스를 이용한다. 이 CBS 전송 기법은 일대다(One-to-Many) 방식을 이용한다. 현 CBS 프로토콜은 일종의 방송 방식으로 기지국은 긴급재난문자를 수신한 단말기로부터 어떠한 확인 메시지도 전달받지 못한다. 그러나 재난관리기관은 효율적인 재난 대응을 위하여 재난지역의 재난문자 수신자로부터 유용한 정보를 전달받을 필요가 있다. 즉 CBS 재난문자를 수신한 단말기들로부터 재난관리기관 서버로 CBS 메시지에 대한 응답 메시지를 전달받는 방식으로 유용한 정보를 취합할 수 있다. 이러한 전달방식을 위해 다대일(many-to-one) 통신 기법이 고려된다.
-
이 연구에서는 재난문자에 대한 이용자 인식에 대해 알아보았다. 이용자 인식조사는 재난 발생 시 주 이용매체, 재난문자 길이, 재난문자 수신 량, 재난문자 내용 만족/불만족을 중심으로 살펴보았다. 우선, 재난이 발생하였을 때 주로 이용하는 매체는 휴대폰이 가장 높게 나타났다. 다음으로, 현 재난문자의 길이(90자)가 적당하다고 생각하고 있는 반면에 재난문자의 수신 량은 많다고 생각하고 있는 것으로 나타났다. 마지막으로, 재난문자 내용에 불만족하는 이유로는 '일반적으로 알고 있는 내용을 받는 것'이 가장 많은 것으로 나타났다.
-
현재 국내에서는 기존의 재난문자 보다 더 향상된 서비스를 제공하기 위해 노력 하고 있다. 하지만 향상된 재난문자 서비스를 직접 적용하기 위해서는 해당 기능을 수용할 수 있는 신형 휴대폰이 필요하다. 기존의 구형 휴대폰에서는 수용하기 어려운 기능이 있을 수 있다. 이로 인해 휴대폰 종류에 따라 재난문자 서비스에 차등이 발생하는 문제가 있다. 이 논문에서는 미국에서 국내보다 앞서서 향상된 재난문자 서비스를 어떻게 제공하는지 알아본다.
-
코로나와 같은 전파력이 높은 감염병의 확산을 감소하기 위해서는 광역적으로는 방역 및 위생 수칙에 대한 정보 제공이 요구되며, 개개인별로는 접촉 등 전파 위험에 노출된 상황이나 장소 등에 대한 신속한 정보가 필요하다. 이러한 기능을 부합하는 재난경보 매체로는 개인이 보유한 휴대폰 단말을 통해 재난정보를 제공하는 긴급재난문자 서비스를 들 수 있다. 브로드캐스팅 방식을 통해 필요한 지역 및 시간에 일괄적으로 정보를 제공할 수 있다는 장점이 있으며, 이에 코로나 대응을 위해 국내를 비롯한 각국에서의 활용이 증가하는 추세이다. 본 논문에서는 코로나 시대에 따른 여러 나라의 긴급재난문자 활용에 대해 분석하고 앞으로의 긴급재난문자의 활용방안에 대해 논의하고자 한다.
-
본 논문에서는 Convolutional Neural Network(CNN)를 이용한 위성 영상 변화탐지 알고리즘을 제안한다. 우선 EfficientNet 기반의 대칭 인코더-디코더 구조의 변화탐지 네트워크를 구성한다. 그리고 디코더 단에 ASPP 모듈을 추가하여 넓은 수용영역을 갖는 특징 정보를 통해 변화지도(change map)를 복원한다. 실험 결과를 통해 검출 성능 및 연산 효율성이 기존 기법보다 우수함을 보인다.
-
본 연구에서는 고차원 데이터에 대한 차원축소 및 군집 분석과 같은 비지도 학습 알고리즘에 대해 알아보기 위해서 얼굴 이미지 데이터 셋을 사용한다. 얼굴 데이터 셋에 대하여 주요 비지도 학습 알고리즘을 이용하여 실시간으로 클러스터링하고, 그 성능을 비교한다. 비디오에서 추출된 영상 속의 7명의 인물에 대하여 Scikit-learning 라이브러리에서 제공하는 클러스터링 알고리즘과 더불어 주요 차원축소 알고리즘(Dimension Reduction Algorithm)을 사용하여 총 10개의 알고리즘에 대하여 분석한다. 또한, 클러스터링 성능 검사를 통해 알고리즘의 성능을 비교해보고, 이를 통하여 앞으로의 연구 방향에 대해 고찰한다.
-
대용량의 데이터를 시각적 요소를 활용하여 눈으로 볼 수 있도록 하는 데이터 시각화에 대한 관심이 꾸준히 증가하고 있다. 데이터 시각화는 데이터의 전처리를 거쳐 차원 축소를 하여 데이터의 분포를 시각적으로 확인할 수 있다. 공개된 데이터 셋은 캐글(kaggle), 아마존 AWS 데이터셋(Amazon AWS datasets), UC 얼바인 머신러닝 저장소(UC irvine machine learning repository)등 다양하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 딥러닝을 이용하여 다양한 환경 및 조건에서의 학습을 통한 데이터분석 및 학습 결과가 좋을 경우와 그렇지 않을 경우의 마지막 레이어의 특징 벡터를 시각화하여 직관적인 결과를 확인 가능 하도록 하였다. 또한 다차원 입력 데이터를 시각화 함으로써 시각화 된 결과가 딥러닝의 학습결과와 연관이 있는지를 확인 한다.
-
Automatic segmentation of brain tissues such as WM, GM, and CSF from brain MRI scans is helpful for the diagnosis of many neurological disorders. Accurate segmentation of these brain structures is a very challenging task due to low tissue contrast, bias filed, and partial volume effects. With the aim to improve brain MRI segmentation accuracy, we propose an end-to-end convolutional based U-SegNet architecture designed with multi-scale kernels, which includes cascaded dilated convolutions for the task of brain MRI segmentation. The multi-scale convolution kernels are designed to extract abundant semantic features and capture context information at different scales. Further, the cascaded dilated convolution scheme helps to alleviate the vanishing gradient problem in the proposed model. Experimental outcomes indicate that the proposed architecture is superior to the traditional deep-learning methods such as Segnet, U-net, and U-Segnet and achieves high performance with an average DSC of 93% and 86% of JI value for brain MRI segmentation.
-
Due to the lack of improper image acquisition process, noise induction is an inevitable step. As a result, objective image quality assessment (IQA) plays an important role in estimating the visual quality of noisy image. Plenty of IQA methods have been proposed including traditional signal processing based methods as well as current deep learning based methods where the later one shows promising performance due to their complex representation ability. The deep learning based methods consists of several convolution layers and down sampling layers for feature extraction and fully connected layers for regression. Usually, the down sampling is performed by using max-pooling layer after each convolutional block. We reveal that this max-pooling causes information loss despite of knowing their importance. Consequently, we propose a better IQA method that replaces the max-pooling layers with strided convolutions to down sample the feature space and since the strided convolution layers have learnable parameters, they preserve optimal features and discard redundant information, thereby improve the prediction accuracy. The experimental results verify the effectiveness of the proposed method.
-
Virtual try on is getting interested from researchers these days because its application in online shopping. But single pose virtual try on is not enough, customer may want to see themselves in different pose. Multiple pose virtual try on is getting input as customer image, an in-shop cloth and a target pose, it will try to generate realistic customer wearing the in-shop cloth with the target pose. We first generate the target segmentation layout using conditional generative network (cGAN), and then the in-shop cloth are warped to fit the customer body in target pose. Finally, all the result will be combine using a Resnet-like network. We experiment and show that our method outperforms stage of the art.
-
Kim, Woosuk;Kim, Jin-Kyum;Kim, Kyung-Jin;Oh, Kwan-Jung;Kim, Jin-Woong;Kim, Dong-Wook;Seo, Young-Ho 37
본 연구에서는 홀로그램을 현대의 멀티미디어로써 효율적으로 사용하기 위해 필요한 홀로그램 압축 실험으로써 위상 홀로그램에 대한 압축 실험을 진행하였다. 포인트 클라우드로부터 생성한 여러 시점의 정보로 비디오 홀로그램을 생성하였다. 압축실험에선 원래의 홀로그램과 위상 펼침(Phase unwrapping) 방법을 통해 변환된 홀로그램을 비교하며, 동일한 압축률에선 심각한 성능하락은 없었으며, 동일한 QP(Quantization parameter)에선 더 높은 압축률을 보였다. -
본 논문은 홀로그램 압축을 위한 다양한 양자화기에 대한 특성을 분석한다. 홀로그램의 정보는 32 비트 혹은 64비트의 부동 소수점으로 표현되어 표준코덱을 이용하여 압축하기 위해서는 양자화 과정이 반드시 필요하다. 홀로그램 데이터는 JPEG Pleno에서 제공하는 표준 데이터 세트를 사용하였다. 사용한 양자화기는 균일 양자화기와 비균일 양자화기 중 -law 양자화기를 사용하였으며 파워 변환 함수를 사용하였다. 사용한 표준 코덱은 HEVC Intra를 사용하였다. 본 논문에서는 다양한 양자화기를 통해 홀로그램을 압축하고 그 성능을 비교한다.
-
본 논문에서는 JPEG Pleno에서 표준 데이터세트로 제공되고 있는 디지털 홀로그램의 압축 방법을 제시한다. 디지털 홀로그램의 재현에서 시각화를 위한 랜덤 위상의 추가는 간섭현상으로 인한 스페클노이즈와 더블어 홀로그램의 압축 효율을 떨어트린다. 먼저, 다양한 웨이블릿 필터를 이용하여 홀로그램 데이터에 대한 주파수 특성 분석을 진행한다. 다음으로, 홀로그램 압축에 용이한 필터를 제안한다. 마지막으로 JPEG2000의 웨이블릿 필터인 Bi-Orthogonal (4, 4)와 제안하는 웨이블릿 필터를 이용하여 SPIHT(Set partitioning in hierarchical trees)를 이용하여 압축하고 복원하고 압축률 대비 정량적 화질평가를 통해 그 효율을 분석한다.
-
궁극의 3D 디스플레이 기술이라고 할 수 있는 홀로그램 기술로 실물을 보는 것과 같은 3차원 영상이 가능해 지고 있다. 그러나 디지털 홀로그램 영상의 데이터양은 HD나 UHD 영상의 수십에서 수천 배에 달해 원본 화질의 열화를 최소화 하면서 데이터양을 줄이기 위한 압축 부호화 기술이 매우 중요하다. 본 논문에서는 위상 홀로그램 동영상에 대해 최신 영상 압축 표준인 HEVC(High Efficiency Video Coding)와 VVC(Versatile Video Coding)로 압축한 후 홀로그램 영역과 수치 복원 영역에서 압축 성능을 비교하며, 다양한 실험영상에 대한 HEVC 압축 결과에 대해 객관적 압축성능 분석 및 주관적 성능 분석을 진행한다.
-
HEVC (High Efficiency Video Coding)의 In-Loop 필터 중 하나인 디블로킹 필터는 예측과 변환 블록 주변의 균일하지 않은 잡음을 제거하기 위해 사용된다. 영상을 복원할 때 텍스쳐 정보의 경우, 디블로킹 필터로 눈에 보이는 잡음을 제거하는 데 유리하지만 깊이 정보는 깊이를 예측하여 합성하는 데 사용되므로 디블로킹 필터를 적용하면 합성에 방해가 될 수 있다. 이에 본 논문은 TMIV (Test Model 6 for MPEG Immersive Video) 인코더를 거쳐 나온 기본 시점과 추가 시점의 텍스쳐와 깊이 영상에 디블로킹 필터를 적용하여 BD-Rate의 향상 정도와 인지 화질적 관점에서의 화질 개선 여부를 실험을 통해 검증한다.
-
MPEG-I(Immersive) 그룹에서는 몰입형 미디어 영상처리 표준화의 일환으로 마이크로렌즈를 통한 다시점 영상 처리 기술인 Dense Light Field에 대한 성능 탐색을 진행하고 있다. 본 논문에서는 MPEG-I에서 정의된 라이트 필드 시퀀스에 대해 versatile video codec(VVC)에 대한 압축 성능 분석을 시행하였으며, 또한 렌즈렛(Lenslet) 형태의 특정적인 이미지 정보를 효율적으로 압축하기 위한 스크린 콘텐츠 코딩 툴의 효율 비교를 진행하였다. 또한 렌즈렛 영상에서의 화면 내 블록 카피(intra block copy) 기법이 선택되는 비율을 확인하고, 화면 내 블록 카피 기법을 통해 렌즈렛 영상이 효율적으로 압축될 수 있음을 보였다.
-
몰입감 있는 가상 현실 영상을 제공하기 위한 360 도 영상 부호화 및 전송 기술이 활발히 연구되고 있으나, 현재 가상현실 장비가 사용가능한 연산 능력 및 대역폭으로는 몰입감 있는 영상을 전송 및 재생하기에 한계가 있다. 따라서 본 논문은 고화질 360 도 사용자 시점 영상 제공을 위해 사용자 시점 타일을 추출하는 움직임 제한 타일 셋 기반 타일 추출기를 구현한다. 기존의 high-efficiency video coding (HEVC) 에서 구현되었던 타일 추출기와 달리 제안하는 추출기는 360 도 영상에 대한 비트스트림에서 여러 개의 타일을 추출한다. 이후 추출된 타일들은 전체 360 도 영상에 대한 저화질 비트스트림과 동시 전송되어 예상치 못한 사용자 시점 변경에 대응한다.
-
본 논문에서는 컨볼루션 신경망을 이용하여 다시점 비디오의 중간 시점 양자화 노이즈를 제거하는 방안을 제안한다. 다시점 비디오에서 중간 시점의 화질을 개선하기 위한 방안으로 인접 시점의 정보를 활용하였다. 제안하는 알고리즘을 적용하여 중간 시정에서의 양자화 노이즈를 제거할 수 있으며, 화질 (PSNR, peak-to-noise ratio)를 개선할 수 있다. 인접 시접의 정보를 활용할 경우, 일반적인 양자화 노이즈에 대해서 학습한 결과 대비 성능 향상을 제공한다.
-
With the advent of deep learning, a lot of attempts have been made in computer vision to substitute deep learning models for conventional algorithms. Among them, image classification, object detection, and image restoration have received a lot of attention from researchers. However, most of the contributions were refined in one of the fields only. We propose a new paradigm of model structure. End-to-end model which we will introduce classifies noise of an image and restores accordingly. Through this, the model enhances universality and efficiency. Our proposed model is an 'One-For-All' model which classifies weather condition in an image and returns clean image accordingly. By separating weather conditions, restoration model became more compact as well as effective in reducing raindrops, snowflakes, or haze in an image which degrade the quality of the image.
-
최근 다양한 분야에서 딥 러닝 기반의 많은 연구가 진행되고 있으며 이에 따라 딥 러닝 모델의 경량화를 통해 제한된 메모리를 가진 하드웨어에 올릴 수 있는 경량화 된 딥 뉴럴 네트워크(DNN)를 개발하는 연구도 활발해졌다. 이에 본 논문은 주파수 영역에서의 군집화 기반 계층별 딥 뉴럴 네트워크 압축을 제안한다. 이산 코사인 변환, 양자화, 군집화, 적응적 엔트로피 코딩 과정을 각 모델의 계층에 순차적으로 적용하여 DNN이 차지하는 메모리를 줄인다. 제안한 알고리즘을 통해 VGG16을 손실률은 1% 미만의 손실에서 전체 가중치를 3.98%까지 압축, 약 25배가량 경량화 할 수 있었다.
-
최근 딥러닝을 이용한 인체 자세 추정(human pose estimation) 연구가 활발히 진행되고 있다. 그 중 구조가 간단하면서도 성능이 강력하여 널리 사용되고 있는 딥러닝 네트워크 모델은 이미지 분류(image classification)에 사용되는 백본 네트워크(backbone network)와 디컨볼루션 출력망(deconvolution head network)을 이어 붙인 구조를 갖는다[1]. 기존의 디컨볼루션 출력망은 디컨볼루션 층을 쌓아 낮은 해상도의 특징맵을 모두 높은 해상도로 변환한 후 최종 인체 자세 추정을 하는데 이는 다양한 해상도에서 얻어낸 특징들을 골고루 활용하기 힘들다는 단점이 있다. 따라서 본 논문에서는 매 디컨볼루션 층 이후에 인체 자세 추정을 하여 다양한 해상도에서 연산을 하고 이를 종합하여 최종 인체 자세 추정을 하는 방법을 제안한다. 실험 결과 Res50 과 기존의 디컨볼루션 출력망의 경우 0.717 AP 를 얻었는데 Res101 과 기존의 디컨볼루션 출력망을 사용한 결과 50% 이상의 파라미터 수 증가와 함께 0.727 AP, 즉 0.010AP 의 성능 향상이 이루어졌다. 이에 반해 Res50 에 다중 해상도 디컨볼루션 출력망을 사용한 결과 약 1%의 파라미터 수 증가 만으로 0.720 AP, 즉 0.003 AP 의 성능 향상이 이루어졌다. 이를 통해 디컨볼루션 출력망 구조를 개선하면 매우 적은 파라미터 수 증가 만으로도 인체 자세 추정의 성능을 효과적으로 향상시킬 수 있음을 확인하였다.
-
조립 부품 이미지에 해당하는 3D CAD 모델 매칭 기술은 최근 로봇 조립 기술의 발전으로 필요성이 대두되고 있다. 이미지 기반 3 차원 모델 매칭 연구는 진행되어 왔지만 가구 부품 이미지와는 특성이 다른 RGB[5] 이미지나 스케치 이미지를 다루는[1] 접근들이었다. 딥러닝을 사용하는 스케치 이미지 기반 3 차원 물제 검색 연구에서는 대부분 3 차원 이미지를 다각도에서 렌더링한 view 이미지들에서 feature를 추출하고 pooling 하여 하나의 feature를 출력한다. 그러나 기존의 view pooling 방식은 단순한 평균 방식으로, 부품 이미지에 따른 view를 반영하기에는 한계가 있었다. 따라서 본 논문에서는 조립 부품 이미지 기반 3 차원 물체 검색을 위해 query 부품 이미지에 따라 다른 view 이미지에 집중할 수 있는 방식의 attentional view pooling을 제안한다. 또한 조립 부품 데이터의 특성 상 class 당 CAD 모델이 하나인 상황이므로 학습 데이터가 터무니없이 부족하여 이를 해결하기 위한 학습 데이터 증강 방법을 제안한다. 실험은 의자 부품 11가지에 대해 진행하였고 이를 통해 제안하는 방식의 성능을 입증하였다.
-
본 논문에서는 합성곱 신경망을 이용한 이미지 분류에서 신뢰도와 실제 예측 정확도가 다른 문제점을 해결하기 위하여 변형된 두 가지 목적 함수를 제안하였다. 첫 번째는 기존 교차 엔트로피 함수에 새로이 신뢰도와 정확도의 차이를 더해준 것이고, 두번째는 예측값의 최댓값을 0.5로 제한한 것이다. 새로운 목적 함수를 통해 학습해본 결과 정확도의 차이는 거의 나지 않았고, 신뢰도와 실제 정확도는 매우 근접하게 되는 결과를 얻을 수 있었다.
-
얼굴 영상으로부터 사람의 감정을 예측하는 연구는 최근 딥러닝의 발전과 함께 주목받고 있다. 본 연구에서 우리는 연속적인 변수를 사용하여 감정을 표현하는 dimensional model에 기반하여 얼굴 영상으로부터 감정 상태를 나타내는 지표인 valance/arousal(V/A)을 예측하는 딥러닝 네트워크를 제안한다. 그러나 V/A 예측 모델의 학습에 사용되는 기존의 데이터셋들은 데이터 불균형(data imbalance) 문제를 가진다. 이를 해소하기 위해, 우리는 오토인코더 구조를 가지는 얼굴 영상 생성 네트워크를 학습하고, 이로부터 얻어지는 균일한 분포의 데이터로부터 V/A 예측 네트워크를 학습한다. 실험을 통해 우리는 제안하는 얼굴 생성 오토인코더가 in-the-wild 환경의 데이터셋으로부터 임의의 valence, arousal에 대응하는 얼굴 영상을 성공적으로 생생함을 보인다. 그리고, 이를 통해 학습된 V/A 예측 네트워크가 기존의 under-sampling, over-sampling 방영들과 비교하여 더 높은 인식 성능을 달성함을 보인다. 마지막으로 기존의 방법들과 제안하는 V/A 예측 네트워크의 성능을 정량적으로 비교한다.
-
본 논문에서는 네트워크 이상치 탐지를 위하여 정상 데이터만을 활용한 메모리 기반 정상성 학습 모델을 제안한다. 오토인코더를 기반으로 정상 데이터의 특징을 표현하는 프로토타입을 생성할 수 있도록 신경망을 구성하고, 네트워크 데이터의 특성을 반영하여 쿼리의 수를 한 개로 고정하며, 사용되는 프로토타입의 수를 지정한 값으로 고정하여 모든 프로토타입에 정상 데이터의 특징을 반영할 수 있는 학습 방법을 제안한다. 해당 모델을 네트워크 이상치 탐지 데이터 세트인 Kyoto Honeypot, UNSW-NB15, CICIDS-2018에 적용하여 본 결과 Kyoto Honeypot에서는 0.821, UNSW-NB15에서는 0.854, CICIDS-2018에서는 0.981의 AUROC를 달성했다.
-
GPU의 발전과 함께 성장한 딥러닝(Deep Learning)은 영상 분류 문제에서 최고의 성능을 보이고 있다. 그러나 합성곱 신경망 기반의 모델을 깊게 쌓음에 따라 신경망의 표현력이 좋아짐과 동시에 때로는 학습이 잘되지 않고 성능이 저하되는 등의 부작용도 등장했다. 성능 향상을 방해하는 주요 요인 중 하나는, 차원감소 목적에 따라 필연적으로 정보 손실을 겪어야 하는 풀링 계층에 있다. 따라서 특성맵(Feature map)의 차원감소를 통해 얻게 되는 비용적 이득과 모델의 분류 성능 사이의 취사선택(Trade-off)이 존재한다. 그리고 이로부터 자유로워지기 위한 다양한 연구와 기법이 존재하는데 Spectral Pooling도 이 중 하나이다. 본 논문에서는 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 이용한 Spectral Pooling에 대한 소개와, 해당 풀링의 성질을 통상적으로 사용되고 있는 Max Pooling과의 성능 비교를 통해 분석한다. 또한 영상 내 고주파수 부분에서 특히 더 강건하지 못하다는 맥스 풀링의 고질적인 문제점을, Spectral Pooling과의 하이브리드(Hybrid) 구조를 통해 어떻게 극복해나갈 것인지 그 가능성을 중심으로 실험을 수행했다.
-
일상의 데이터를 감성 분석에 사용할 때, 데이터 개수가 부족하거나 불균형한 문제가 발생한다. 이에 대해, 본 논문은 데이터 수집 카테고리를 확장하는 방법으로 기존의 문제들을 해결한다. 나아가 확장된 카테고리로 수집한 데이터를 이용해 감성 분석 모델을 만들고, 해당 카테고리에 속하는 타겟 제품에 대한 감성 분석을 시도한다.
-
코로나 시대에 도래하며 비접촉 방식의 생체 징후에 대한 관심이 증가하고 있다. 본 연구는 비접촉식 측정 방식으로써 모바일 전면 카메라를 이용하여 심장박동, 심장 박동 변이율, 산소포화도, 호흡도, 스트레스 수치를 측정할 수 있는 효과적인 방법론을 제시하는 것이 목적이다. 모바일 전면부 카메라에서 실시간으로 안면 영상을 추출하기 위하여 Blaze Face를 이용하였으며, 안면 영상의 특징점인 눈, 코, 입, 귀의 위치를 이용하여 이마 부분의 관심 영역을 지정하였다. 관심 영역에서 색상 성분을 R, G, B로 분리하여 시간 축으로 정렬 후 fourier transform을 진행한 후 각각의 성분들을 측정하고자 하는 생체 징후에 맞게 Filter 처리함으로써 생체 징후를 측정하였다. 안면 영상을 이용한 생체 징후 측정 결과를 검증에 활용하기 위하여 실측 기기인 mCube-Healthcare device를 이용하였으며, 분석 결과 모바일에서 안면 영상을 통해 심장박동, 삼장 박동 변이율, 산소포화도, 호흡도, 스트레스 수치의 다섯 가지 생체 징후를 추출할 수 있는 가능성을 확인하였다.
-
최근 다양한 응용 분야에서 딥러닝을 적용한 사례가 나오고 있으며, 딥러닝 네트워크 경량화 또는 압축 기법을 적용해 정확도는 최대한 유지하면서 에너지 효율을 개선하려는 연구도 활발하게 이루어지고 있다. 이에 본 논문에서는 딥러닝 추론 과정에서 중간 데이터로 도출되는 활성화 데이터의 압축을 위해 연속 길이 부호화 방법을 적용해보고 압축률과 개선점에 대해 분석 한다.
-
심층 신경망은 적대적인 공격으로 생성된 적대적 예제에 의해 쉽게 오작동할 수 있다. 이에 따라 다양한 방어 방법들이 제안되었으나, 더욱 강력한 적대적인 공격이 제안되어 방어 방법들을 무력화할 가능성은 존재한다. 이러한 가능성은 어떤 공격 범위 내의 적대적인 공격을 방어할 수 있다고 보장할 수 있는 인증된 방어(Certified defense) 방법의 필요성을 강조한다. 이에 본 논문은 인증된 방어 방법 중 가장 효과적인 방법의 하나로 알려진 구간 경계 전파(Interval Bound Propagation)의 성능을 향상하는 방법을 연구한다. 구체적으로, 우리는 기존의 구간 경계 전파 방법의 훈련 과정을 수정하는 방법을 제안하며, 이를 통해 기존 구간 경계 전파 방법의 훈련 시간을 유지하면서 성능을 향상할 수 있음을 보일 것이다. 우리가 제안한 방법으로 수행한 MNIST 데이터 셋에 대한 실험에서 우리는 기존 구간 경계 전파 방법 대비 인증 에러(Verified error)를 Large 모델에 대해서 1.77%, Small 모델에 대해서 0.96% 낮출 수 있었다.
-
본 논문에서는, 영상 분류 문제에서 손실 값 계산 시 정답 부류를 제외한 나머지 부류에서 우세한 결괏값이 나오지 않도록 평활화하는 보조적인 손실함수를 고안한다. 합성곱 신경망 구조를 이용해 학습이 진행되면 손실함수가 작아지는 방향으로 가중치가 갱신되기 때문에, 정답을 제외한 나머지 부류들의 결괏값은 줄어든다. 하지만, 정답을 제외한 나머지 부류들 사이의 상대적인 값이 고려되지 않고 손실함수가 줄어들기 때문에 값들은 균일하지 않게 되고, 정답 부류와 유사한 특징을 가진 부류들의 값이 상대적으로 커지게 된다. 이는 정답 부류와 나머지 부류 중 가장 값이 큰 부류 사이에 공통의 특징을 공유한다고 생각할 수 있다. 정답 부류만이 가지고 있는 고유의 특징을 추출하지 못하고, 다른 부류도 가지고 있는 특징의 흔적이 남아있게 됨으로써 테스트 시 소스 도메인과 전혀 다른 도메인의 영상이 보일 때 그러한 특징이 부각 되어 부정확한 결과를 초래하게 된다. 본 논문에서는 단순한 손실함수의 추가로 도메인이 다른 환경에서 기존의 연구보다 좋은 분류 결과를 보여주는 것을 실험을 통해 확인하였다.
-
본 논문에서는 촬영과 동시에 유통되는 생방송 영상의 실시간 지적재산권 보호를 위한 Convolutional Neural Network를 기반으로 하는 워터마킹 프로세서의 구조를 제안한다. 제안하는 워터마킹 프로세서는 전처리 네트워크와 삽입 네트워크를 최적화하여 ASIC 칩으로 제작한다. 이는 영상을 입력으로 하는 딥 러닝 분야에서 많이 사용되는 CNN을 기반으로 하기 때문에 일반적인 딥 러닝 가속기 설계로 간주된다.
-
사람 재인식을 수행하기 위해서 많은 연구들이 진행되어 좋은 결과들을 보였다 그러나 이 결과들은 라벨이 있는 도메인에서의 지도 학습으로 얻은 결과들이었다. 라벨이 없는 도메인에서의 사람 재인식의 성능은 아직 많이 부족한 상태이다. 사람 재인식을 수행하고자 하는 목표 도메인에 반해 주어진 소스 도메인에서는 라벨이 풍부하다. 지금까지의 논문에서는 소스 도메인에서의 사람 이미지를 목표 도메인의 이미지처럼 만들어서 소스 도메인에서 높은 성능을 보이는 사람 재인식기를 목표 도메인에서도 잘 동작하도록 학습하는 방법들이 주를 이루었다. 하지만 이 방법에서는 소스 도메인의 사람 이미지를 목표 도메인의 이미지와 비슷하게 만들기만하고 사람의 신원에 대한 일관성을 유지시키지는 못하였다. 본 논문에서는 비지도 도메인 적응 사람 재인식을 수행하기 위해 클러스터 일관성(cluster consistency)을 유지하는 기법을 제안한다. 제안한 방법은 사람의 신원에 대한 일관성을 유지시켜서 사람 재인식의 성능을 높인다.
-
Images were taken under various weather such as rain, haze, snow often show low visibility, which can dramatically decrease accuracy of some tasks in computer vision: object detection, segmentation. Besides, previous work to enhance image usually downsample the image to receive consistency features but have not yet good upsample algorithm to recover original size. So, in this research, we jointly implement removal streak in heavy rain image and super resolution using a deep network. We put forth a 2-stage network: a multi-model network followed by a refinement network. The first stage using rain formula in the single image and two operation layers (addition, multiplication) removes rain streak and noise to get clean image in low resolution. The second stage uses refinement network to recover damaged background information as well as upsample, and receive high resolution image. Our method improves visual quality image, gains accuracy in human action recognition task in datasets. Extensive experiments show that our network outperforms the state of the art (SoTA) methods.
-
문화재 영상 데이터는 방대한 양으로 인해 고해상도로 모두 저장이 어렵거나 시간이 지나 상대적으로 화질이 낮은 영상들이 다수 존재하기에 초해상화가 필요한 상황이 많다. 따라서 본 논문에서 처음으로 문화재 영상에 특화된 4 배 및 8 배 딥러닝 기반 초해상화 방식을 제안한다. 문화재 영상 데이터는 배경이 단조롭고 물체가 영상 중간에 위치한다는 특징이 있어 이를 고려해 중간 부분에서만 패치를 추출하는 방식을 적용하여 의미 있는 패치로 학습이 되도록 한다. 또 자연 영상 데이터 셋인 DIV2K 를 사용해 학습하는 방식과 직접 구성한 문화재 데이터 셋을 이용해 학습하는 방식, 그 둘을 적절히 함께 사용하여 학습하는 전이 학습 방법까지 세 가지로 학습하여 초해상화의 성능을 향상시키는 방법을 제안한다. 그 결과, 쌍삼차 보간법(Bicubic interpolation)보다 4 배 초해상화에서는 약 1.25dB, 8 배 초해상화에서는 약 1.26dB 의 성능 개선을 확인하였으며, 단순 DIV2K 로 학습한 방식보다는 4 배에서는 0.06dB, 8 배에서는 0.17dB 의 성능 개선을 확인하였다.
-
딥러닝이 정답을 찾아가는 연구과정이라면 미술은 정답이나 오답의 단정적 결과보다는 미추(아름다움과 추함)를 포함하는 과정적, 창조적 행위에 가깝다고 할 수 있다. 다시 말하면 미술은 0과 1로만 환원할 수 없는 세계를 기술하여 감동을 주는 유기적 규칙이 내재되어 있고 때로는 과학이 만들어낸 결론을 뒤집는 반상식적 추론을 하기도 한다. 그러므로 딥러닝은 예술적 방식을 통하여 과학의 상식적 추론과의 좋은 거리(Fine distance)를 유지할 필요성이 있는데, 이를 위해서 기존 딥러닝의 이미지 생성과 관련하여 Distance, Classification, Optimization 등의 문제를 미술 표현 기법과 목적이 담겨있는 창작자의 Statement 키워드와의 유사성과 차이점을 비교 분석할 필요가 있다고 생각한다. 시각적 표현과 관련된 딥러닝의 성능은 아직 사람의 표현능력에 못 미치고 있어 본 논문에서는 콜라주 기법에 의한 비디오 생성을 위한 탐색적 실험 분석을 목적으로 GAN을 활용한 콜라주 비디오를 제작하고 그 문제점과 개선점을 제안하고자 한다.
-
본 논문은 딥러닝 네트워크의 압축을 위한 양자화 오프셋의 바이어스 기법을 제안한다. 양자화는 32비트 정밀도를 갖는 가중치와 활성화 데이터를 특정 비트 이하의 정수로 압축한다. 양자화는 원 데이터에 스케일과 오프셋을 더함으로써 수행되므로 오프셋을 위한 합성곱 연산이 추가된다. 본 논문에서는 입력 활성화 데이터의 양자화 오프셋과 가중치의 합성곱의 출력은 바이어스에 임베딩될 수 있음을 보여준다. 이를 통해 추론 과정 중 오프셋의 합성곱 연산을 제거할 수 있다. 실험 결과는 오프셋의 합성곱이 바이어스에 임베딩이 되더라도 영상 분류 정확도에 영향이 거의 없음을 증명한다.
-
최근 모바일 기기에서 딥러닝 모델을 사용하기 위한 경량화 연구가 진행되고 있다. 그중 모델의 가중치 표현 bit를 줄이는 양자화와 사용하기 위한 다양한 압축 알고리즘이 개발되었다. 하지만 대부분의 양자화 및 압축 알고리즘들은 한 번 이상의 Fine-tuning을 거쳐야 하는데 이 과정은 모바일 환경에서 수행하기에는 연산복잡도가 너무 높다. 따라서 본 논문은 양자화된 가중치를 High Efficiency Video Coding(HEVC)을 통해 압축하는 방법을 제안하고 정확도와 압축률을 실험한다. 실험결과는 양자화만 실시한 경우 대비 크기는 25%의 감소했지만, 정확도는 0.7% 감소했다. 따라서 이런 결과는 모바일 기기에 가중치를 전송하는 과정에 적용될 수 있다.
-
최근 CNN(Convolutional Neural Network)은 영상 분류, 객체 인식 등 다양한 비전 분야에서 우수한 성능을 보여주고 있으나, CNN 모델의 계산량 및 메모리가 매우 커짐에 따라 모바일 또는 IoT(lnternet of Things) 장치와 같은 저전력 환경에 적용되기에는 제한이 따른다. 따라서, CNN 모델의 임무 성능을 유지하연서 네트워크 모델을 압축하는 기법들이 연구되고 있다. 본 논문에서는 행렬 분해 기술인 저계수행렬 근사(Low-rank approximation)와 CP(Canonical Polyadic) 분해 기법을 결합하여 CNN 모델을 압축하는 기법을 제안한다. 제안하는 기법은 계층의 유형에 상관없이 하나의 행렬분해 기법만을 적용하는 기존의 기법과 달리 압축 성능을 높이기 위하여 CNN의 계층 타입에 따라 두 가지 분해 기법을 선택적으로 적용한다. 제안기법의 성능검증을 위하여 영상 분류 CNN 모델인 VGG-16, ResNet50, 그리고 MobileNetV2 모델 압축에 적용하였고, 모델의 계층 유형에 따라 두 가지의 분해 기법을 선택적으로 적용함으로써 저계수행렬 근사 기법만 적용한 경우 보다 1.5~12.1 배의 동일한 압축율에서 분류 성능이 향상됨을 확인하였다.
-
본 논문에서는 최근 대두되고 있는 심층신경망 압축 연구에서 가중치 공유와 관련하여 심층신경망 모델 압축방법 Inter-Layer Kernel Prediction을 제안한다. 제안 방법은 영상 압축에서 사용되는 프레임 간 prediction 방법을 응용한 컨볼루션 신경망 가중치 공유 및 모델 압축 방법이다. 본 논문은 레이어 간 유사한 kernel들이 존재한다는 것을 발견하고 이를 기반으로 Inter-Layer Kernel Prediction을 사용하여 기존 모델 가중치를 보다 더 적은 비트로 표현하여 저장하는 방법을 제안한다. 제안 방법은 CIFAR10/100으로 학습된 ResNet에서 약 4.1 배의 압축률을 달성했으며 CIFAR10으로 학습된 ResNet110에서는 오히려 기존 Baseline 모델에 비해 0.04%의 성능 향상을 기록했다.
-
본 논문에서는 심층적 강화학습 기반 GOP (Group of Picture) 크기를 선택하여 HEVC/H.265의 인코더를 제어하는 방법을 제안한다. 기존 방법에서는 현재 비디오 신호를 부호화 하는 과정에서 이미 부호화한 정보를 사용해야하는 부호화 의존성에 관한 문제가 있었다. 제안 방법은 강화학습 방식을 도입하여 이러한 문제를 극복하고 입력 비디오의 시간적 상관도에 따라 GOP의 크기를 적응적으로 선택하여 부호화 한다. 본 논문에서는 GOP 선택을 위한 강화학습 환경을 새롭게 정의하고 부호화 성능에 따른 보상을 부여하는 방식으로 학습을 수행한다. 제안된 적응적 GOP 선택에 따라 인코더 제어 시, 부호화 방법의 부호화 효율이 -6.07% BD-rate 향상된 실험 결과를 보이며 본 방법의 우수성을 입증한다.
-
VVC (Versatile Video Coding)는 HEVC이후 차세대 표준 비디오 코딩으로 JVET(Joint Video Exploration)에 의해 2018년 표준화를 시작하였다. VVC에는 복원픽쳐의 변환-양자화에러에 의해 발생한 블로어, 블로킹, 링잉 아티팩트를 감소시키기 위하여 deblocking filter (DF), sample adaptive offset (SAO), adaptive loop filter(ALF)와 같은 모듈을 사용한다. 한편 CNN (Convolutional Neural Network)은 최근 이미지와 비디오 복원에 높은 성능을 보이고 있다. VVC에서 픽쳐는 CTU (Coding Tree Unit)으로 분할되고 각 CTU는 다시 CU (Coding Unit)으로 분할된다. 그리고 인코딩을 위한 중요한 정보들이 Picture, CTU, CU단위로 디코더에 전송된다. 이 논문에서는 화면 간 예측으로 인코딩 된 픽처에서 블록과 픽처정보를 이용한 딥러닝 기반의 인루프 필터 모델을 제안한다. 제안하는 모델은 화면 간 예측에서 QP, 4×4 블록단위의 모션벡터, 참조블록과의 시간적거리, CU의 깊이를 모델에 추가적인 정보로 이용한다.
-
딥러닝 기술이 발전함에 따라 High-Efficiency-Video-Coding(HEVC)와 같은 비디오 코덱을 딥러닝 기술을 사용해 발전시키는 방법이 많아 시도되었다. 가장 많이 연구된 분야 중 하나에는 코덱 내부의 필터들을 영상 복원 기술을 통해 개선시키는 연구가 있다. 본 논문에서는 그 중 Sample adaptive offset(SAO) 필터링 기법을 깊은 신경망으로 대체하는 방식을 제안한다. SAO는 주변 정보들을 통해 에러의 형태를 결정하고 그를 상쇄하는 값을 전송하는 형태를 가진다. 이 때 찾은 보상 값이 최적의 값이 아니기 때문에 제안 기법에서는 깊은 신경망을 통해서 그 값을 찾는다. 제안하는 네트워크는 최적의 보상 값을 찾는 부분과 에러의 형태를 찾는 부분으로 이루어져 있으며, 두 네트워크를 통해 비선형적이고 복잡한 형태의 에러를 제거할 수 있다. 실험 결과 제안하는 방식은 저지연 P 모드와 임의접근 모드에서 기존 HEVC 보다 좋은 성능을 낸 것을 확인할 수 있다.
-
최근 VVC(Versatile Video Coding) 표준 완료 이후 JVET(Joint Video Experts Team)은 인공신경망 기반의 비디오 부호화를 위한 AhG(Ad-hoc Group) 구성하고 인공지능을 이용한 비디오 압축 기술들을 검증하고 있으며, MPEG(Moving Picture Experts Group)에서는 DNNVC(Deep Neural Network based Video Coding) 활동을 통해 딥러닝 기반의 차세대 비디오 부호화 표준 기술을 탐색하고 있다. 본 논문은 VVC 에 채택된 신경망 기반의 기술인 MIP(Matrix Weighted Intra Prediction)를 참조하여, MIP 모델의 학습에서 손실함수가 예측 성능에 미치는 영향을 분석한다. 즉, 예측의 왜곡(MSE)만을 고려한 경우와 예측오차의 부호화 비용도 함께 반영한 손실함수를 비교한다. 실험을 위해 HEVC(High Efficiency Video Coding) 화면내 예측 대비 평균적인 PSNR 향상 정도를 나타내는 성능 지표(PSNR)를 정의한다. 실험결과 예측오차의 부호화 특성을 반영하는 손실함수를 이용한 학습이 MSE 만 고려한 학습 대비 PSNR 기준 평균 0.4dB 향상됨을 보였다.
-
뉴럴넷 기술이 발전과 힘께 다양한 분야에서 획기적인 성능 향상이 이루어지고 있다. 이미지 압축 분야에서도 기존의 전통적인 툴 제인 구조의 압축 방식에서 벗어나 종단간(end-to-end) 뉴렬넷 기반의 이미지 압축 기술에 대한 연구가 활발히 이루어지고 있다. 특히 최근 네트워크를 통해 변환된 피쳐 데이터의 엔트로피를 최소화하는 방식에 대한 연구가 활발히 이루어지고 있으며, 이에 기반한 최근의 연구는 VVC 화면 내 코딩 기술보다 우수한 코딩 효율성을 제공하고 있다. 그러나 변환된 피쳐 데이터에 대한 특성 분석은 부족한 실정이며, 이에 본 논문에서는 엔트로피 최소화 기반 종단간 이미지 압축 네트워크의 피쳐 공간 데이터에 대한 공간적 (spatial) 상관관계와 채널간(inter-channel) 상관관계(correlation)를 분석하고, 나아가 최근 제안된 종단간 이미지 압축 네트워크의 문맥 기반 예측 기능을 통해 잔존하는 데이터 중복성이 효과적으로 제거됨을 보인다.
-
본 논문은 딥러닝 기반의 중첩 블록 단위 이미지 압축 방법에 대하여 제안한다. 이미지를 블록 단위로 나누어 압축을 진행하며, 그 과정에서 생길 수 있는 블록화 현상을 제거하기 위해 블록의 주변부를 압축에 이용한다. 이로 인한 추가적인 부하를 제거하기 위해 복호화에 필요한 부하 영역을 제거한 뒤, 복호화기에서 특징맵들을 병합하여, 제거한 영역에 대해 주변 블록의 정보를 사용하여 복호화를 진행한다. 압축을 진행하고자 하는 이미지의 크기에 따라 급격하게 증가하는 요구 메모리를 이미지의 크기에 상관 없이 고정된 작은 메모리로 이미지 압축을 진행할 수 있다는 장점이 있다. 실험 결과로써 4K 이미지를 통해서 복원된 화질과 메모리의 사용량을 측정한 결과, 동일한 화질을 유지함과 동시에, 기존 방법대비 약 500배 적은 메모리 사용량을 보인다.
-
초 고화질 영상의 등장과 동영상 스트리밍 서비스의 폭발적인 이용증가로 고품질로 영상을 압축할 수 있는 기술의 중요성이 크게 증가하고 있다. 본 논문에서는 VVC 차세대 비디오 부호화기술에 따라 색차 블록의 화면 내 예측 시 정확한 예측각도를 측정하여 압축 성능을 더욱 향상시키는 방법을 연구하였다. 실험결과, 기존 VVC 방법 대비 BDBR(Bjontegaard Delta Bit Rate) 측면에서 AI(All Intra) 조건의 경우, Y(-0.01%), Cb(-0.07%), Cr(-0.05%)의 성능변화를 얻을 수 있었다.
-
본 논문에서는 비디오 코딩 잔차신호를 보다 효율적으로 변환하기 위하여 오프라인으로 잔차신호를 학습하여 RD(Rate Distortion) Cost를 기반으로 분류된 몇 가지 변환 기저들을 생성하고, 비디오 복호화 과정 중 잔차신호를 역변환을 수행할 때 주변의 복호화가 완료된 신호들을 이용하여 최적의 변환 기저를 선택하여 해당 변환 기저로 역변환을 수행하여 효율적으로 잔차신호를 압축하는 방법에 대해 제안한다. 변환 기저 생성에는 분류된 잔차신호들에 대하여 2 차원 혹은 1 차원 KLT를 계산함으로써 얻어내어진다. 제안하는 방법은 VTM(VVC Test Model) version 10에서 실험하였으며 약 0.5% 정도의 성능향상을 보인다.
-
본 논문에서는 차세대 비디오 압축 표준인 MPEG-5 Essential Video Coding (EVC) 에서 사용된 블록 분할 방식에 대해서 소개한다. EVC 에서 사용된 블록 분할 방식은 기존 비디오 압축 표준인 HEVC/H.265 에서 사용된 쿼드 트리(Quad-tree)가 아닌 이진 분할(Binary split)과 삼진 분할(Ternary split)을 사용한 Binary ternary tree(BTT) 기술을 사용하고 있다. 또한 기존 비디오 압축 기술과 달리 분할된 블록의 코딩 순서를 정해서 사용 할 수 있는 Split unit coding order (SUCO) 기술이 사용되고 있다.
-
MPEG 비디오 그룹은 MPEG-I 표준의 일부로 포인트 클라우드(Point Cloud) 압축을 위한 비디오 기반 포인트 클라우드 부호화(V-PCC)와 몰입형(immersive) 비디오 압축을 위한 MPEG Immersive Video(MIV) 표준을 개발하고 있다. 최근에는 포인트 클라우드 및 몰입형 비디오와 같은 체적형(volumetric) 비디오를 모두 압축할 수 있도록 V-PCC 와 MIV 를 통합한 V3C(Visual Volumetric Video-based Coding) 표준화를 진행하고 있다. 본 논문에서는 V3C 코덱을 사용한 3DoF+(3 Degree of Freedom plus) 비디오 부호화 방안을 분석한다. 또한 V3C 코덱의 2D 코덱으로 기존 HEVC 대신 VVC 를 사용할 경우의 부호화 성능 향상을 분석한다.
-
Jeong, Min Hyuk;Kim, Sang-Kyun;Jin, Hoe-Yong;Lee, Hee Kyung;Choo, Hyon-Gon;Lim, Hanshin;Seo, Jeongil 169
CNN의 중간 단계에서 추출되는 feature를 인코딩했을 때 결과 성능평가에 미치는 영향을 알아보는 실험을 수행하였다. 물체검출(Object detection)과 물체영역분할(Object segmentation)에 대하여 성능평가를 하였으며, 비교를 위해 원본 이미지와 256채널의 feature들을 한 장으로 합친 이미지 두 가지에 대해 인코딩하여 성능 평가를 실시하는 실험을 하여 결과를 도출했다. 실험 결과, 인코딩 시 압축 정도를 약하게 했을 경우 성능이 거의 떨어지지 않거나 심지어는 더 높은 경우도 있다. 하지만 256채널의 feature들에 대하여 인코딩을 하기 때문에 이미지의 용량과 해상도가 높아지는 단점이 있다. -
최근 스마트시티, 자율 주행 자동차 등 기계에 의해 소비되는 영상 데이터의 양이 증가함에 따라 기계의 임무 수행 능력을 향상시킬 수 있는 압축기술이 필요하게 되었다. 그런데, 전통적 방식의 영상 코덱은 사람의 인지 화질 특성을 고려해 개발된 기술이기 때문에 기계의 임무 수행에 필수적인 정보 외에도 불필요한 정보가 존재한다. 따라서 사람이 아닌 기계의 임무 수행에 대해 효율적으로 영상을 압축하기 위한 비디오 코덱 기술이 필요하다. 이와 관련하여, 최근 MPEG에서 Video Coding for Machines라는 영상 압축기술에 대한 표준화가 논의되고 있다. 본 논문에서는 기계를 위한 영상 압축기술의 연구배경과 연구를 통해 전통적인 영상 압축 코덱 방식과 neural network 기반 압축 코덱 방식에 대해 각각의 방식이 머신비전 임무를 수행한 정확도를 기준으로 영상 압축성능을 비교해 효율적인 압축 코덱 방식에 대해 분석한다.
-
현재 대부분의 객체 탐지 알고리즘은 RGB 영상을 기반으로 개발되고 있다. 하지만 안개가 끼거나 비가 오는 날 또는 방중에 촬영한 RGB 영상은 흐리거나 잘 보이지 않아 높지 않은 객체 탐지 결과를 보여줄 수 있다. 열 적외선 영상은 열 센서로 인해 만들어지든 영상으로 RGB 영상에 비해 기상조건이나 촬영 시간대에 상관없이 취득 될 수 있다. 본 논문에서는 RGB 영상과 열 적외선 영상을 기반으로 객체 탐지 알고리즘을 수행하고 각 영상에 따른 객체 탐지 성능을 비교한다. 야간에 취득한 RGB 영상과 열 적외선 영상에 객체 탐지를 수행하였으며, 열 적외선 영상 기반 결과가 RGB 영상 기반일 때 보다 더 높은 정확도를 보여주었다. 추가적으로 밤 시간대의 RGB 영상과 열 적외선 영상을 선정하여 객체 탐지 네트워크를 튜닝하였으며, fine-tuned 네트워크를 이용하여 객체 탐지한 실험 결과 역시 열 적외선 영상이 RGB 영상보다 더 높은 객체 탐지 정확도를 보이는 것을 확인할 수 있었다.
-
최근 IoT 기술이 대중화됨에 따라 커넥티드 카, 스마트 시티와 같은 machine-to-machine 기술의 활용 분야가 다양화되고 있다. 이에 따라, 기계 지향 비디오 처리 및 부호화 기술에 대한 연구분야에 산업계와 학계의 관심 역시 집중되고 있다. 국제 표준화 단체인 MPEG은 이러한 추세를 반영하여 기존 비디오 부호화 표준을 개선할 새로운 표준을 수립하기 위해 Video Coding for Machines (VCM) 그룹을 구성하여 기계 소비를 대상으로 하는 비디오 표준의 표준화를 진행하고 있다. 이에 본 논문에서는 VCM이 기계 소비를 대상으로 진행하고 있는 특징맵 부호화의 부호화 효율을 개선하기 위해 특징맵을 시간적, 공간적으로 재정렬하는 방법을 제안한다. 실험 결과, 제안 방법이 CityScapes의 검증 세트 내 일부 이미지에 대해 시간적 재정렬을 수행한 결과 random access 조건에서 최대 1.48%의 부호화 효율이 향상됨이 확인되었다.
-
방대한 비디오 데이터의 지능형 분석을 수행하는 기계를 위한 비디오 부호화 기술의 필요성이 대두되면서 MPEG 에서는 VCM(Video Coding for Machine) 표준화를 시작하였다. VCM 은 지능형 머신(machine)의 임무 수행을 위한 비디오 또는 비디오 특징(feature)의 압축 표준 기술로 기술 탐색 단계의 표준화를 진행하고 있다. 본 논문에서는 머신비전(machine vision) 네트워크에서 추출되는 대용량의 특징 압축을 위한 전처리 단계로 보다 효과적인 특징 표현 방법을 제시한다. 제안하는 특징 표현 방법은 정규화, 양자화 과정을 거쳐 특징 데이터 크기를 감소시킨다. 실험에서 특징을 4 개의 값으로 양자화 했을 때, 원본 대비 16 배의 데이터 크기가 감소되지만 mAP 평가 성능은 35.4592 로 높은 수준으로 유지함을 확인하였다.
-
본 논문에서는 포인트 클라우드 정합 성능 향상을 위해 기하적 복잡도가 낮은 정점들의 영향을 최소화하는 포인트 클라우드 리샘플링 방법을 제안한다. 3 차원 특징 기술자(3D feature descriptor)를 기반으로 하는 포인트 클라우드 정합은 정점 법선 벡터의 변화량을 특징으로 사용한다. 따라서 강건한 특징은 대부분 정점 법선 벡터의 변화량이 큰 영역에서 추출된다. 반면에 정점 법선 벡터의 변화량이 거의 없는 평면 영역은 정합 수행 시에 이상점(outlier)으로 작용할 수 있으므로 해당 정점들이 정합 과정에 미치는 영향을 최소화해야 한다. 제안하는 방법은 모델 포인트 클라우드의 기하적 복잡도를 고려한 리샘플링을 통해 전체 정점의 수 대비 복잡도가 낮은 정점들의 비율을 낮추어 이상점이 정합 과정에 미치는 영향을 최소화하고 정합 성능을 향상시켰다.
-
본 논문은 모델 분할 기법과 중복성 제거 기법을 통한 대용량 3차원 메쉬 모델의 고속 압축 기술에 관한 내용이다. 대용량 3차원 메쉬 모델의 비실시간 압축은 실시간 스트리밍 응용 시나리오에서 제약점으로 작용하고 있고, 본 논문에서는 인코딩 시간을 줄이기 위해 경량 메쉬 분할 방법을 통해 대용량 메쉬를 여러 개의 작은 메쉬로 분할하고, 각각의 분할된 메쉬를 병렬적으로 인코딩하여 처리 속도를 개선하였다. 또한, 메쉬 모델 내의 같은 기하학적 정보를 가진 중복된 정점들이 존재할 수 있으며, 중복된 정보를 제거하고 제거된 정점과 삼각형 표면 간의 연결 정보를 갱신하는 과정을 통해 메쉬 모델의 기하학적 정보를 유지하면서 압축 성능을 확보하였다.
-
실제 원단의 소재를 반영한 렌더링은 의류 디자인 단계에서 완성된 옷을 미리 파악하는 좋은 수단 증 하나이다. 본 논문에서는 오픈소스 기반의 원단 렌더링 방법과 실제 원단 재질을 측정하는 장치를 이용하는 실측으로부터 렌더링까지의 프레임워크를 제안한다. 옷감의 재질을 측정하고 렌더링 하는 방법은 두 과정에서 공통된 특정을 파라미터화하여 측정하고 렌더링에 반영하는 것이 중요하다. 본 논문에서는 렌더링 방법으로 Ray-Tracing이 가능하고 적절한 컴퓨팅 성능을 사용하면서 최적의 렌더링 결과를 얻을 수 있는 nvidia의 오픈소스인 visRTX를 사용하였다. 또한 원단 재질 측정 장치로 렌더링에 반영되는 파라미터인 고해상도 diffuse map과 normal map을 측정하여 렌더링에 반영하였다. 본 논문에서 제안하는 원단 재질을 측정하고 렌더링하는 프레임워크를 통해서 옷을 디자인하연서 확인할 수 있는 실사 렌더링 결과물을 제공하고 이를 통해 의상 디자인 업계에 큰 도움이 될 것으로 기대된다.
-
밝기 차이가 발생할 때마다 비동기적으로 영상을 획득하는 이벤트 카메라는 기존의 프레임 기반 카메라가 가지고 있는 한계점을 보완하기 위해 사용된다. 이벤트는 비동기적으로 획득되고 프레임보다 훨씬 빠르게 작동할 수 있기 때문에, 이를 활용하는 방안은 다양하다. 본 논문에서는 기존의 프레임 기반 카메라를 대체하여 사용하기 위해 이벤트만 활용하여 프레임 형태의 영상을 복원한 선행연구를 기반으로 한다. 복원한 영상의 노이즈를 제거하는 방법을 제시하고, 기존의 노이즈 제거 방법들과 비교하여 성능을 평가한다. 또한 기존에 있는 대표적인 특징점 추출방법을 노이즈를 제거한 영상에 적용해보고, 복원된 영상에서의 특징점 추출에 적합한 추출방법을 확인한다. 이 결과는 프레임 기반의 특징점을 추출하여 추적하는 다양한 분야에서 기존의 카메라를 체제할 수 있다.
-
본 논문에서는 ICP (iterative closest points) 기반의 포인트 클라우드 콘텐츠 품질 개선 방법을 제안한다. 포인트 클라우드 콘텐츠는 실제 환경의 물체를 3 차원의 점으로 획득한 실감 콘텐츠이다. 이처럼 3 차원 점으로 구성된 포인트 클라우드 콘텐츠는 영상 확대 또는 포인트 클라우드 획득 및 복원 과정에서 콘텐츠의 품질이 저하될 수 있다. 제안하는 방법은 ICP 알고리즘을 활용히여 이전 프레임과 현재 프레임 상의 포인트 클라우드 위치 사이가 존재하는지 검사하고, 피사체의 움직임에 의해 발생한 프레임 간 차이를 보정하여 콘텐츠의 품질을 향상시켰다.
-
We explored the blocking framework for regulating harmful content flooding the Internet. The procedure for obtaining content using the Internet was analyzed, and the technology for blocking content that can be applied at each stage of the acquisition process was investigated. Also, the characteristics and limitations of each blocking method were analyzed.
-
본 논문에서는 딥러닝 기반의 깊이 영상 초해상도 기술에 대해서 제안한다. 기존 깊이 영상의 초해상도 기술은 고해상도의 컬러 영상과 저해상도 깊이 영상을 이용하여 화소 값을 개선시켜 고해상도의 깊이 영상을 예측하였다. 하지만 이라한 방법들은 단순히 화소 값을 증가 또는 혹은 감소시키는 방법으로 언더슈팅 또는 오버슈팅과 문제를 발생시켜 성능 향상을 제한한다. 제안하는 기법에서는 이러한 한계를 극복하기 위해 화소의 위치를 이동하여 영상을 복원하는 격자 워핑 방식을 반복적으로 적용하여 고해상도 깊이 영상을 예측하였다. 실험 결과, 제안한 방식이 기존 방법들에 비해 정량적, 시각적 품질을 개선시켰음을 확인하였다.
-
ISO/IEC JTC 1/SC 29(멀티미디어부호화) WG 11(MPEG)에서는 미디어 산업 전반에 대한 표준화를 다루고 있으며 해당 산업과 연관된 다양한 기관들과의 교류가 진행되고 있으나, 작업반(WG)이란 한계와 현행 ISO/IEC 규정에 의해 다양한 표준화 단체들과의 교류에 많은 제한이 있었다. 이에, 2019년 7월 관련 임시 작업반(AhG)이 설립되어 구조조정에 대한 논의를 진행했으며, 2020년 7월에 열린 37차 JTC 1/SC 29 총회에서 기존 WG 11을 폐지하고 새로운 작업반을 신설했다. 이에 본 논문은 JTC 1/SC 29/WG 10(MPEG) 구조조정 결과 및 신설 작업반의 구조와 표준화 동향을 알아본다.
-
COVID-19으로 인해 국민들에게 전달되는 재난정보의 양상이 서서히 변화하고 있다. 이는 정보통신의 발전 양상과도 매우 깊은 관계를 가지고 있다고 볼 수 있다. 이전까지의 정부 및 지자체에서 제공되는 재난정보에 대한 형태는 문자와 음성으로만 제공하므로써 고령자와 외국인과 같은 재난 약자에게 명확한 상황인지를 하기에 어려움이 있었다. 이를 해결하기 위한 전방위적인 노력을 하고 있으며, 보다 정확하고 보다 다양한 정보를 제공하고자 관련 연구를 수행하고 있다. 이는 급속도로 발전하는 정보통신 매체(UHD 및 5G, 오픈스크린 등)를 기반으로 국민들로 하여금 신속.정확한 재난상황인지를 가능케 할 수 있다. 이로 인한 재난경보 관련 최근 이슈는 '내 위치 맞춤형 정보'와 '다매체 정보'가 아닐까 싶다. 정보통신 매체가 발달함에 따라 제공되는 재난경보의 범위가 내 위치를 기준으로 좁아지며, 시각적으로 직관적인 콘텐츠를 제공할 수 있다. 이는 각 매체의 고유 정보를 통해 위치가 확인 가능하면서 해당 지역에 맞는 정보만 선택적으로 취함으로써 불필요한 정보를 제공하지 않게 된다. 본 연구를 통해 이러한 부분을 해결하기 위해 TTA에서 표준으로 제정된 CAP (Common Alerting Protocol)을 활용하였으며, 'Area' 항목에 지역코드(전국~읍면동)를 함께 포함함으로써 가능해졌다. 또한 CAP을 활용함에 따라 텍스트부터 음성, 이미지, 웹 콘텐츠까지 최신의 영상 매체에 적용 가능한 재난정보 콘텐츠를 제공 가능해졌으며, 특히 UHD 및 5G, 오픈스크린과 같은 통신 네트워크 기반 영상 매체에 적합한 멀티미디어 재난정보 콘텐츠를 제공할 수 있다. 제공된 콘텐츠에는 각종 관련 정보를 확인 가능하도록 링크를 제공하여 필요에 따라 보다 자세한 재난정보를 확인할 수 있다. 이를 기반으로 재난경보에 대한 다변화를 통해 나에게 꼭 필요한 정보가 제공될 수 있도록 발령 체계 개편이 필요하다.
-
본 논문에서는 비디오의 피처레벨 분석을 통해 비디오의 장면 구성 특징을 파악하고, 그에 적응적으로 대표 프레임을 선택하는 방법을 제안한다. 제안된 방법으로 생성된 캡셔닝 피처는 비디오를 잘 요약하고, 이를 통해 효과적인 캡셔닝을 수행할 수 있다. 기존 비디오 캡셔닝 연구에서는 비디오의 장면 구성을 고려하지 않고 단순 등간격으로 프레임 추출을 통하여 비디오 캡셔닝을 수행하였다. 이는 다양한 장면의 모임으로 이루어진 비디오의 특성을 고려하지 않은 방법으로, 경우에 따라 주요 장면을 놓치거나, 불필요하게 중복된 프레임을 선택하는 문제가 발생한다. 본 논문에서는 비디오의 피처레벨 분석을 통해 비디오의 구성 특징을 파악하고, 이를 고려해 적응적으로 주요 프레임을 추출하여 이와 같은 문제를 해결하여 비디오 캡셔닝 에서의 성능향상을 보인다. 제안 알고리즘을 이용하여 생성된 피처는 비디오를 잘 요약하여 비디오 캡셔닝 수행 시, MSVD 데이터 셋에서 4 개의 평가지표에 대해 약 0.78%의 성능향상을 보였고, MSR-VTT 데이터 셋에서 약 0.6%의 성능향상을 보였다.
-
Optical Flow는 컴퓨터 비전 분야의 많은 응용기술에 사용된다. 객체 탐지, 추적, 연속 영상 보간, 3D Reconstruction과 같은 최근에 활발히 연구되는 여러 분야에서 사용되는 기반 기술이다. 최근 딥러닝을 기반으로 한 다양한 연구가 활발히 진행되어 왔으며 높은 정확도를 보이고 있다. 이런 분야들은 많은 경우에 실시간 시스템에 적용되어 이미지로부터 정보를 연산한다. 본 논문은 MaskFlownet, SelFlow, LiteFlowNet2 등과 같은 높은 정확도를 가진 신경망 네트워크로 추정된 Optical Flow를 살펴본다. 각 신경망 네트워크로 얻어진 정확도를 비교하고 디스플레이 기술과 이미지 센서 기술의 발전으로 사용 수요가 많아진 고화질의 이미지를 실시간으로 처리하는 경우, 적용 가능한 Optical Flow의 성능을 분석하였다.
-
기존 초해상화 방법들은 주로 자연 영상에 대해서는 많이 다뤄져 왔지만 단조$로운 배경과 복잡한 문양, 질감을 가진 문화재 영상에 대해 적용한 사례가 많지 않다. 또한 대부분의 초해상화 기술은 현재 딥러닝을 적용하고 있지만 복잡도와 구현 난이도에서 상대적으로 수월한 비딥러닝 방법을 사용하여 4 배와 8 배로 초해상화를 실현하는 연구 또한 많지 않다. 본 연구에서는 선형 매핑을 이용한 SI (Super Interpolation)을 기반으로 하여 2 배까지 초해상화에 특화된 기존 연구를 문화재 영상에 대하여 4 배 및 8 배로 초해상화 하였다. 간단한 윤곽선 방향 분석 및 선형 매핑으로 4 배 초해상화에서는 PSNR 값을 0.44dB 가량 개선하였으며, 8 배 초해상화에서는 PSNR 값을 0.31dB 가량 개선하였다. 또한 결과 영상에서도 단순 보간법인 Bicubic Interpolation 보다 더욱 선명하고 질감을 잘 표현하는 것을 알 수 있다.
-
초해상화란, 저해상도의 영상으로부터 고해상도 영상을 복원하는 이미지 처리 기법이다. 최근 영상 출력 장치의 발전으로 고해상도의 영상을 출력할 장치는 많아지는 한편, 이에 맞는 고해상도 영상을 찍을 영상 기록 장치의 보급은 이에 비해 부족한 실정이다. 따라서 저해상도의 영상을 고해상도 영상으로 변환하는 초해상화 연구는 많은 분야에서 활용되고 있다. 문화재 영상에서의 초해상화는 특히 기존 문화재의 질감, 무늬 등을 보존해야하기 때문에 정교한 초해상화 과정이 요구된다. 본 논문에서는 문화재 영상의 초해상화 과정에 집중해, 기존 문화재의 질감, 무늬 등을 잘 보존하면서 영상 데이터의 양이 상대적으로 적은 경우에도 활용 가능한 기계학습 기범, GLM-SI를 이용한 문화재 영상 초해상화 방법을 제안한다. GLM-SI 를 사용한 초해상화 결과, 문화재 영상에서 선행 방법인 SI 에 비하여 4 배 초해상화에서 PSNR 0.12dB, SSIM 0.017, 8 배 초해상화에서 PSNR 0.23dB, 0.033 의 성능적 향상을 얻을 수 있었다.
-
TV홈쇼핑은 Full HD로 방송이 제작되고 있으며, 방송제작 시 스튜디오 스텐다드 카메라, jimmy jib 카메라 외에 추가로 다양한 카메라가 방송제작에 활용된다. 다양한 카메라 중 4K 카메라를 스튜디오 제작에 활용하여 제작의 퀄리티를 높이고 있다. 4K 카메라는 제작 회사 마다의 특성에 따라 각각 다른 화질과 다양한 기능을 제공한다. 본 논문은 4K 카메라의 여러 기능 중 고속촬영 기능의 화질 비교에 관한 것이다. 홈쇼핑 방송제작에 활용되는 4K 카메라의 다양한 활용성을 제시하고자 한다.
-
근래의 초해상화 (super-resolution, SR) 연구는 네트워크를 깊고, 넓게 만들어 성능을 높이는데 주를 이뤘다. 그러나 동시에 높은 연산량과 메모리 소비량이 증가하는 문제가 발생하기 때문에 이를 실제로 하드웨어로 구현하기에는 어려운 문제가 존재한다. 그렇기에 우리는 네트워크 최적화를 통해 성능 감소를 최소화하면서 파라미터 수를 줄이는 네트워크 SqueezeSR을 설계하였다. 또한 지식 증류(Knowledge Distillation, KD)를 이용해 추가적인 파라미터 수 증가 없이 성능을 높일 수 있는 학습 방법을 제안한다. 또한 KD 시 teacher network의 성능이 보다 student network에 잘 전달되도록 feature map 간의 비교를 통해 학습 효율을 높일 수 있었다. 결과적으로 우리는 KD 기법을 통해 추가적인 파라미터 수 증가 없이 성능을 높여 다른 SR네트워크 대비 더 빠르고 성능 감소를 최소화한 네트워크를 제안한다.
-
최근 딥러닝 기술은 여러 컴퓨터 비전 응용 분야에서 많이 쓰이고 있다. 물체 인식, 분류 및 영상 생성 등을 예로 들 수 있다. 특히 초고해상도 변환 문제에서 최근 딥러닝을 사용하면서 큰 성능 개선을 얻고 있다. Fast super-resolution convolutional neural network (FSRCNN)은 딥러닝 기반 초고해상도 알고리즘으로 잘 알려져 있으며, 여러 개의 convolutional layer로 추출한 저 해상도의 입력 특징을 활용하여 deconvolutional layer에서 초고해상도의 영상을 출력하는 알고리즘이다. 본 논문에서는 병렬 연산 효율성을 고려한 FPGA 기반 convolutional neural networks 가속기를 제안한다. 특히 deconvolutional layer를 convolutional layer로 변환하는 방법을 통해서 에너지 효율적인 가속기를 설계했다. 또한 제안한 방법은 FPGA 리소스를 고려하여 FSRCNN의 구조를 변형한 Optimal-FSRCNN을 제안한다. 사용하는 곱셈기의 개수를 FSRCNN 대비 2.4 배 압축하였고, 초고해상도 변환 성능을 평가하는 지표인 PSNR은 FSRCNN과 비슷한 성능을 내고 있다. 이를 통해서 FPGA 에 최적화된 네트워크를 구현하여 FHD 입력 영상을 UHD 영상으로 출력하는 실시간 영상처리 기술을 개발했다.
-
영상 다운스케일링 기법은 입력 영상의 해상도를 목적으로 하는, 입력영상의 해상도보다 낮은 해상도로 조정하는 기법을 일컫는다. 본 논문에서는 기존의 다운스케일링 기법들을 커널 기반의 방법과 프레임 단위의 최적화 기반 기법으로 분류하고 각 방법들의 대표 기법들에 대해서 분석한다. 이후, 최종적으로 그 결과를 도출하여 각 방법들의 특성을 도출한다.
-
Content-adaptive training and transmission of the model parameters of neural networks can boost up the SR performance with higher restoration fidelity. In this case, efficient transmission of neural network parameters are essentially needed. Thus, we propose a novel method of compressing the network model parameters based on the training of network model parameters in the sense that the residues of filter parameters and content loss are jointly minimized. So, the residues of filter parameters are only transmitted to receiver sides for different temporal portions of video under consideration. This is advantage for image restoration applications with receivers (user terminals) of low complexity. In this case, the user terminals are assumed to have a limited computation and storage resource.
-
The fine-tuned neural network (NN) model for a whole temporal portion in a video does not always yield the best quality (e.g., PSNR) performance over all regions of each frame in the temporal period. For certain regions (usually homogeneous regions) in a frame for super-resolution (SR), even a simple bicubic interpolation method may yield better PSNR performance than the fine-tuned NN model. When there are multiple NN models available at the receivers where each NN model is trained for a group of images having a specific category of image characteristics, the performance of Quality enhancement can be improved by selectively applying an appropriate NN model for each image region according to its image characteristic category to which the NN model was dedicatedly trained. In this case, it is necessary to signal which NN model is applied for each region. This is very advantageous for image restoration and quality enhancement (IRQE) applications at user terminals with limited computing capabilities.
-
The high computational complexity of deep learning algorithms has led to the development of specialized hardware architectures. However, soft errors (bit flip) may occur in these hardware systems due to voltage variation and high energy particles. Many error correction methods have been proposed to counter this problem. In this work, we analyze an error correction mechanism based on repetition codes and an activation function. We test this method by injecting errors into weight filters and define an ideal error rate range in which the proposed method complements the accuracy of the model in the presence of error.
-
Data augmentation has been helpful in improving the performance in deep learning, when we have a limited data and random erasing is one of the augmentations that have shown impressive performance in deep learning in multiple domains. But the main issue is that sometime it loses good features when randomly selected region is erased by some random values, that does not improve performance as it should. We target that problem in way that good features should not be lost and also want random erasing at the same time. For that purpose, we introduce new augmentation technique named Intra-Class Random Erasing (ICRE) that focuses on data to learn robust features of the same class samples by randomly exchanging randomly selected region. We perform multiple experiments by using different models including resnet18, VGG16 over variety of the datasets including ESC10, UrbanSound8K. Our approach has shown effectiveness over others methods including random erasing.
-
전 반도체 제조 및 검사 공정 과정을 자동화하는 스마트 팩토리의 실현에 있어 제품 검수를 위한 검사 장비는 필수적이다. 하지만 딥 러닝 모델 학습을 위한 데이터 처리 과정에서 엔지니어가 전체 웨이퍼 영상에 대하여 결함 항목 라벨을 매칭하는 것은 현실적으로 불가능하기 때문에 소량의 라벨 (labeled) 데이터와 나머지 라벨이 없는 (unlabeled) 데이터를 적절히 활용해야 한다. 또한, 웨이퍼 영상에서 결함이 발생하는 빈도가 결함 종류별로 크게 차이가 나기 때문에 빈도가 적은 (minor) 결함은 잡음처럼 취급되어 올바른 분류가 되지 않는다. 본 논문에서는 소량의 라벨 데이터와 대량의 라벨이 없는 데이터를 동시에 활용하면서 결함 사이의 발생 빈도 불균등 문제를 해결하는 점진적 데이터 평준화 (progressive pseudo-labeling balancer)를 제안한다. 점진적 데이터 평준화를 이용해 분류 네트워크를 학습시키는 경우, 기존의 테스트 정확도인 71.19%에서 6.07%-p 상승한 77.26%로 약 40%의 라벨 데이터가 추가된 것과 같은 성능을 보였다.
-
Unsupervised deep learning methods have shown impressive results for the challenging monocular depth estimation task, a field of study that has gained attention in recent years. A common approach for this task is to train a deep convolutional neural network (DCNN) via an image synthesis sub-task, where additional views are utilized during training to minimize a photometric reconstruction error. Previous unsupervised depth estimation networks are trained within a fixed depth estimation range, irrespective of its possible range for a given image, leading to suboptimal estimates. To overcome this suboptimal limitation, we first propose an unsupervised adaptive depth estimation method guided by minimum and maximum (min-max) depth priors for a given input image. The incorporation of min-max depth priors can drastically reduce the depth estimation complexity and produce depth estimates with higher accuracy. Moreover, we propose a novel network architecture for adaptive depth estimation, called the AdaMM-DepthNet, which adopts the min-max depth estimation in its front side. Intensive experimental results demonstrate that the adaptive depth estimation can significantly boost up the accuracy with a fewer number of parameters over the conventional approaches with a fixed minimum and maximum depth range.
-
미디어 환경이 급격이 변화되고, 최근 코로나 19로 인해 온택트 시대가 가속화되면서 미디어 리터러시는 모든 사람들에게 일반적 상황이 되고 있다. 미디어 리터러시는 다양한 분야에서 그 중요성이 인지되고 있으나 아직은 조직적 대응이 부족한 것이 현실이다. 왜냐하면 미디어의 활용 능력의 한계, 윤리적 문제의 돌출, 미디어의 비판적 인식의 취약성 등으로 인해 사회적 문제로 확대되고 있기 때문이다. 따라서 여러 분야에서 미디어 리터러시 교육의 필요성이 절실하게 부각되고 있어 현재 국가적 차원에서도 미디어 소비자의 권익을 보호하고 윤리적 문제 인식을 강화시키기 위해 교육센터의 설치 및 운영, 국회 차원에서 관련 법안 발의 등 다양한 시도가 이루어지고 있다. 본 논문에서는 미디어 리터러시의 의미와 그 교육의 현황을 국내외적으로 알아보고 미디어 리터러시를 전략적으로 고찰하고자 한다.
-
본 논문은 6DOF 위치기반 자기장 센서(Liverty Latus, Pollhemus)를 사용한 가상현실 방송제작에서 사용할 수 있는 인터랙티브 증강현실 시스템, K-Pointer를 제안한다. 우리는 방송에서 추적 및 인식의 정확성을 높이기 위해 Pollemus사의 6DOF 자기장기반 위치 추적 센서 리버티(수신부,소스)와 라투스(송신부,마커), 그리고 4입력 버튼장치를 결합한 인터페이스를 가지고 기존 방송용 증강현실 시스템과 통합하여 새로운 인터랙티브 증강현실 시스템을 개발하였다. 본 시스템은 방송용 증강현실 그래픽 합성 시스템(수신부)과 센서의 위치정보와 버튼 이벤트를 전송하는 시스템(송신부)으로 구성되며, 센서추적정보와 버튼이벤트 정보는 UDP로 실시간으로 수신부로 전송된다. 우리는 사용자 손의 모션과 버튼이벤트로 그래픽 정보를 인터랙티브하게 제어할 수 있게 하였다. 결과적으로 본 시스템은 기존의 합성중심의 방송용 증강현실 시스템을 사용자의 모션 기반 그래픽을 제어할 수 있는 인터랙티브 증강현실시스템으로 그 기능을 확장 시킬 수 있게 한다. 제안된 시스템은 광학식 추적을 하지 않기 때문에 조명의 변화에 영향이 없으며, 라투스 수신기가 작기 때문에 손에 쥐었을 때 거의 보이지 않고 가려도 추적이 강인하여 버튼장치를 통해 사용자가 정확한 이벤트로 직접 그래픽을 그리거나 쉽게 제어할 수 있는 장점이 있다.
-
사용자에게 본인이 원하는 시점과 시각을 선택할 수 있도록 하는 자유시점 (Free Viewpoint) MPEG-I 과제를 통하여 3DOF, 3DOF+, 6DOF의 표준을 개발 중이다. 실사 영상의 자유시점 영상을 구현하는 방법으로는 깊이정보를 사용한 렌더링 기법을 사용하는데, 이를 실시간 재생할 수 있는 시스템은 개발되지 않았다. 본 논문에서는 PC 사양에서 NVIDIA 영상 코덱과 OpenGL사용하는 rtRVSlibrary를 바탕으로, 최대 8개의 HD급 다중 뷰 영상 입력 (컬러+깊이)을 자유 시점을 실시간 생성하여 디스플레이하는 재생기를 설계 및 개발하였다. 사용자는 원하는 시점으로 상하좌우앞뒤(회전)로 자유롭게 이동할 수 있으며, 계산양과 화질 효율성을 고려하여 디코딩한 입력영상 중에 두 개의 시점을 선별하는 알고리즘을 개발하여 실시간 동작 (25fps)을 검증하였다.
-
입모양 인식(Lip Reading) 기술은 입술 움직임을 통해 발화를 분석하는 기술이다. 본 논문에서는 일상적으로 사용하는 10개의 상용구에 대해서 발화자의 안면 움직임 분석을 통해 실시간으로 분류하는 연구를 진행하였다. 시간상의 연속된 순서를 가진 영상 데이터의 특징을 고려하여 3차원 합성곱 신경망 (Convolutional Neural Network)을 사용하여 진행하였지만, 실시간 시스템 구현을 위해 연산량 감소가 필요했다. 이를 해결하기 위해 차 영상을 이용한 2차원 합성곱 신경망과 LSTM 순환 신경망 (Long Short-Term Memory) 결합 모델을 설계하였고, 해당 모델을 이용하여 실시간 시스템 구현에 성공하였다.
-
Lee, Hanseong;Hwang, Chanwoong;Kim, Jongbeom;Jang, Dohyeon;Lee, Hyejin;Im, Dongju;Jung, Soonki 270
본 논문은 코로나 방역의 자동화를 위한 Deep learning 기술 적용에 대해 연구한다. 2020년에 가장 중요한 이슈 중 하나인 COVID-19와 그 방역에 대해 많은 사람들이 IT분야에서 떠오르고 있는 artificial intelligence(AI)에 주목하고 있다. COVID-19로 인해 마스크 착용이 선택이 아닌 필수가 되며, 이를 통제하기 위한 모델이 필요한 상황이다. AI, 그 중에서도 Deep learning의 Object detection 기술을 일상생활 곳곳에 존재하는 영상 장치들에 적용하여 합리적인 비용으로 방역의 실시간 자동화를 구현할 수 있다. 이번 논문에서는 인터넷에 공개되어 있는 사물인식 오픈소스를 활용하여 이를 구현하기 위한 연구를 진행하였다. 또 이를 위한 Dataset 확보에 대한 조사도 진행하였다. -
기존의 물리 센서를 활용한 주차 감지는 주차장 규모가 클수록 큰 비용이 필요하고 이미지 기반의 분석은 개별 주차장에 대한 데이터 라벨링과 학습의 노력이 필요했다. 본 논문은 LoRa(Long Range) 네트워크와 마이크로프로세서를 활용한 IoT기반의 시스템으로 영상데이터를 서버로 전송하고 COCO(Common Object in context) 데이터셋으로 학습된 Mask R-CNN 기반의 모델을 활용한 주차장 내 차량점유 감지 알고리즘을 통해 개별 주차장에 대한 학습 또는 라벨링 없이 주차장 내 주차상태를 식별하고 사용자에게 인터페이스를 통해 실시간으로 주차정보를 제공하는 시스템을 구현한다.
-
Lee, Hyeonggeon;Park, Junho;Cheon, Jaeyoon;Lim, Jeonghoon;Oh, Myeongseong;Moon, Dongjin;Jang, Hyunsu;Kim, Jeongseok;Koh, Seokjoo 277
최근 무선통신기술의 발달로 텍스트나 이미지 등 적은 양의 데이터를 송출하는 것을 넘어 동영상과 같은 많은 양의 데이터 전송이 가능해졌다. 이에 본 논문은 실시간으로 사고의 상황을 효과적으로 구조기관에 전달하기 위해 GPS와 각종 센서를 활용한 GPS 데이터 및 비디오를 실시간으로 전송하는 무선 네트워크 상황 전파 시스템을 제안한다. Raspberry pi module의 카메라와 GPS 데이터는 ffmpeg와 ffserver를 사용하여 서버와 구조기관으로 실시간 송출 및 전송된다. 제안된 시스템은 실제 프로토타입으로 구현되었으며, 실험 결과 제안한 시스템은 즉각적으로 구조기관에 영상 및 GPS 좌표를 송출함으로써 조기에 사고상황을 파악하고 빠른 구조에 이바지함을 보여준다. -
최근 사물인터넷(IoT), 자율주행과 같이 기계 간의 통신이 요구되는 서비스가 늘어감에 따라, 기계 임무 수행에 최적화된 데이터의 생성 및 압축에 대한 필요성이 증가하고 있다. 또한, 사물인터넷과 인공지능(AI)이 접목된 기술이 주목을 받으면서 딥러닝 모델에서 추출되는 특징(feature)을 디바이스에서 클라우드로 전송하는 방안에 관한 연구가 진행되고 있으며, 국제 표준화 기구인 MPEG에서는 '기계를 위한 부호화(Video Coding for Machine: VCM)'에 대한 표준 기술 개발을 진행 중이다. 딥러닝으로 특징을 추출하는 가장 대표적인 방법으로는 합성곱 신경망(Convolutional Neural Network: CNN)이 있으며, 오토인코더는 입력층과 출력층의 구조를 동일하게 하여 출력을 가능한 한 입력에 근사시키고 은닉층을 입력층보다 작게 구성하여 차원을 축소함으로써 데이터를 압축하는 딥러닝 기반 이미지 압축 방식이다. 이에 본 논문에서는 이러한 오토인코더의 성질을 이용하여 CNN 기반의 이미지 분류 네트워크의 합성곱 신경망으로부터 추출된 feature에 오토인코더를 적용하여 압축하는 방안을 제안한다.
-
현재 자동차 대수 당 주차면 수가 충분한 상황이지만, 외부인이 사용할 수 없는 허수 주차 공간이 대부분이다. 이에 본 논문은 불법 주정차의 원인을 비효율적인 주차 공간 활용이라 판단하였다. 아파트 및 상가 주차 공간은 출근 시간대에 여유 주차면 수가 급격히 증가하는데, 이 잉여 공간 중 일부를 외부인에게 공유하여 주차 공간을 최대한 활용할 수 있도록 한다. 애플리케이션 이용자는 원하는 주차장을 예약하고, 출입통제 자동화 시스템의 QR코드 인식을 통해 주차장을 사용할 수 있다. 전체적인 예약 시스템 관리는 웹 브라우저를 이용한다.
-
본래 대중문화는 그 자체로 '집단(Mass)'의 의미가 들어있다. 하나의 방송콘텐츠는 PD, 작가, 출연자와 방송 스텝들은 물론이고 관객들까지 참여함으로써 완성된다. 하지만 방송의 이런 집단 창작 시스템은 코로나19 같은 전 세계적인 감염병 유행 앞에서 유례없는 변화를 가져왔고, 쉽게 가라앉지 않는 감염병으로 랜선 콘서트, 라이브 뮤지컬 등 여러 언택트 시스템(Untact System)이 시도되어지고 있다. 본 논문에서는 언택트 시스템(Untact System)의 도입으로 변화하는 방송에 대해 알아보고, 라이브 방송 시스템을 설계한다.[2]
-
Lee, Ginna;Yoo, Hoyoon;Kim, Hongwoo;Jo, Hayeon;Yeo, Donggyu;Lim, Sooyeon;Kim, Yujin;lee, Sangun 290
라디오 방송은 무선 통신 매체로써 가장 오래된 방송 역사를 가지고 있다. 최근에는 다매체의 등장과 인터넷의 발달로 위상이 과거에 비해 추락하였다. 하지만 다양한 매체 속에서도 라디오가 가지는 특수성이 있음은 분명한 사실이다. 따라서 이에 대한 청취자들의 수요가 꾸준히 존재하기에 본 논문에서는 라디오만이 갖는 오디오의 특성을 살려 청취자들의 흥미를 유발할 수 있는 멀티 채널 오디오 시스템을 제안한다. 이를 통해서 기존의 라디오 시스템에서 탈피하여, 청취자들이 선택적으로 오디오를 청취하는 시스템을 구축하고자 한다. -
Kim, min ji;Kim, seo ha;Kim, yae ji;Min, da been;Bae, na hyun;Yu, da young;Lee, su yeon;Lee, sang un 294
코로나(COVID-19)로 인해 언택트(Untact) 방송이 활성화된 현 시점에서 기존 방송의 형태는 나날이 변화하고 있다. 특히 1인 미디어 대한 관심이 급증하게 되면서 1인 방송 체제가 전통적 미디어뿐만 아니라 대중에게까지 많은 영향을 미치며 하나의 트렌드로 자리 매김하게 되었다. 따라서 본 연구는 1인 방송의 특성과 시스템 설계를 바탕으로 최소한의 장비를 사용하여 양질의 스트리밍 서비스를 제공하기 위한 1인 방송 시스템을 구축하고자 한다. -
Kim, Ji-hye;Ma, Yu-jin;Bak, Ji-min;Jeong, Da-bin;Jeong, Eun-he;Moon, Cha-hong;An, Ji-eun;Lee, Sang-un 297
COVID-19로 인해 많은 사람들이 다양한 오프라인 활동을 즐기지 못하고 있다. 따라서 포터블 중계 시스템을 이용하여 온택트 시대에 맞는 소통 콘텐츠 제작이 요구되고 있다. 본 논문에서는 방송 송출 프로그램을 이해하고 그를 이용한 CG사용과 크기가 작은 포터블 중계 시스템의 장점을 살려 장소에 제약이 없는 실시간 유튜브 스트리밍 구현을 설계하였다. -
시대가 변화됨에 따라 다양한 비대면 방송들이 증가하는 추세를 보이고 있다. 가상현실(VR)을 이용한 쇼케이스부터 실시간 쌍방향 소통을 활용한 무대까지 멀티뷰를 활용한 방송들이 여러 방향으로 활용되고 있으며. 이러한 환경 속에 관객과 조금 더 밀접한 방송을 진행하기 위한 여러 방법이 시도되고 있다. 따라서, 본 논문에서는 현장에서 녹화되고 있는 모든 카메라 소스들을 썸네일 사이즈로 만들어 한눈에 알아볼 수 있는 플랫폼을 구성하여 시청자가 원하는 카메라를 선택해 보고 싶은 장면을 선택할 수 있는 시스템을 제안한다.
-
임플란트 시술 수요가 늘고 시장이 성장하면서 관련 기술도 발전하고 있다. 특히 기능성과 심미성 향상을 위해 많은 기술이 연구되고 있다. 이 중 심미성에 있어 주변 치아와의 색 유사도가 높은 임플란트를 제작하는 것이 주요 연구 중 하나이다. 본 논문에서는 심미성 높은 임플란트 제작을 위해, 다음과 같은 임플란트 표본 추천 시스템을 제안한다. 휴대 조명 장치와 의료용 치아 패치를 사용한 색 보정으로 촬영 환경 차이를 최소화하여 치아의 정확한 색을 추출한다. Mask R-CNN 모델을 통해 보정된 영상에서 치아를 검출하고, 군집화를 통해 색상 단위로 치아 영역을 구분한다. 치아의 영역별 색상과 임플란트 표본 사이의 색상 거리를 계산하여 유사한 표본들을 추천한다. 위 시스템을 통해 사용자는 주변 환경에 영향을 받지 않고, 치아의 색을 정확히 분석하여 이를 임플란트 표본과 비교할 수 있게 된다.
-
본 논문에서는 비접촉식 적외선 온도센서와 nRF52832를 이용한 체온 관리 플랫폼을 제안한다. 코로나와 같이 전염성이 강한 경우에는 사람 간의 접촉이 최소한으로 이루어져야 하기 때문에, 코로나의 전염 여부 및 예방을 위해서는 접촉을 하지 않으면서 정확한 체온 측정과 제계적인 체온정보의 관리가 요구된다. 그러므로, 본 논문에서는 비접촉 적외선 온도센서를 기반으로 한 체온계와 측정한 체온 정보를 바로 확인할 수 있는 스마트폰 앱을 개발한다. 또한, 서버를 구축하여 측정한 체온 정보를 체계적으로 관리한다. 추가로, 스마트폰 앱은 고유의 QR 코드를 생성하여 신원 확인 및 보안에 대해 정확성과 신뢰성을 확보할 수 있다. 제안한 시스템을 통해 코로나와 같은 전염병이 확산되는 것을 막는데 도움을 줄 수 있을 것이다.
-
인물의 위치와 행동을 인식하는 것은 여러 분야의 서비스에서 활용할 수 있는 기술이다. 그렇기에 다양한 방식으로 연구되어 왔다. 기존의 방식은 일반 RGB 카메라의 영상에 영상처리 기법과 딥러닝을 사용하여 3차원 공간상의 인물 위치를 인식하는 방식과 라이다와 같이 깊이를 인식 할 수 있는 장치를 활용하여 3차원 공간상 인물의 위치를 인식하는 방식이 있다. 각각의 방식은 RGB 카메라를 이용할 수 있다는 장점, 인식률이 우수하다는 장점을 가지고 있다. 하지만 영상처리 방식은 연산량이 많아 실시간 서비스에 불리하다는 한계점이 있다. 라이다 방식은 기기의 부피가 커 공간제약이 있다는 점과 이동이 불편하다 있다는 한계점이 있다. 본 연구에서는 Kinect와 openFrameworks를 활용하여 공간이 효율적이고 연산량이 적은 방식의 3차원 공간에서 인물 위치 인식과 실시간 이동에 대한 방향 인식을 다룬다.
-
급격하게 증가하는 온라인 수업 환경에서 원격으로 학생들의 집중도를 파악하는 것은 중요하다. 집중도를 측정할 수 있는 시스템이 필요하지만 아직까지 실시간으로 정확하게 수업 집중도를 파악할 수 있는 알고리즘이 제안되고 있지 않고 있다. 따라서, 우리는 이러한 문제를 해결하기 위해 최근 발전하는 딥러닝 네트워크와 이에 기반한 시선 추적 알고리즘을 동시에 활용한 수업 집중도 추정 프레임워크를 제안한다. 결과적으로, 이를 통해 학생들의 집중도를 실시간으로 정확하게 측정하여 온라인 수업 환경 개선에 기여한다.
-
언택트 문화가 활성화되면서 다양한 업체에서 홈트레이닝 어플리케이션이 출시되고 있다. 많은 어플리케이션이 관절 특징점 검출 기능을 제공하여 사용자에게 편리함을 제공하지만, 자체 컨텐츠만 사용가능하다는 점에서 한계를 갖는다. 본 작품에서는 딥러닝 기반의 관절 특징점 검출기 및 특징 추출기를 결합하여 실시간 자세 유사도 측정기를 구현하였다. 목표영상 및 사용자의 관절 위치를 파악함과 동시에 관절 위치 정보에 대한 특징을 추출하여 자세 유사도를 실시간으로 점수화해 사용자에게 제공한다.
-
스테레오 이미지는 카메라 두 대를 사용하여 찍은 미묘하게 다른 두 사진을 의미한다. 이 차이는 우리가 두 눈의 차이로 대상과의 거리를 계산하는 것처럼 이미지의 깊이를 예측할 수 있기에 요즘 주목받고 있는 자율주행 자동차나 로봇 비전에 이 기술이 사용된다. 심지어는 스마트폰 또한, 듀얼 카메라라는 이름으로 우리 일상생활에 쉽게 접할 수 있다. 이러한 상황에서 본 논문에서는 두 대의 카메라에서 찍힌 스테레오 이미지에서 손상된 한쪽의 이미지를 복원하는 기술문제에 대해 다루고자 한다.
-
본 논문에서는 스테레오 영상으로부터 얻은 특징점들을 활용하여 기초행렬(Fundamental matrix)을 추정하는 실험을 한다. 획득한 영상들은 보정이 되어 있으며, 특징점 추출 후 매칭은 RANSAC 등의 기존 알고리즘을 활용한다. 기초 행렬을 얻기 위해 스테레오 영상으로부터 정의되는 에피폴라 점, 에피폴라 선, 에피폴라 평면을 정의하고, 이들로부터 얻을 수 있는 기하학적 관계식을 활용하여 기초행렬을 수학적으로 추정해 보고, 실험으로 수학적 이론을 검증해 본다.
-
최근 비대면 원격강의의 비율이 증가하였지만 비대면 상황에서 원격으로 진행하는 강의로 인해 강의를 수강하는 학생들의 강의를 진행하는 교수와의 질문에 대한 즉각적인 상호작용과 피드백이 부족하고 교수 또한 비대면 상황에서 학생들과의 소통의 어려움으로 인해 질문에 대한 답변을 하는 것에 어려움 있다. 본 논문에서는 이러한 문제를 해결하기 위해 학생들에게 질문에 대한 즉각적인 답변을 해주고 교수에게는 질문-답변을 관리할 수 있는 인공지능 챗봇 웹 서비스를 제안한다. 웹 서비스는 강의를 수강하는 학생과 강의를 진행하는 교수로 나눠져 제공된다. 구현을 위해 Seq2Seq 모델을 활용하였고 질문-답변 데이터셋으로 학습을 하여 테스트 하였다.
-
처음 방문하는 도시에서 건물의 외형만을 보고 목적지를 찾는 것은 매우 어려운 일이다. 따라서 본 연구에서는 스마트폰 카메라로부터 촬영된 영상에서 특징점을 추출하고 이를 이미 데이터베이스에 저장된 영상과 매칭하는 작업을 통해 해당 건물의 이름이 무엇인지 알려주는 시스템을 개발하였다. Oriented fast and rotated brief 알고리즘을 이용하여 크기 변화, 회전 등에 강인한 특징점을 추출하였고 알고리즘과 Brute-Force Matcher와 K-Nearest Neighbor 방법을 이용하여 특징점을 매칭하였다. 제안된 시스템은 실제 스마트폰으로 촬영된 영상을 데이터베이스에 연동하여 실험한 결과 90% 이상의 정확도를 보여 주었다.
-
최근 4차 산업혁명이 가속화되면서 IT 기반 산업들이 제품 중심 사업에서 서비스 위주의 사업으로 변화하는 양상을 보인다. 그에 뒤 받침 하듯이 세계 스타트업 기업 가치를 측정해 보았을 때 1위부터 4위까지 모두 IT 기반의 사업이라는 것을 확인할 수 있다. 그중 750억 달라 가치를 가진 Uber, 560억 가치를 가진 디디추싱은 모두 차량 공유 시스템을 서비스를 기업으로, 세계 각국의 사람들의 현재 차량 매칭 서비스에 관심이 집중 되어있다. 이러한 차량 매칭 서비스는 사용자들 실시간 매칭을 해주기 때문에 많은 사람들이 서버에 접속하여 인증을 요청하게 된다. 또한 기업은 많은 사람들의 실시간 인증을 처리해야하기 때문에 다수의 요청을 처리하는 것은 시스템 사양을 결정하게 되는 중요한 요소가 된다. 이러한 서버 기반 인증 방식은 메모리에 부하가 걸리는 문제가 발생한다. 본 논문에서는 다수의 사람들이 들어오는 차량 매칭 서비스에서 토큰 인증 기반 방식인 JWT를 활용하여 기존의 서버에 사용자의 정보를 저장하는 세션 인증 방식보다 좀 더 효율적인 인증 방식을 제안하고자 한다.
-
현재 많은 교육기관에서 활용되고 있는 교수학습지원시스템의 기능 부족과 교육환경에 부합하지 못해 낮은 이용성을 보이는 부분을 보완하여 일반적인 강의 형태를 일반형, 참여형, 실습형 등으로 세분화하여 수업의 형태에 필요한 기능을 개발하여 정적인 수업의 형태에서 교육자와 학생들 사이에 소통할 수 있는 환경을 구성하였고, 더 나아가 PC, 스마트폰, 태블릿 등 다양한 기기에서 접근 및 사용을 할 수 있는 웹을 기반으로 서비스를 제작하여 공간에 제약 없이 교육자와 학생의 효과적인 교육환경을 제공한다. 개발 과정에서 다양한 스타트업에서 이용되는 Django와 많은 사용자가 확보된 Javascript을 이용해 개발 기간 단축하였다. 또한 웹소켓(Websocket)을 이용해 최소한의 데이터 통신으로 빠른 실시간 통신을 구현하였고, 다양한 브라우저에 대응할 수 있도록 웹 표준을 준수하였다. 서버의 경우에는 아마존 웹 서비스(AWS)를 활용하였고, Linux 환경에서 동작 컨테이너화를 통해 보안성을 확보하였다.
-
개인 방송의 보편화로 인해 인터넷 혹은 방송으로 유포되는 영상에서 일반인의 얼굴이 빈번히 노출되고 있으며, 동의 받지 않은 얼굴의 방송 노출은 개인 초상권 침해와 같은 사회적 문제를 일으킬 수 있다. 이러한 개인 초상권 침해 문제를 해결하고자 본 논문은 비디오에서 일반인의 얼굴을 검출하고 이에 마스킹을 가하는 방법을 제안한다. 제안 방법은 우선 딥러닝 기반의 Faster R-CNN을 이용하여 모자이킹을 하지 않을 특정인과 모자이킹을 가할 비특정인을 포함한 다수의 얼굴 영상을 학습한다. 학습된 네트워크를 이용하여 입력 비디오에 대해 사람의 얼굴을 검출하고 검출된 결과 중 특정인을 선별해 낸다. 최종적으로 입력 비디오에서 특정인을 제외한 나머지 검출된 얼굴에 대해 모자이킹 처리를 수행함으로써 비디오에서 지능적으로 비특정인의 얼굴을 가린다. 실험결과, 특정인과 비특정인을 포함한 얼굴 검출의 경우 99%의 정확도를 보였으며, 얼굴 검출 결과 중 특정인을 정확히 맞춘 경우는 86%의 정확도를 보였다. 제안 방법은 인터넷 동영상 서비스 및 방송 분야에서 개인 정보 보호를 위해 효과적으로 활용될 수 있을 것으로 기대된다.
-
캡스톤 기업 연계형의 과제로 드론 교육에 쓰이는 시뮬레이션을 대체할 드론 교육 게임을 제작한다. 교육생의 입장에서 시뮬레이션은 복잡하고 지루하기 때문에 다양한 교육과 정보, 재미있는 콘텐츠를 담은 드론 게임을 만들어 스스로 학습을 진행하게 하는 것이 목표이다. 제작에 앞서 먼저 연구된 시뮬레이션과 게임을 통해 어떤 문제로 상용화가 되기 힘이 들었는지 조사했다. 재미있는 콘텐츠를 제공해 드론 기초 조작을 쉽게 학습할 수 있도록 유도했지만 교육생들이 실제 드론을 어떤 컨트롤러로 조작하는가에 대한 조사가 미흡했다. 이를 해결하기 위해서 필요한 학습 콘텐츠를 설계하고 교육생들이 소지한 드론 컨트롤러로 체험을 할 수 있도록 구현했다.
-
비대면 강의가 늘어남에 따라 이에 집중하지 못하는 학습자들에게 강의에 집중할 수 있는 환경을 제공하고자 이 작품을 고안했다. 이 작품은 학습하는 사용자의 모습을 웹캠을 통해 실시간으로 관찰하여 얼굴인식을 통해 학습지가 누구인지 파악하고, 졸음이 감지되거나 화면이 아닌 다른 곳을 응시했을 때 사용자에게 화면상으로 경고 메시지를 보여줌으로써 집중할 수 있게 도움을 줄 수 있는 작품이다. 졸음의 판단 근거는 눈을 감고 있는 것으로 판단하고, 다른 곳을 응시하는 경우에는 화면 상의 동공의 위치 좌표가 눈에서 한쪽으로 치우치는 경우를 판단한다. 작품을 구현하기 위해 python 언어와 라이브러리들을 사용했다. face-recognition library를 이용해 얼굴을 인식했고 dlib library를 이용해 얼굴에서 눈의 landmark를 검출해 학습자가 화면에 집중하고 있는지 파악했다.
-
본 논문에서는 영상 변환 기술인 이산웨이블릿변환(Discrete Wavelet Transform, DWT)를 딥러닝 기반의 네트워크로 구현한다. 딥러닝 기술 중에도 CNN 기반으로 네트워크를 설계하였으며, 본 DWT 네트워크는 해상도에 의존적이지 않은 계층들로만 구성된다. 데이터세트를 구성할 때 파이썬의 라이브러리를 사용하여 레이블 데이터세트를 구성한다. 128×128크기의 gray-scale 영상을 입력으로 사용하고 이에 대응하는 레이블 데이터세트를 구성하여 1-level DWT를 수행하는 네트워크의 학습을 진행한다. 역방향 변환도 네트워크 설계 후 데이터세트를 구성하여 학습을 진행한다. 학습이 완료된 1-level DWT 네트워크를 반복적으로 사용하여 Multi-level DWT 네트워크를 구성한다. 또한 양자화에 의한 간단한 영상압축 실험을 진행하여 DWT 네트워크의 성능과 압축 등의 응용분야에 활용할 수 있음을 보인다. 설계한 DWT 네트워크의 1-level 순방향 변환 성능은 42.18dB의 PSNR을 보였고, 1-level 역방향 변환 성능은 50.13dB의 PSNR을 보였다.
-
급변하는 현대사회에서 각종 범죄가 고도로 지능화, 전문화 되고 있을 뿐 만 아니라 매년 범죄율이 증가하고 있다. 범죄수사에서 범죄자를 검거하기 위해서는 '골든 타임'인 초기 단계가 가장 중요하다. 따라서 CCTV를 일일이 돌려보던 기존의 비효율적인 수사방식이 아닌, 얼굴인식기술을 활용해 골든타임 안에 범죄자를 검거 할 수 있도록 도와주는 얼굴인식기반 범죄수사 시스템을 제안한다. 얼굴인식 프로그램을 사용하여 CCTV 영상 속 범죄자가 있다면, 곧바로 얼굴을 인식해 표시 해줌으로써 단시간 안에 범죄자의 이동경로를 파악한다. 이후 이동경로 및 수사정보를 웹페이지를 통해 다른 경찰관들과 공유해 범죄자를 빠르게 검거하는 시스템을 제작하였다. 제작과정에서 얼굴인식관련 기술은 Deep Metric CNN(triplet), Resnet, Knn classification을 사용해 python으로 구현하였다. 통신을 위한 웹서버는 Bitnami를 통해 구축했으며, NAT, DHCP, Port Fowarding 기술을 사용했다. 마지막으로 웹페이지는 HTML, PHP, CSS 등을 통해 제작해 수사정보를 주고 받을 수 있게 제작하였다.
-
최근 스포츠 경기나 차량 블랙박스 등에서 비디오를 이용한 판정이 점차 확대되고 있지만, 일반 카메라로 촬영된 비디오에서 정확한 판정을 하기 어려울 때가 빈번히 발생한다. 초고속 카메라로 촬영한 슬로우 모션 비디오를 이용할 수 있다면 판정의 정확성을 향상시킬 수 있을 것이다. 본 논문에서는 일반 카메라로 촬영한 비디오로부터 마치 초고속 카메라로 촬영한 것과 같은 슬로우 모션 비디오를 생성하여 제공하는 서비스를 제안한다. 제안 방법은 NVIDIA에서 개발한 Super Slomo 기술을 기반으로, 초당 30장의 표준 비디오를 초당 60장에서 240장까지의 고품질 슬로우 모션 비디오로 변환한다. 이 기술은 시간적으로 이웃한 두 영상을 입력하여 딥 러닝 기반으로 중간 프레임을 보간함으로써 프레임율을 향상시킨다. 또한 본 논문에서는 Super Slomo 기술에 FP16을 적용하여 처리속도를 향상 시켰으며, 웹 서버를 이용하여 비디오를 업로드하고 슬로우 모션으로 변환된 비디오를 다운로드 할 수 있는 사이트를 구현했다.
-
본 팀은 웹캠으로 촬영한 영상에서 원하는 물체를 선택하여 텍스처를 선택한 이미지의 스타일로 변환하는 프로젝트를 수행했다. 영상을 세그멘테이션하고 원하는 물체만을 원하는 텍스처로 변환하여 최종 아웃풋을 얻는다. 제안하는 네트워크는 물체를 다양한 스타일로 바꾸는 것이 가능한데, 이 중에서 이미지에 명화의 화풍을 입히는 것을 중점으로 하여 데모를 구현했다. 빠른 속도로 네트워크를 실행하기 위해 기존 연구들에 비디오 처리의 관점을 접목했다. 여러 프레임을 묶어 옵티컬 플로우를 생성하고, 첫 번째 프레임을 인스턴스 세그멘테이션한 후 마스크를 추출했다. 이후 마스크 영역만 뽑아낸 이미지를 새로운 입력으로 하여 스타일 트랜스퍼를 거치고, 이 첫번째 프레임과 나머지 프레임들의 옵티컬 플로우로 나머지 프레임들의 세그멘테이션과 스타일 트랜스퍼를 예측하여 다시 비디오 프레임으로 만들어 주었다. 본 알고리즘은 옵티컬 플로우 설정으로 네트워크의 계산량을 줄이며 속도를 개선했다. 빠른 데이터 처리로 사용자가 원하는 물체의 텍스쳐가 바뀔 수 있게 되었고, 이는 현실 세계가 실제로 바뀐 듯한 느낌을 들게 한다. 또한, 컴퓨터 비전에서 활발하게 연구되었던 분야를 AR로 끌어와 두 분야의 융합 가능성을 열었다. 현재 코로나의 영향으로 집에서 취미생활을 즐기는 인구가 많아졌다. 본 연구를 통해 많은 사람에게 집에서 쉽게 명화의 감성을 즐기고 느낄 수 있는 양질의 콘텐츠를 제공해주려 한다. 또한, 박물관과 미술관 등의 기관에서도 이 기술이 활용될 수 있다. 명화를 느낄 수 있는 다양한 콘텐츠를 이용하여 박물관이나 미술관의 홍보 효과도 기대할 수 있다.
-
기존의 지도 또는 길 찾기 기능을 사용 할 때 방향 정보를 직관적으로 제시해주는 네비게이션 구현을 목표로, 사용 지역을 캠퍼스 내로 국한시켜 증강현실을 이용한 네비게이션을 구현하였다. 본 애플리케이션 개발에는 Mapbox maps API, ARCore, Unity 3D Engine, Android studio를 사용하였다. 사용지역을 확대시켜 Mobile device 뿐만 아니라 자동차 앞 유리 디스플레이에 접목하여 보다 다양한 서비스 제공을 기대할 수 있다.
-
오디오 캡셔닝(Audio Captioning)은 시스템이 입력으로 오디오 신호를 받아들이고 해당 신호의 텍스트 설명을 출력하는 중간 번역 작업이다. 이 논문에서는 컨볼루셔널 뉴럴 네트워크(CNN), 트랜스포머의 딥러닝 알고리즘을 사용하여 주변 환경 소리에 대한 오디오 캡셔닝을 자동으로 수행하고 한글화된 출력 결과를 제공하는 모델을 제시한다. 본 연구 결과, 모델의 성능 평가 척도인 SPIDEr 점수는 0.1977이 나왔다.
-
본 작품은 어떻게 보여줄 것인지에만 치중된 증강현실 개발 환경에서 어떻게 인간과 상호작용 할 것인가에 대한 고민이 부족하다고 생각하여 본 캡스톤디자인을 시작하였다. 손가락에 착용하는 반지형태의 디바이스와 이를 이용한 증강현실 조작 인터페이스를 구현하는 것을 목표로 한다. 이를 위해서 모바일 Video-Through HMD 증강현실 환경을 만든 뒤 증강된 객체의 배치, 이동, 회전과 같은 조작을 구현하였다.
-
가상 현실을 이용한 다양한 응용기술이 등장함에 따라, 그를 이용한 서비스와 상용 애플리케이션이 개발되고 있다. VR, AR 사용자가 증가하고, 주위에서도 쉽게 이러한 기술을 접할 수 있게 되었다. 이에 본 논문은 2D로 표현되는 기존의 지도 사용을 어려워하는 사람들의 문제점을 해결하기 위하여 VA과 AR-based 3D를 통합할 수 있는 지도를 연구하고 'SNUT MAP'을 개발하였다. 'SNUT MAP'을 개발하는 데 Unity 3D와 Dronedeploy, Blender, Vuforia, AR+GPS location, Google maps API를 사용하였다.
-
현대인들의 인터넷 사용률이 지속적으로 증가함에 따라 소비자들은 오프라인 매장에서 의류를 구매하기보다 인터넷 쇼핑을 통한 구매를 선호하게 되었다. 그러나 온라인 구매로 인해 정확한 스타일 확인 불가 및 확신할 수 없는 사이즈로 큰 불편함을 겪고 있다. 따라서 최근 가장 떠오르는 기술 중 하나인 AR을 실생활에 적용하여 사용자가 매장에 가지 않고 집에서도 편하게 자신의 스타일링을 확인할 수 있도록 하는 AR 피팅룸을 구현하여 솔루션을 제안하고자 한다. 본 프로젝트에서는 3D 표현을 위해 Kinect Xbox 카메라를 사용하여 사용자의 신체정보를 추출한 후 unity와의 연동을 통해 사용자에게 편리함을 제공할 수 있는 AR-fitting 시스템을 설계하였다. 선택한 옷을 가상으로 입어 볼 수 있는 쇼룸 형태의 서비스를 제공하며 제스처 인식을 통해 보다 편리한 의류 선택 및 사이즈 조절 등을 가능하게 하였다. 또한, 사용자의 입력 정보에 따른 사이즈 측정 결과를 제공함으로써 사용자의 의류 구매를 보다 효과적으로 만들어 줄 수 있을 것이다.
-
홀로그램은 SLM(공간 광변조기)의 픽셀 피치와 빛의 파장에 대한 의존성이 있는 데이터이며 디지털 홀로그램의 품질은 단위 픽셀 피치와 전체 해상도에 비례하게 된다. 또한 각 픽셀마다 복소값을 가지므로 디지털 홀로그램의 데이터량 또한 기하급수적으로 증가하여 그 크기가 매우 클 수밖에 없다. 따라서 효율적으로 디지털 홀로그램 파일을 다루기 위해서는 코덱을 통해 파일 크기를 축소하여 저장하는 것이 필수적이며 최근에는 코덱으로 인해 손상된 화질을 복원하는 연구가 활발히 진행 중이다. 본 논문에서는 홀로그램 표준 데이터인 JPEG Pleno의 홀로그램 이미지를 사용하였으며 홀로그램 이미지를 JPEG2000, AVC, HEVC코덱을 통해 압축 및 복원했을 때 나타나는 화질손상을 딥러닝 네트워크로 복원하여 화질 개선이 이루어지는지 알아보고 원본 홀로그램과 비교하여 정량적으로 화질의 개선 정도를 알아본다.
-
본 작품은 코로나 바이러스로 인한 언택트 서비스의 부각과 더불어, 대중교통 이용시 승객들이 하차에 신경쓰지 않고 자신의 일에 집중 할 수 있도록 지원하기 위해 제작된 서비스이다. 버스 하차 전(혹은 승차 시) 미리 희망하는 하차 지점을 예약해놓으면 해당 정류장에 자동으로 버스의 하차벨을 울리게 된다. 스마트폰 앱과 버스에 설치된 단말을 활용하여 추가적인 설치비용을 절약하며, 이 후 완성된 시스템을 발전시켜 사용자별 타겟광고가 가능해지면 버스회사의 부족한 재원을 보다 확보할 수도 있다.
-
AI가 각광받고 있는 시대에 발 맞추어 머신러닝, 딥러닝을 활용한 이미지 인식 기술을 구현하였다. 사용자가 원하는 음식 사진을 업로드하면 인공 신경망 알고리즘이 convolution을 수행해 데이터베이스에 학습시켜 두었던 이미지들 가운데 유사도가 가장 높은 수치로 나오는 이미지를 결과로 보여주어, 사용자는 사진만으로도 음식의 칼로리 정보, 칼로리를 소모하기 위한 운동량 등의 정보를 간편하게 알 수 있는 시스템을 구축하였다. 또한 MYSQL과 PHP를 활용하여 자신의 칼로리 정보를 저장하고, 사용자가 매일 입력하는 몸무게의 변화량 등을 실시간으로 확인할 수 있는 등의 데이터베이스 서버를 구축하였다. 스마트폰을 통해 정보를 얻을 수 있도록 어플리케이션을 구성했다.
-
최근 스마트폰과 어플리케이션의 기술 발전으로 일상생활에서 은행의 주거래 혹은 보안인증으로 생체정보를 이용하는 것이 급격히 확대되고 있다. 이러한 생체정보 보호를 위해 디지털 콘텐츠 내에 저작권자의 정보를 삽입하여 정보를 보호하는 기술인 워터마킹 기술을 도입하여 생체정보의 복제 혹은 도용 시에 발생할 수 있는 문제를 예방하는 것이 본 연구의 목적이다. 본 논문에서는 홍채 이미지에 DWT를 적용한후 QIM 방식을 이용해 임의의 QR코드로 워터마크를 삽입하여 홍채 코드를 추출한후 워터마크를 삽입하기 전의 홍채코드와 삽입 후의 홍채코드를 PSNR 통해 비교 분석하고 Stirmark 에서 제공하는 강인성 테스트를 이용해 강인성의 정도를 알아본다.
-
최근 미디어 기술의 발달에 따라 문서 형태로 제공되던 기존의 서비스가 다양한 형태로 제공되고 있다. 그 중 요리의 경우, 사용자의 노하우가 부족하면 간접적인 도움으로는 한계가 있기 때문에 주방보조시스템을 구성하여 사용자에게 직접적인 도움을 제공하고자 하며 재료를 손질하거나 불을 사용할 때 시스템의 도움을 받을 수 있도록 했다. 우선 재료를 손질하는 경우 웹캠이나 핸드폰을 이용하여 요리 재료를 인식하고 사용자가 잘라야 할 요리 재료에 절취선을 제공하여 특별한 도구 없이도 시각적인 도움을 받을 수 있도록 구현했으며 요리 재료를 인식하고 절취선을 제공하기 위해 물체 인식, Object Segmentation 알고리즘을 사용하여 재료의 영역을 파악한 뒤 OpenCV 라이브러리를 통해 실시간으로 절취선을 생성한다. 불을 사용하는 경우 적외선 온도 센서가 지속적으로 요리의 온도를 측정하여 UI에 표시한다. 이러한 서비스를 요리의 진행상태와 연동하여 제공함으로써 요리에 필요한 정보를 한눈에 확인할 수 있고 차후 가전제품과 연동되면 다양한 레시피를 누구나 편리하게 사용할 수 있을 것으로 기대된다.