Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
The Korean Institute of Broadcast and Media Engineers
- Semi Annual
Domain
- Media/Communication/Library&Information > Media/Consumers
fall
-
재난문자서비스는 이동통신망을 기반으로 셀 안의 모든 가입자에게 재난경보 메시지를 신속하게 전달한다. 국내 재난문자서비스는 2G 와 4G 이동통신망에서 재난경보 메시지 전송 서비스를 제공한다. 또한 5G SA 망에서 고도화된 재난문자 서비스를 계획 중에 있다. 그러나 현 재난문자서비스는 제한된 글자 수의 국내문자 메시지만을 전송한다. 따라서 외국인 등 취약 계층에게 실용적이지 못한 단점이 있다. 일본의 재난문자서비스는 번역 앱을 이용하여 외국인에게 번역된 재난문자 메시지를 제공한다. 그러나 번역 서비스는 오역 등의 위험을 내포한다. 본 논문에서는 외국인 등이 직관적으로 이해 가능한 이미지 등을 표출하는 앱 방식을 소개한다. 재난문자서비스와 이미지 표출 앱의 연계를 통하여 외국인 등 취약 계층에게 효율적인 재난경보 메시지를 전송할 수 있다.
-
재난문자는 국가가 재난 상황에 대해 국민에게 경보를 전달하여 알림으로써 피해를 예방하거나 경감시키는 대표적인 수단이다. 하지만 재난문자의 기술 규격을 민간 표준으로 제정하여 준수 여부가 휴대전화 제조사나 통신사에 달려있어 서비스에 차이가 발생하는 문제가 있다. 이 연구는 이러한 문제를 해결하기 위해 국내 재난문자의 기술기준 제정 필요성을 제시한다.
-
재난문자는 국가가 재난 상황에 대해 국민에게 경보를 전달하여 알림으로써 피해를 예방하거나 경감시키는 대표적인 수단이다. 하지만 재난문자의 기술 규격을 민간 표준으로 제정하여 준수 여부가 휴대전화 제조사나 통신사에 달려있어 서비스에 차이가 발생하는 문제가 있다. 이 연구는 이러한 문제를 해결하기 위해 국내 재난문자의 기술기준 제정 필요성을 제시한다.
-
인공지능 기술과 서비스는 딥러닝을 중심으로 한 기계학습 기술의 급속한 발전에서 원인을 둔다. 딥러닝 발전 요인으로 GPU등 하드웨어 발전, 기술 공유, 대규모 학습데이터 구축 및 공개를 들 수 있다. 데이터 셋에 관련하여 센서를 이용한 데이터셋의 경우 단순히 많은 데이터셋의 확보뿐 아니라 적절한 위치 및 환경에 따른 고려가 필요하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 위치별 시계열 데이터를 딥러닝을 이용하여 분석하고, 위치별 정확도와 손실을 계산한다. 또한 계산된 결과를 히트맵을 통하여 시각화하여 직관적인 이해를 높인다. 또한 위치별 정확도가 높은 상위 5개의 위치에서 앙상블 방법을 통한 성능의 향상을 확인 하였다.
-
드론 Photogrammetry는 높은 기술적 활용가치가 있는 기술로서, 결과물로 생성하는 3D 디지털 공간정보 모델이 시설물의 비육안 안전점검 및 진단에 활용될 수 있을 뿐만 아니라 디지털 트윈 구축을 위한 가장 기초적이고 핵심적인 수치 데이터를 제공하기 때문이다. 본 연구에서는 드론 Photogrammetry의 적정 품질을 구현하기 위한 임무비행의 다양한 영향인자에 대해 고찰하였다. K-water연구원 누수탐사실습장을 대상으로 드론 사진 촬영 시 비행고도, 비행속도, 중첩도, 카메라 Pitch각의 영향에 대해 연구를 수행하였다. 본 연구에서 비행시간에 영향을 미치는 인자로서 비행고도, 중첩도, 비행속도의 순으로 중요도가 있음을 알 수 있었다. 드론 임무 비행 시 후처리 결과에 가장 큰 영향을 미치는 인자는 중첩도로 나타났다. 중첩도 60% 임무비행은 3D 모델의 geometry 왜곡이 큰 편으로 나타났다. 비행 고도는 GSD (Ground Sampling Distance)와 직접 연계되므로 중요하며, 낮은 고도일수록 높은 품질의 모델링이 가능하다. April Tag를 통한 지상기준점 자동 패턴 인식 기능은 후처리 과정에서 시간 절약이 가능하여 유용하였다. 비행속도에 의한 결과물의 품질은 큰 차이가 없었으나, 수직 구조물의 모서리 부분에 다소 차이가 있었다. 짐벌 Pitch각도에 의한 정사영상 품질의 차이는 크지 않았으나 수직구조물과 평면적 구조물에 따라 각기 다른 촬영각도를 적용하는 것이 바람직하다. 본 연구성과는 향후 보다 다양한 환경에서의 데이터 수집을 통해 최적 디지털 현실 모델링에 기여할 것으로 판단된다.
-
본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.
-
사물인터넷 등, ICT 기술을 활용하여 현실의 공간으로부터 수집된 정보를 초정밀 가상 공간정보 기술과 융복합하여 제공하는 디지털 트윈 기술이 대두되고 있다. 이러한 디지털 트윈 기술은 제조, 교통, 에너지, 환경, 의료 등 다양한 현실 세계의 문제를 분석하고 해결하기 위한 기술로 확장되고 있다. 본 논문은 재난 안전, 특히 화재 안전분야에서 디지털 트윈 시스템 적용방안을 제시하는 것을 목적으로 한다. 이를 위해 화재 안전과 관련하여 다양한 센서의 수집 및 융복합처리와 디지털 트윈을 위한 표준중개 변환 방법을 제안하였다. 또한, 센서객체 및 공간 객체 모델링을 통하여 디지털 트윈 공간을 구성하고 수집된 다양한 화재안전정보와 맵핑 및 분석을 수행하는 디지털 트윈 화재 안전시스템을 제안하고, 프로토타입을 개발하였다.
-
디지털 트윈 기술은 산업 분야와 관련된 방대한 데이터를 다루기 때문에 데이터에서 유의미한 인사이트를 도출하는 것은 매우 중요한 이슈이다. 그러기 위해서는 관리자가 데이터를 직관적이고 빠르게 해석하고 이해할 수 있어야 하며 그와 관련된 표출 기술에 관한 연구가 필요하다. 이에 본 논문은 현장에 대한 정확한 이해를 위해 전 산업 현장에서 공통으로 활용할 수 있도록 데이터를 초정밀로 표출하고 자동으로 디지털 트윈 가상 공간의 데이터 생성 및 저작이 가능한 서비스 플랫폼에 대해 논한다. 첫 번째, 데이터 초정밀 가시화를 위해 실사 영상 기반의 3D 가상 공간 및 현장 오브젝트를 자동으로 생성하여 표출하고, 저작 가능한 기술에 대해 논한다. 두 번째, 생성한 데이터를 서비스 하기 위한 경량화 표출 기술에 대해 논한다. 두 가지 기술 요소의 융합으로 디지털 트윈 가상 공간을 빠르게 생성하여 시간과 비용을 절감할 수 있고, 서비스 가능한 형태로 변환하여 광역 표출 확장성에 대한 효과를 검증하였다.
-
최근 AI(Artificial Intelligence)를 기반으로 정밀한 가스 성분 감지를 위한 후각지능(Olfactory intelligence) 기술에 연구가 활발히 진행 중이다. 후각지능 학습데이터는 다른 감지 방식의 가스 센서들이 동시에 적용되는 멀티모달리티의 특성을 지니며 또한, 공간상에 분포된 센서 배열을 통해 획득된 다차원의 시계열 특성을 지닌다. 따라서 대량의 다차원 데이터에 대한 정확한 이해와 분석을 위해서는 데이터를 전처리하고 시각화할 수 있는 기술이 필요하다. 본 논문에서는 후각지능 학습을 위한 다차원의 복잡한 가스 데이터의 시각화를 위해 잡음 등의 불필요한 값을 제거하고, 데이터가 일관성을 가지도록 하며, 데이터의 차원을 시각화 가능하도록 축소하기 위한 전처리 방법을 제시한다.
-
본 논문에서는 동적 포인트 클라우드 압축 표준인 V-PCC 을 기반으로 고밀도 동적 메쉬 데이터를 압축하는 방법을 제안한다. 제안하는 방법은 정점마다 색상 값을 갖는 고밀도 동적 메쉬 데이터 압축 구조로 정점마다 갖는 위치 정보와 색상정보는 V-PCC 를 통해 압축을 수행하고 정점들의 연결정보는 TFAN 기술을 통해 압축을 수행한다. 이때 V-PCC 를 통해 복원된 정점의 순서와 TFAN 을 통해 복원된 연결정보의 정점 인덱스 정보는 복원 후 변경되어 둘 사이를 매핑 해주기 위한 방법이 필요하다. 본 논문에서는 부호화기에서 3D morton 코드 기반으로 원본 정점과 V-PCC 를 통해 복원된 정점을 효과적으로 매핑하는 방법을 제안한다. 제안하는 메쉬 압축 방법은 기존 MPEG-4 의정적 메쉬 데이터 압축 표준인 SC3DMC 와의 비교를 통해 V-PCC 기반 동적 메쉬 데이터 압축의 효율성을 보인다.
-
Park, Seungjin;Lee, Minhun;Choi, Hansol;Kim, Minsub;Oh, Seoung-Jun;Kim, Younhee;Do, Jihoon;Jeong, Se Yoon;Sim, Donggyu 27
인공지능 기반 머신 비전 응용이 증가함에 따라 사람이 아닌 기계에서 소비되는 영상 정보를 전송하는 요구가 발생하고 있다. 일반적으로 영상 정보를 전송할 때는 전송 비용을 고려하여 정보를 압축하며 기존 영상 압축 방법은 사람의 시각 인지적 특성을 반영하여 설계되었다. 따라서 기존 영상 압축 방법은 기계에서 소비되는 영상 정보를 압축하는 방법으로 적절하지 않다고 판단하여 2019년 7월, 기계를 위한 영상 부호화 기술의 표준화가 시작되었다. 본 논문에서는 머신 비전 태스크 중, 객체 탐지를 수행하는 네트워크의 피처 맵을 압축하는 방법을 제안한다. 제안하는 방법은 피처 맵의 채널 간 중복성을 제거하기 위해 PCA 기반의 변환을 적용하여 피처 맵의 차원을 축소하며 특히 해상도 계층 구조를 갖는 네트워크의 피처 맵을 압축하기 위해 각 해상도 계층간 변환 기저를 예측하여 추가로 압축률을 높인다. 제안하는 방법을 적용하여 객체 탐지 결과의 큰 성능 하락 없이 약 92.3%에 데이터양 감소를 달성하였다. -
최근 머신비전 임무(machine vision task)를 위해 기계에 소비되는 비디오가 증가하면서 MPEG 은 기계를 위한 비디오 부호화 표준으로 VCM(Video Coding for Machine) 표준화 진행하고 있다. VCM 은 기계분석 네트워크에 입력되는 비디오 또는 특징(feature)을 부/복호화하여 압축 대비 임무 수행 정확도를 평가한다. 본 논문은 기계분석 네트워크에서 추출한 특징 데이터를 기존의 비디오 코덱을 사용하여 부/복호화를 진행할 때, 각 채널의 특징맵을 SAD(Sum of Absolute Difference) 기반으로 재배열하는 방법을 제안한다. 제안기법은 VCM 의 기준성능(anchor)에는 미치지 못하지만, 채널 재배열하지 않은 특징을 비디오 코덱으로 부호화 할 때 보다 개선된 성능을 보인다.
-
본 논문에서는 강화학습을 이용하여 몰입형 영상의 압축 효율을 향상시키는 기법을 제안한다. 몰입형 영상이란 3DOF+ 영상 혹은 Point Cloud 영상과 같이 사용자가 직접 체험할 수 있는 영상을 의미한다. 또한 몰입형 영상은 그 특성에 의해 방대한 양의 정보를 가지고 있다. 따라서 이를 압축하기 위한 압축 방법들이 연구되고 있으며, 일반적으로 3D 공간의 영상을 2D 공간으로 사영하는 방식을 사용한다. 하지만 이 과정에서 정보가 존재하지 않는 영역이 생성되며 이는 압축 효율 저하의 원인이 된다. 이러한 문제를 해결하기 위하여 영상의 특성을 반영할 수 있도록 강화학습을 통한 채우기 기법을 제안한다. 실험 결과 제안한 기법이 기존 기법에 비해 좋은 성능을 보임을 확인할 수 있다.
-
비디오 압축 시 변환(transform)은 예측을 통해 만들어진 공간 영역에서의 잔차신호를 주파수 영역으로 변환함으로써 낮은 주파수 대역으로 에너지를 이동시켜 비디오 압축에서 중요한 역할을 수행한다. VVC(Versatile Video Coding)에서는 DCT-II(Discrete Cosine Transform-II), DST-VII(Discrete Sine Transform-VII), DCTVIII(Discrete Cosine Transform-VIII)를 이용하여 잔차신호 변환을 수행한다. 본 논문에서는 DCT-II, DST-VII, DCT-VIII 가 모두 선형 변환(linear transform)이라는 점에서 착안하여 변환의 선형성을 이용하여 계산량을 감소시키는 역변환을 제안한다. 실험결과 변환 수행 시 약 12.7%의 시간이 감소되는 것을 확인하였다.
-
In this paper, we propose an efficient reference-based compression artifact reduction network for 360-degree images in an equi-rectangular projection (ERP) domain. In our insight, conventional image restoration methods cannot be applied straightforwardly to 360-degree images due to the spherical distortion. To address this problem, we propose an adaptive disparity estimator using a deformable convolution to exploit correlation among 360-degree images. With the help of the proposed convolution, the disparity estimator establishes the spatial correspondence successfully between the ERPs and extract matched textures to be used for image restoration. The experimental results demonstrate that the proposed algorithm provides reliable high-quality textures from the reference and improves the quality of the restored image as compared to the state-of-the-art single image restoration methods.
-
본 논문은 RGB 컬러 3 채널에 대해 공유되는 홀로그램 픽셀 피치를 사용하여 3 차원 장면의 라이트 필드 데이터에서 비호겔 기반 컴퓨터 생성 홀로그램(CGH)을 합성하는 방법을 제안한다. 비호겔 기반 CGH 기술은 라이트 필드의 광선 각도를 평면 파면의 공간 주파수로 해석하여 주어진 라이트 필드 데이터에서 임의의 반송파로 연속 파면을 생성한다. 그러나 광선 각도와 공간 주파수 관계는 파장에 따라 달라지므로 라이트 필드 데이터에서 공간 주파수 샘플링 그리드가 달라져서 홀로그램 재구성에서 색 수차가 발생한다. 제안하는 방법은 가장 작은 청색 회절각이 라이트 필드의 시야를 커버하도록 모든 색상 채널에 공통적인 홀로그램 픽셀 피치를 설정한다. 그런 다음 라이트 필드를 파란색 파장의 공간 주파수 범위와 빨간색 파장의 샘플링 간격으로 보간하여 모든 색상 채널에 공통적인 공간 주파수 샘플링 그리드를 설정한다. 공통 홀로그램 픽셀 피치 및 라이트 필드 공간 주파수 샘플링 그리드는 홀로그램 재구성에서 색상 수차 또는 라이트 필드에 포함된 정보 손실 없이 컬러 홀로그램 합성을 보장한다. 제안된 방법은 다양한 테스트와 리얼 3D 장면의 컬러 라이트 필드 데이터를 사용하여 검증되었다.
-
본 논문에서는 홀로그래픽 영상을 시간 다중화 방식으로 구현한 360 도 홀로그래픽 테이블탑 디스플레이에 대해서 설명한다. 공간 다중화 방식의 경우 필요한 광학 소자의 수와 정렬 난이도를 시간 다중화 방식을 이용하여 해결하고, 홀로그래픽 영상을 재생하기 위하여 푸리에 변환 광학 소자를 추가하여 부드러운 운동 시차를 갖는 형태로 구현한다. 설계된 홀로그래픽 테이블탑 디스플레이는 풀-컬러 영상을 재생하기 위해서 총 3 개의 고속 구동이 가능한 DMD(Digital micromirror device)를 정렬하는 라이트 엔진 구조를 갖고 있다.
-
본 논문에서는 초고해상도를 갖는 복소 홀로그램을 압축하기 위한 전용 코덱에서 SPIHT(set partitioning in hierarchical trees)를 사용할 경우에 발생할 수 있는 문제점을 해결하기 위한 방법을 제안한다. 복소 홀로그램을 위한 코덱의 개발은 크게 전용 압축 방법을 만드는 방법과 HEVC 및 JPEG2000과 같은 앵커 코덱을 이용하고 전후처리 기법을 추가하는 방법으로 구분될 수 있다. 전용 압축 방법을 만드는 경우에, 복소 홀로그램의 공간적인 특성이 매우 독특하기 때문에 이 신호를 해석하기 위한 별도의 변환 도구가 필요하다. 많은 연구들에서 웨이블릿 변환이 여기에 좋은 대안이 될 수 있다는 것을 보여왔다. 웨이블릿 변환을 사용할 경우에 압축을 위해서 EZW, EBCOT 그리고 SPIHT를 사용할 수 있다. EBCOT의 경우에 복잡도가 너무 높고, EZW으 경우에는 성능이 좋지 않다. 따라서 SPIHT는 좋은 대안이 될 수 있을 것이다. 그러나 EZW와 SPIHT 같은 부대역 단위의 제로트리 기반의 알고리즘들은 고해상도의 영상에 대해서 고압축으로 코딩할 경우에 비트스트림 제어 시 온전한 부대역의 정보가 제대로 전송되지 못하는 문제점을 갖는다. 본 논문에서는 웨이블릿 부대역의 분할 방법을 이용하여 이와 같은 문제를 해결하기 위한 시도를 하였다.
-
본 연구는 교육용 가상현실 게임 튜토리얼 인터페이스 구성 요소와 고려사항을 파악하여 튜토리얼 인터페이스를 디자인하는 것을 목적으로 한다. 현재 개발 중인 가상현실 교육용 게임 콘텐츠를 기반으로 튜토리얼이 제공되어야 하는 사용자 과업을 도출하였다. 그 후 상용화된 가상현실 게임을 직접 사용해 봄으로써 가상현실 게임 튜토리얼의 구성 요소를 파악하였다. 대부분의 가상현실 게임 튜토리얼은 텍스트 형태의 게임 방식과 컨트롤러 그림 기반의 인터페이스 설명으로 구성되어 있었다. 문헌조사를 통해 가상현실 게임에서 튜토리얼 인터페이스 설계 시 고려되어야 하는 디자인 요소를 분석하였고, 중앙으로부터 콘텐츠를 편안하게 볼 수 있는 범위는 좌우 약 -77도 ~ 77도에 위치되어야 함을 확인하였다. 또한, 텍스트, 버튼, 색상 요소에 관한 가상현실 인터페이스 디자인 원칙도 함께 수집하여 정리함으로써, 최종적으로 사용자 과업에 따른 가상현실 게임 튜토리얼 인터페이스를 디자인하였다. 본 연구는 추후 가상현실 게임 튜토리얼 인터페이스 제작 시 유용할 것으로 기대된다.
-
우리는 한정된 공간에 분산하여 위치한 다수 개의 카메라들을 이용하여 생성된 실사 그래픽스 체적 모델 시퀀스 기반 동적 복원 알고리즘을 제안한다. 각 프레임 단위로 생성된 정적 모델의 시퀀스로부터 일정 시간 단위로 키 프레임을 생성한다. 키 프레임과 키 프레임 사이의 모델에 대한 리메싱(Remeshing) 처리를 수행하고 이를 통해 생성된 3D 모델과 키 프레임 사이 특징 점을 획득한다. 획득된 특징 점의 3차원 좌표들 사이의 오차를 최소화 하는 최적화 알고리즘(Solver)을 이용하여 키 프레임 모델과 리 매싱된 모델의 비 강체 정합을 모든 키 프레임 단위로 반복적으로 수행한다. 제안한 정합 방법을 이용하여 생성된 모델과 키 프레임 모델 사이 에러를 비교함으로써 결과를 검증한다.
-
뷰포트 예측은 360° VR(Virtual Reality) 영상 전송에서 사용자의 안정적인 콘텐츠 몰입을 위해 고안된 기법이다. 하지만 뷰포트 예측 모델의 정확도는 예측에 활용되는 데이터 또는 네트워크 상황에 따라 변동될 수 있다. 특히 사용자의 움직임은 뷰포트 예측 성능에 직접적인 영향을 주기 때문에 사용자의 움직임에 대한 정밀한 분석이 중요하다. 본 논문에서는 뷰포트 적응적 전송의 효율적인 개선을 위하여 HMD(Head-Mounted Display)의 속도가 뷰포트 예측에 미치는 영향을 분석한다.
-
최근 코로나 19의 확산으로 인하여 코로나 감염으로 인한 외부 방송 촬영에 제약이 생기면서, 제작환경은 실외에서 실내의 가상 환경 제작 수요가 크게 증가하고 있다. 이에 확장현실 제작 기술이 방송 제작에 적극 활용되고 있다. 확장현실은 외부의 제작 환경을 몰입형 LED월 시스템 기반으로 가상의 그래픽으로 내부 스튜디오 제작환경에서 제작 할 수 있어 방송에서는 확장현실 관련 시스템 및 그래픽 콘텐츠, 운영기술 개발이 요구되고 있다. 이에 본 논문은 확장현실 콘텐츠를 제작 할 수 있는 '몰입형 혼합현실 시스템'을 제안한다. 특히, 확장현실 환경에서 원격으로 AR과 VR 콘텐츠의 동기를 맞추어 운영할 수 있도록 개발된 '원격제어 타임라인 디렉터'를 통해 AR/VR 콘텐츠를 재생 및 입출력을 제어할 수 있다. 본 시스템을 통하여 그래픽 기반의 AR/VR 시험 그래픽 콘텐츠 및 실사 기반의 360 콘텐츠 기반 확장현실 시험 콘텐츠를 개발하였으며, 상용카메라 추적시스템과 연개하어 자연스러운 추적 및 합성 그리고 타임라인 디렉터의 사용자 인터페이스를 이용하여 확장현실 콘텐츠를 제작 및 운영 할 수 있음을 확인하였다.
-
국내 지상파 방송의 경우 2027년에 DTV를 종료하고 UHDTV로 완전 전환이 될 예정이다. 이러한 일정을 감안하면 기존 DTV 수상기를 보유한 가정에서는 UHDTV를 수신할 수 없어 TV를 시청할 수 없는 문제가 발생한다. 이를 위해서는 UHD 서비스를 DTV 서비스로 변환하여 제공할 수 있는 공시청 시스템 개발이 요구되는데, 본 논문은 이러한 공시청 시스템에서 UHDTV의 서비스 및 프로그램 정보를 DTV의 PSI/PSIP 정보로 변환하는 방법에 관한 것이다.
-
본 논문에서는 JPEG Pleno에서 제공하는 디지털 홀로그램 표준화 데이터를 압축하는 방법을 제시한다. 디지털 홀로그램의 수치 복원에서 시각화를 위한 랜덤 위상의 추가는 간섭현상으로 인한 스페클 노이즈와 더블어 홀로그램의 압축 효율을 떨어트린다. 홀로그램은 완전 복소의 부동소수점 형태의 데이터로 구성되며 초고해상도와 스페클 노이즈로 인해 홀로그램 특성에 맞춘 압축기술 개발이 필수적이다. 먼저, 다양한 웨이블릿 필터를 이용하여 홀로그램 데이터에 대한 주파수 특성 분석을 진행하여 필터 종류에 따른 에너지 집중도를 분석한다.
-
최근 영상 및 비디오 분야에 심층 신경망(DNN, Deep Neural Network)을 사용한 연구가 다양하게 진행됨에 따라 High Dynamic Range (HDR) 이미징 기술에서도 기존의 방법들 보다 우수한 성능을 보이는 심층 신경망 모델들이 등장하였다. 하지만, 심층 신경망을 사용한 방법은 큰 연산량과 많은 GPU 메모리를 사용한다는 문제점이 존재하며, 이는 심층 신경망 기반 기술들의 현실 적용 가능성에 제한이 되고 있다. 이에 본 논문에서는 제한된 연산량과 GPU 메모리 조건에서도 사용 가능한 다중 노출 HDR 경량화 심층 신경망을 제안한다. Kalantari Dataset에 대해 기존 HDR 모델들과의 성능 평가를 진행해 본 결과, PSNR-µ와 PSNR-l 수치에서 GPU 메모리 사용량 대비 우수한 성능을 보임을 확인하였다.
-
최근 딥러닝을 이용하여 객체 인식 학습을 위한 데이터셋을 구축하는데 있어 시간과 인력을 단축하기 위해 인조 데이터를 생성하는 연구가 진행되고 있다. 하지만 실제 환경과 관계없이 임의의 배경에 배치되어 구축된 데이터셋으로 학습된 네트워크를 실제 환경으로 구성된 데이터셋으로 테스트할 경우 인식률이 저조하다. 이에 본 논문에서는 실제 배경 이미지에 객체 이미지를 합성하고, 다양성을 위해 3차원으로 회전하여 증강하는 인조 데이터셋 생성 시스템을 제안한다. 제안된 방법으로 구축된 인조 데이터셋으로 학습한 네트워크와 실제 데이터셋으로 학습된 네트워크의 인식률을 비교한 결과, 인조 데이터셋의 성능이 실제 데이터셋의 성능보다 2% 낮았지만, 인조 데이터셋을 구축하는 시간이 실제 데이터셋을 구축하는 시간보다 약 11배 빨라 시간적으로 효율적인 데이터셋 구축 시스템임을 증명하였다.
-
본 논문에서는 시간 영역 오토인코더의 성능 개선을 위한 다중 대역 손실 함수를 제안한다. 기존의 시간 영역 오토인코더를 사용하는 압축 및 복원 모델은 저 대역 손실에 치중되어 고 대역 신호를 생성하지 못하고 다운 샘플링된 신호를 결과로 출력하는 문제점을 가진다. 이를 해결하기 위해 대역별로 손실을 분리하여 가중치를 조절할 수 있는 다중 대역 손실 함수를 제안한다. 제안하는 손실 함수가 적용된 오토인코더에 음성 신호를 입력하여 학습을 진행한 결과, 다운 샘플링이 발생하지 않으며 고 대역 신호가 복원되는 것을 스펙트로그램을 통해 확인하였다.
-
딥 러닝 모델 사용에 있어서, 일반적인 사용자가 이용할 수 있는 하드웨어 리소스는 제한적이기 때문에 기존 모델을 경량화 할 수 있는 프루닝 방법을 통해 제한적인 리소스를 효과적으로 활용할 수 있도록 한다. 그 방법으로, 여러 딥 러닝 모델들 중 비교적 파라미터 수가 많은 것으로 알려진 GAN 아키텍처에 네트워크 프루닝을 적용함으로써 비교적 무거운 모델을 적은 파라미터를 통해 학습할 수 있는 방법을 제시한다. 또한, 본 논문을 통해 기존의 SRGAN 논문에서 가장 효과적인 결과로 제시했던 16 개의 residual block 의 개수를 실제로 줄여 봄으로써 기존 논문에서 제시했던 결과와의 차이에 대해 서술한다.
-
홀로그램 비디오는 획득 방식에 따라서 다양한 종류의 홀로그램이 존재한다. 이들은 서로 다른 특성을 가지고 있기 때문에, 홀로그램 비디오를 압축하기 위한 방법도 매우 다양하다. 다양한 홀로그램 중에서, 우리는 상용 phase-only-typed SLM에 바로 디스플레이 할 수 있는 phase-only 홀로그램 비디오를 압축하기 위한 코덱을 제안한다. 이때 스케일링 기법을 이용하고, 스케일링 다운과 업으로 인한 화질의 손실을 복원하기 위해 딥러닝 모델을 사용하는 방법을 제안한다.
-
본 논문에서는 딥러닝을 기반으로 문서영상에서 표 안의 셀 경계선을 히트맵 회귀(heatmap regression)로 추정함으로써 표의 구조를 인식하는 방법을 제안한다. 표는 기본적으로 행과 열로 이루어져 있기 때문에, 제안하는 방법에서는 먼저 1 차원 벡터 형태로 세로/가로 방향의 행/열 경계선 위치를 찾고, 이에 병합된 셀을 처리하기 위해 경계선이 그어져야 할 위치를 2 차원으로 추정한 결과를 적용하여 온전한 표의 경계선을 구한다. 이러한 구조를 통해 제안하는 방법은 표의 행과 열에 대한 정보를 효과적으로 이용함과 동시에, 복잡한 후처리 없이 병합된 셀을 처리할 수 있는 이점을 보인다. 실험은 1 차원의 행/열 경계선 위치를 반영하는 두 가지 방식에 대해 PubTabNet[11]에 대해 진행하여 결과를 보였다.
-
본 논문은 화학 문서 내에 존재하는 표를 검출하는 문제를 다룬다. 우선 문서에서 표가 있을 만한 영역만을 남긴 후, 객체 검출 분야에서 좋은 성능을 보이는 Cascade Mask R-CNN을 이용하여 화학 문서 내 표 검출을 수행하였다. 더 나아가 감마 보정과 스캔 잡음을 이용하여 학습 데이터를 증강함으로써 다양한 스타일의 표들을 강인하게 검출할 수 있도록 하였다. 합성 화학문서와 실제 화학 문서에 대해 제안한 방법을 적용하여 표 검출 성능을 측정하였다.
-
As deep learning technologies becoming developed, realistic fake videos synthesized by deep learning models called "Deepfake" videos became even more difficult to distinguish from original videos. As fake news or Deepfake blackmailing are causing confusion and serious problems, this paper suggests a novel model detecting Deepfake videos. We chose Residual Convolutional Neural Network (Resnet50) as an extraction model and Long Short-Term Memory (LSTM) which is a form of Recurrent Neural Network (RNN) as a classification model. We adopted cosine similarity with hinge loss to train our extraction model in embedding the features of Deepfake and original video. The result in this paper demonstrates that temporal features in the videos are essential for detecting Deepfake videos.
-
최근 미디어의 발전으로 빠른 속도로 많은 양의 사람들의 얼굴이 포함된 사진, 동영상들이 인터넷에 업로드 되고 있다. 이러한 현상에 맞춰 인공지능을 활용한 얼굴 인식 기술의 놀라운 발전이 있었으나, 대규모 데이터셋에서 임의의 인물을 검색하는 경우에서는 연산량과 저장공간의 부담이 존재한다. 특히, 인터넷에 존재하는 수많은 불법 촬영물에서 피해자를 정확하고 신속하게 검색하기 위해서는 효율적인 얼굴 검색 시스템이 필요하다. 따라서, 본 논문은 얼굴 특징 추출과 클러스터링을 활용하여 방대한 양의 불법 촬영물 셋에서 피해자 동영상을 효율적으로 검색할 수 있는 기법을 제안한다. 불법 촬영물 동영상 검색 실험 환경을 만들기 위해 YouTube Faces [1] 데이터셋으로 유사 동영상 셋을 만들고 이 환경에서 실험을 진행한다. 얼굴 특징 추출 모델은 ResNet100 네트워크를 CosFace 손실함수와 Glint360K 데이터셋으로 학습시킨 모델 [2]을 사용한다. 추출된 얼굴 특징들을 HAC(Hierarchical Agglomerative Clustering) 알고리즘으로 클러스터링 한 후, 클러스터 대푯값을 통해 얼굴 검색 실험을 했을 때의 실험 결과를 분석한다.
-
본 논문에서는 딥러닝 기반 특징점 필터링 방법을 이용한 원격 탐사 영상에 대한 영상 정합 (Image Registration) 고속화 방법을 제안한다. 기존의 특징 기반 영상 정합 방법의 복잡도는 특징 매칭 (Feature Matching) 단계에서 발생한다. 이 복잡도를 줄이기 위하여 본 논문에서는 특징 매칭이 영상의 인공구조물에서 검출된 특징점으로 매칭되는 것을 확인하여 특징점 검출기에서 검출된 특징점 중에서 인공구조물에서 검출된 특징점만 필터링하는 방법을 제안한다. 딥러닝 기반 특징점 필터링은 영상 정합을 위하여 필수적인 특징점을 잃지 않으면서 그 수를 줄이기 위하여 인공구조물의 경계와 인접한 특징점을 보존하고, 축소한 영상을 사용하며, 영상 분할(Image Segmentation) 방법의 결과에서 생기는 영상 패치 경계의 잡음을 제거하기 위하여 영상 패치를 중복하여 잘라 냄으로써 정합 속도와 정확도를 향상시킨다. 영상 정합 고속화 방법을 의 성능을 검증하기 위하여 아리랑 3 호 위성 원격 탐사 영상을 사용하여 기존 특징점 추출 방법과 속도와 정확도를 비교하였다. 딥러닝 기반 영상 정합 방법을 기준으로 하여 비교하였을 때 특징점의 수를 약 82% 감소시키면서 속도를 약 9.17 배 향상시켰지만 정확도가 0.985 에서 0.855 으로 저하되었다.
-
본 논문에서는 뉴럴넷 기반 렌더링 비교 방식을 사용하여 가구 조립 설명서에 표기된 부품의 자세를 추정하는 방법을 제안한다. 제안하는 방법은 부품의 자세를 임의로 가정한 후, 가정한 자세로 투사한 부품의 영상과 설명서의 부품 영상을 비교하여 두 영상의 부품을 일치시키는 자세 변화를 추정하는 방식으로 진행된다. 또한, 설명서에 반복적으로 모델을 적용하여 부품의 자세를 점차적으로 정확하게 보정하는 방식을 사용하였으며, 네트워크의 구성 및 자세 추정에 사용되는 목표 함수를 다양하게 실험하여 성능을 비교하였다. 본 연구에선 IKEA 의 Stefan 의자 조립 설명서의 부품 데이터셋으로 실험을 진행하였으며, 해당 데이터셋에 대하여 제안하는 방법이 정확하게 자세를 보정함을 확인하였다.
-
본 논문에서는 입력에 따라 합성곱 레이어 간의 잔차 연결을 변화시키는 동적 잔차 연결을 활용해 고해상도 복원 (Super-resolution) 작업을 위한 경량 네트워크를 설계하는 방법을 제안한다. 먼저, 동적 잔차 연결을 입력에 따라 변화시킬 수 있도록 경량화된 (Lightweight) 모듈을 설계하는 방법을 제안한다. 또한 이렇게 설계한 모듈로부터 얻은 잔차 연결에 대한 정보를 토대로 네트워크를 설계하는 방법을 제시한다. 제안된 방법을 통해 설계된 고해상도 복원 작업을 위한 네트워크는 적은 파라미터로도 입력에 따라 적응적으로 네트워크의 구조를 변화시킬 수 있어 효울적으로 다양한 입력 영상을 처리할 수 있다.
-
본 논문에서는 스케치를 unsigned distance field로 변환하여 스케치 클래스 분류 네트워크의 입력으로 사용한다. 그리고 unsigned distance field scaling factor를 제안하여, unsigned distance field에 보존되는 스케치의 전역적인 정보와 국소적인 정보 사이에 상호조정이 가능하게 하였다. 다양한 scaling factor 값에 대해서 실험을 진행하여, 기존 unsigned distance field보다 국소적인 정보가 더 포함되어 있을 때 클래스 분류 성능이 향상되는 것을 확인하였다. 또한 스케치를 고밀도 데이터로 변환하여 사용했을 때 학습이 더 안정적으로 되고, 네트워크가 더욱 합리적인 근거로 스케치를 올바른 클래스로 분류한다는 것을 Smooth Grad-CAM++를 통해서 확인하였다.
-
일반적으로 딥러닝 기반의 객체 검출(Object Detection)기법은 합성곱 신경망(Convolutional Neural Network, CNN)을 통해 입력된 영상의 특징(Feature)을 추출하여 이를 통해 객체 검출을 수행한다. 최근 자연어 처리 분야에서 획기적인 성능을 보인 트랜스포머(Transformer)가 영상 분류, 객체 검출과 같은 컴퓨터 비전 작업을 수행하는데 있어 경쟁력이 있음이 드러나고 있다. 본 논문에서는 YOLOv4-CSP의 CSP 블록을 개선한 one-stage 방식의 객체 검출 네트워크를 제안한다. 개선된 CSP 블록은 트랜스포머(Transformer)의 멀티 헤드 어텐션(Multi-Head Attention)과 CSP 형태의 공간 피라미드 풀링(Spatial Pyramid Pooling, SPP) 연산을 기반으로 네트워크의 Backbone과 Neck에서의 feature 학습을 돕는다. 본 실험은 MSCOCO test-dev2017 데이터 셋으로 평가하였으며 제안하는 네트워크는 YOLOv4-CSP의 경량화 모델인 YOLOv4s-mish에 대하여 평균 정밀도(Average Precision, AP)기준 2.7% 향상된 검출 정확도를 보인다.
-
You, Do-jin;Kim, Su-ji;Kang, Ye-jin;Kim, Hwi-jun;Park, Eun-ji;Lee, Chae-hee;Chang, Yu-jin;Jeong, Min-hyuk;Kim, Sang-kyun 117
본 논문에서는 VR 기반 원격 회의 어플리케이션에서 높은 사용자의 몰입도를 제공하기 위한 상호작용 기능들을 제안한다. 우선, 향기 효과를 구성하여 감각 효과 제공을 통한 상호작용 방법을 제안한다. 다음으로 이모티콘과 아바타의 애니메이션을 통해 다양한 감정적 상호작용을 제안한다. 마지막으로 다수 사용자의 원활한 음성 커뮤니케이션을 위한 테이블 별 음성 채널 분리를 기능을 제안한다. 본 어플리케이션은 Oculus Quest 2 기기를 통하여 VR 환경에서 구현되었다. -
디지털화와 기술의 급격한 발전으로 방송 서비스도 고품질 서비스를 보다 편리하게 이용할 수 있도록 진화하고 있다. 이러한 변화하는 방송 환경에서 비장애인 대비 소외계층의 정보 접근성을 높이기 위한 연구에 대한 필요성이 증가하고 있다. 이러한 연구의 일환으로 UHD 자막 방송 서비스를 개선하기 위한 연구인 '감성표현 자막 서비스 기술' 연구를 진행하였다. 감성표현 자막 서비스 기술은 단순한 텍스트의 전달이 아닌 이미지와 폰트 스타일을 포함한 다양한 시각적 표현을 통해 청각장애인의 방송 내용에 대한 이해도를 향상시키기 위한 기술이다. 본 논문에서는 이러한 감성표현 자막 서비스를 소개하고 해당 서비스를 가능하게 하는 관련 기술과 시스템 구현 결과에 대하여 다룬다. 지상파 UHD 방송을 대상으로 개선된 형태의 자막 서비스를 제공하기 위한 핵심 시스템인 감성자막 편집기를 개발하였다. 감성자막 편집기는 화자의 감정 정보 등을 입력, 편집하고 편집된 감성자막을 영상과 싱크를 맞추어 재생하는 기술과 감성자막을 UHD 송출시스템으로 전송하는 시스템이다.
-
최근 증강현실(AR), 가상현실(VR), 혼합현실(XR) 분야가 각광받고 있으며, 3차원 공간과 사물을 인식하여 다양한 콘텐츠 서비스를 제공하는 기술이 개발되고 있다[1]. 3차원 공간과 사물을 인식하기 위해 가장 널리 사용되는 방법은 RGB 카메라를 이용하는 것이다[2]. RGB 카메라를 이용하여 촬영한 영상을 분석한 후 분석된 결과를 이용하여 카메라와 환경의 관계를 추정한다. 시차는 사용자가 촬영한 복수의 이미지에서 특징점의 차이를 이용하여 계산된다. 실험적으로 구한 깊이에 대해 계산된 디스패리티에 시차 정보와 스케일링 정보를 더하여 3차원 특징점을 생성한다. 제안하는 알고리즘은 단일 모바일 디바이스에서 획득한 영상을 사용한다. 특징점 매칭을 기반으로한 디스패리티 추정과 시차조정 3D 특징점 생성이다. 실제 깊이 값과 비교했을 때, 생성된 3차원 특징점은 실측값의 10% 이내의 오차가 있음을 실험적으로 증명하였다. 따라서 제안하는 방법을 이용하여 유효한 3차원 특징점을 생성할 수 있다.
-
MPEG(Moving Picture Experts Group) 비디오 그룹은 사용자에게 움직임 시차(motion parallax)를 제공하면서 3D 공간 내에서 임의의 위치와 방향의 시점(view)을 렌더링(rendering) 가능하게 하는 6DoF(Degree of Freedom)의 몰입형 비디오 부호화 표준인 MIV(MPEG Immersive Video) 표준화를 진행하고 있다. MIV 표준화 과정에서 참조 SW 인 TMIV(Test Model for Immersive Video)도 함께 개발하고 있으며 점진적으로 부호화 성능을 개선하고 있다. TMIV 는 여러 뷰로 구성된 방대한 크기의 6DoF 비디오를 압축하기 위하여 입력되는 뷰 비디오들 간의 중복성을 제거하고 남은 영역들은 각각 개별적인 패치(patch)로 만든 후 아틀라스에 패킹(packing)하여 부호화되는 화소수를 줄인다. 이때 아틀라스 비디오에 패킹된 패치들의 위치 정보를 메타데이터로 압축 비트열과 함께 전송하게 되며, 본 논문에서는 이러한 패킹 정보를 보다 효율적으로 표현하기 위한 방법을 제안한다. 제안방법은 기존 TMIV10.0 에 비해 약 10%의 메타데이터를 감소시키고 종단간 BD-rate 성능을 0.1% 향상시킨다.
-
본 연구의 목적은 모바일 헬스케어 앱의 사용자 경험 요인을 분석하여 제안하는 데 있다. 의료 관련 앱은 주로 의료 서비스 제공자 중심의 기능으로 디자인되어 개인의 서비스 접근성이 낮으며, 데이터 활용에 대한 고려가 부족하다. 개인이 주도적으로 건강 데이터를 활용하기 위해서는 개인 - 건강 데이터 커뮤니케이션을 고려한 앱 개발이 필수적이며, 이와 관련된 사용자 경험을 평가하는 도구가 필요하다. 먼저 문헌 조사를 통해 사용 편의성, 사용 만족도, 정보 구조, 유용성, 정보 품질, 심미성 6가지 사용자 경험 요인을 수집하였다. 이후, '나의건강기록' 앱을 대상으로 사용자 심층인터뷰를 진행하여 모바일 헬스케어 앱 사용자 경험에 영향을 주는 요인을 분석하였다. 심층인터뷰 결과, 사용자 경험 요인에 정보의 이해용이성 요인이 새롭게 도출되었다. 정보의 이해용이성은 건강 정보를 알기 쉽게 제공하여, 사용자들이 어려움 없이 정보를 이해할 수 있는 능력을 의미하고 건강정보이해능력과 관련이 높다. 각 도출된 요인은 정보 주체(사용자)의 편의성, 활용성, 유지율을 높일 수 있는 모바일 헬스케어 앱을 디자인하는 데 유용할 것으로 기대된다.
-
XR(가상 및 확장현실)에서의 리얼타임 그래픽은 조명이 제 역할을 하지 못하면 인물이 공간감이 느껴지지 않거나 스킨톤이 맞지 않아 이질감을 초래한다. 본 논문에서는 Art-Net 시스템을 활용하여 실제 조명과 가상조명에서의 배경 및 인물의 컬러를 동기화하는 방법을 제안하였다. 제안된 Art-Net 시스템을 통해 인물의 공간감을 향상 시킬 수 있을 뿐만 아니라 보는 이의 몰입감을 높였다.
-
3 차원 휴먼 자세 추정 모델은 다시점 모델과 단시점 모델로 분류될 수 있다. 일반적으로 다시점 모델은 단시점 모델에 비하여 뛰어난 자세 추정 성능을 보인다. 단시점 모델의 경우 3 차원 자세 추정 성능의 향상은 많은 양의 학습 데이터를 필요로 한다. 하지만 3 차원 자세에 대한 참값을 획득하는 것은 쉬운 일이 아니다. 이러한 문제를 다루기 위해, 우리는 다시점 모델로부터 다시점 휴먼 자세 데이터에 대한 의사 참값을 생성하고, 이를 단시점 모델의 학습에 활용하는 방법을 제안한다. 또한, 우리는 각각의 다시점 영상으로부터 추정된 자세의 일관성을 고려하는 다시점 일관성 손실함수를 제안하여, 이것이 단시점 모델의 효과적인 학습에 도움을 준다는 것을 보인다.
-
본 논문에서는 꾸준히 연구되어 오던 이미지 복원 문제에서 초해상화와 인페인팅이라는 복합적 이미지 복원을 동시에 처리하는 해결 방법을 제안한다. 초해상화는 국지적 픽셀 정보를 이용하여 고해상도의 영상을 복원하고, 인페인팅은 이미지 전체 정보를 활용하여 영상 내 비어 있는 영역을 생성해야 하므로, 이러한 두 가지 영상 복원 기법을 동시에 수행하는 것은 상당히 어려운 문제이다. 그렇기에 인페인팅과 초해상화는 이미지 복원에서 널리 활용되는 기술인 만큼 동시에 해결할 수 있는 기법에 대한 수요는 있음에도 지금까지 거의 연구되지 않았다. 본 논문은 초해상화 및 인페인팅 합동 처리에 있어 복합적인 정보를 모두 다뤄야하는 네트워크가 서로의 성능을 저하시키지 않도록 개략적 복원 네트워크 (Coarse network), 디테일 복원 네트워크 (Refinement network), 초해상화 네트워크 (SR network)로 분리하여 초해상화 및 인페인팅 합동 처리를 수행하며, 각 단계마다 결과 영상을 얻어 스케일 별 정답 영상과 손실함수를 계산하여 복합적인 성능을 올릴 수 있는 방법을 제시한다. 또한 순차적 단일 모델에 비하여 인페인팅과 초해상화를 합동 학습하는 제안 모델이 개선된 화질의 결과 영상을 획득할 수 있다는 것을 실험적으로 보인다.
-
Variable range of focal length of Moiré lens is designed to change the phase pattern, which is varifocal lens system using two thin layers with Moiré pattern and suitable to applied to AR/VR system because of the relatively simple structure, large aperture size, and wide variable range. We analyze the change of focal length region according to the phase pattern and verify the design to make the prototype patterns using DOE.
-
최근 온라인 교육 서비스 시장은 코로나 19 로 인해 수요가 급증하였다. 또한, 이동통신 기술의 발달로 그 규모가 확대되었고, 사용자는 시간과 장소에 구애 받지 않고 원하는 강의를 시청할 수 있게 되었다. 그러나 온라인 교육 환경에서는 아이디 공유를 통해 강의를 부정 시청하는 사례가 빈번하게 발생하고 있다. 특히나 하나의 계정을 다수의 사용자가 공유하거나 타인에게 양도함으로써 온라인 교육 서비스 업체가 손해를 입거나 사용자의 개인정보가 유출될 수 있다. 따라서 본 논문에서는 온라인 강의 플랫폼에서 본인 인증을 강화하고 강의 부정 시청을 방지할 수 있는 시스템을 제안한다.
-
최근 Kotlin, Swift 와 같은 목표 기능에대해 최적화된 다양한 고급 컴퓨터 언어들이 출범함에 따라 이에대한 중요도와 이해력이 필요하다. 그에따라 고급 컴퓨터 언어 제작의 프로토타입 제작에 의의를 두고, 전세계 사람들에게 통용되는 사칙연산에 기반한 수학기호 코드 언어를 해석하는 프로그램을 구현한다. 단순한 계산기라기보다는. 수학기호 문자를 컴파일하여 프로세스로 변환하는 컴파일러로 접근하고 특성파악, 구상, 구현 과정을거쳐 본 프로그램을 제작하고 고급 컴퓨터 언어에 대한 저자의 이해를 서술한다.
-
고성능 딥러닝 모델은 학습과 추론 과정에서 고비용의 전산 자원과 많은 연산량을 필요로 하여 이에 따른 개발 환경과 많은 학습 시간을 필요로 하여 개발 지연과 한계가 발생한다. 따라서 HW 또는 SW 개선을 통해 파라미터 수, 학습 시간, 추론시간, 요구 메모리를 줄이는 연구가 지속 되어 왔다. 본 논문은 EfficientNet에서 사용된 Linear Bottleneck을 변경하여 정확도는 소폭 감소 하지만 기존 모델의 파라미터를 55%로 줄이는 경량화 모델을 제안한다.
-
Depth-wise separable convolution 은 컴퓨터 자원이 제한된 환경에서 기존의 standard convolution을 대체하는데 강력하고, 효과적인 대안으로 잘 알려져 있다.[1] MobileNetV2 에서는 Inverted residual block을 소개한다. 이는 depth-wise separable convolution으로 인해 생기는 손실, 즉 channel 간의 데이터를 조합해 새로운 feature를 만들어낼 기회를 잃어버릴 때, 이를 depth-wise separable convolution 양단에 point-wise convolution(1×1 convolution)을 사용함으로써 극복해낸 block이다.[1] 하지만 1×1 convolution은 채널 수에 의존적(dependent)인 특징을 갖고 있고, 따라서 결국 네트워크가 깊어지면 깊어질수록 효율적이고(efficient) 가벼운(light weight) 네트워크를 만드는데 병목 현상(bottleneck)을 일으키고 만다. 이 논문에서는 channel-wise squeeze and excitation block(CSE)을 통해 1×1 convolution을 부분적으로 대체하는 방법을 통해 이 병목 현상을 해결한다.
-
코로나 19로 인한 사회적 거리 두기가 계속되면서 온라인 쇼핑을 이용하는 고객이 증가했다. 그중 원활한 소통이 가능한 라이브 커머스 시장이 크게 성장했다. 모바일 기기만 있으면 시간과 장소의 제약 없이 라이브 커머스를 이용할 수 있지만 제한된 정보제공과 장애인을 위한 서비스가 없다는 것이 단점이다. 따라서 본 논문에서는 다양한 정보를 제공하기 위한 멀티뷰 화면을 송출하고 TTS, 딥러닝 기반의 STT 기술을 활용해 시·청각 장애인을 위한 기능을 포함한 새로운 형태의 라이브 커머스 플랫폼 및 시스템 구조를 제안한다.
-
대부분의 영상에 존재하는 그림자는 다양한 딥러닝 기반 영상처리 작업을 수행함에 방해가 되는 요소이다. 영상 내 그림자는 다양한 광원과 다양한 물체들의 상호작용에 의해 복잡하게 생성되며 이를 제거하는 것을 통해 다양한 Computer Vision task의 성능을 향상시킬 수 있다. 이 논문에서는 영상 내 그림자를 감지하여 Attention mechanism을 통해 그림자를 제거하고 Recurrent 하게 작업을 수행하며 복잡한 그림자를 단계적으로 제거하는 네트워크를 구현하였으며, Recurrent 한 네트워크에서 이전 단계의 데이터를 다음 단계에 효율적으로 전달하는 방식에 대한 실험을 수행하였다.
-
최근 구글, 아마존, LOD 등을 중심으로 지식 그래프(Knowledge graph)와 같은 검색 고도화 연구가 활발히 수행되고 있다.그러나 대규모 지식 그래프 인덱싱 시스템에서 데이터가 어떻게 임베딩(embedding)되고, 딥러닝(deep learning) 되는지는 상대적으로 거의 연구가 되지 않고 있다. 이에 본 논문에서는 임베딩 모델에 대한 성능평가를 통해 데이터셋에 대해 어떤 모델이 가장 좋은 지식 임베딩 방법을 도출하는지 분석한다.
-
최근 시맨틱 웹은 Linked Open Data (LOD)의 사용으로 웹 분야에서 주목을 받고 있다. 이에 LOD 등을 중심으로 검색 고도화 연구가 활발히 수행되고 있다. 그러나 LOD 클라우드를 이용한 효율적인 검색 방법이나 활용 방안을 위한 깊이 있는 연구는 상대적으로 매우 부족한 상황이다. 따라서 본 논문에서는 LOD 클라우드를 효율적으로 구성하기 위한 인덱스 구조를 제안하고자 HYBRID R*-tree 인덱스 구조와 단일 인덱스 구조의 성능을 비교하여 평가한다.
-
4차 산업혁명이 시작된 이래로 다양한 산업 분야에서 AI가 활용되고 있고, 그 중에서도 컴퓨터 비전 분야에서 딥러닝 기술이 각광받고 있다. 하지만 딥러닝 기술은 높은 전문 지식이 요구되어 관련 지식이 없는 일반인들은 활용하기 어렵다. 본 논문에서는 AI 관련 배경지식이 없는 사용자들도 UI를 통해 쉽게 이미지 분류 모델을 학습시킬 수 있는 노 코드 플랫폼에 관하여 기술하고, django 프레임워크를 이용해 웹 개발과 딥러닝 모델 학습을 통합 개발을 위한 아키텍처와 방향성을 제시하고자 한다. 사용자가 웹서버에 업로드한 이미지들을 웹 인터페이스를 통해 라벨링 하여 학습 데이터를 생성한 후, 이 데이터를 사용하여 모델을 학습시킨다. CNN 모델에 데이터를 학습시키는 과정과 생성된 모델 기반으로 이미지 예측하는 모듈을 통해 전문지식이 없는 사용자가 딥러닝 기술에 대해 쉽게 이해하고 이용하는 것을 기대할 수 있다.
-
현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.
-
본 논문에서는 드론의 비행 장소와 온도 및 습도에 영향을 받지 않는 적외선 기반 깊이 카메라로부터 얻어진 깊이영상을 분석하여 지면 영역을 찾고 AGL(Above Ground Level) 단위의 고도를 측정하는 방법을 제안한다. Decimation filter 와 Median filter 를 적용하여 잡음 및 빈 데이터들을 제거한 깊이영상으로부터 RANSAC (RANdom Sample Consensus) 기반 평면 모델 추정 방법을 이용하여 지면 영역과 이에 대한 평면의 방정식을 유추하고 현재 위치와의 거리를 계산한다. 성능 평가를 위해 Lidar 센서와 비교한 결과, 제안 방법이 지면에 위치한 장애물에 영향을 더 적게 받으며, 자세 정보와 독립적으로 고도를 측정할 수 있었다.
-
현재 IoT의 발달로 인해서 많은 위치기반 서비스들이 개발되고 있고 이러한 서비스들을 위해서는 사용자의 정확한 위치 획득이 요구되고 있다. 현재 실내 환경에서 사용자의 위치 획득을 위한 여러 장치들 중 블루투스 비콘이 널리 사용되고 있는데, 비콘은 저전력으로 수명이 길고 설치하기 용이한 장점이 있지만 비콘으로부터 수신되는 신호 자체의 불안정성과 수신신호에 여러 잡음들이 섞이는 문제점 때문에 측위 결과에 큰 오차가 발생하게 되는 단점도 있다. 한편, 최근에는 보다 원할한 위치기반 서비스 제공을 위하여 UWB 기능이 스마트폰에 내재되어 나오면서 사용자에게 점차 보급되는 추세이다. UWB는 블루투스 비콘에 비해 가격이 비싸고 전력소모가 많지만 측위에서의 높은 정확도를 얻을 수 있다고 알려져 있다. 본 논문에서는 비콘과 UWB의 두 방식을 이용하여 실내측위를 수행할 때 실제 측정을 통해서 실내 전파수신 환경을 분석하고, 측정된 데이터를 바탕으로 실내 전파수신 환경을 모델링하여 시뮬레이션을 수행하였다. 측정 데이터와 시뮬레이션 결과의 정확도를 상호 분석하였으며, 블루투스 비콘과 UWB 방식의 실내측위 수행결과를 측정과 시뮬레이션 결과를 바탕으로 비교, 분석하였다.
-
본 논문에서는 Openpose의 신뢰도를 이용해 3D pose estimation의 정확도를 높이는 방법을 제안한다. 모델의 앞뒤양옆 네 방향에서 pose estimation의 진행하기 위해 3D 모델에 AABB(Axis Aligned Bound Box)를 생성한 다음, box의 네 옆면으로 모델을 투영시킨다. 각 면에 투사된 2D image에 대해 Openpose 2D pose estimation의 진행한다. 네 면에서 생성한 2D 스켈레톤들의 평균을 통해 3D 상의 교차점을 획득한다. Openpose에서 제공하는 신뢰도(confidence)를 이용하여 잘못 나온 2D 관절을 제외하는 것으로 더 정확한 pose estimation의 수행하였다. 실험적인 방법을 통해 신뢰도 0.45 이상의 값을 가지는 joint 만을 사용해 3D 교차점을 구함으로써 3D pose estimation의 정확도를 높였다.
-
three degree of freedom (3DoF), three degree of freedom plus (3DoF+), six degree of freedom(6DoF) 등 몰입형 비디오의 높은 몰입감을 제공하기 위해 다중 비디오 영상을 효율적으로 처리하는 기법이 활발히 연구되고 있다. 이를 위해 원본의 몰입형 비디오가 입력되면 기본 시점 영상과 추가 시점 영상에서의 중복을 제거하고 기본 시점(basic view)에서는 보이지 않지만 추가 시점(additional view)에서는 보이는 영역을 추출하는 프루닝 과정이 이뤄지는 부호기에서의 부호화 모드 결정은 매우 중요하다. 본 논문은 test model for immersive video (TMIV)의 모드 중 하나인 MPEG immersive video (MIV) view mode 를 통해 만들어진 프루닝 (pruning) 그래프에서 선택된 시점들을 활용하여 뷰 간 중복성을 제거할 수 있는 효율적인 부호화 구조로 클러스터를 기반으로 병렬적으로 부호화하는 클러스터 기반 정렬 기법을 제안한다. 선택된 시점들을 인덱스 순서에 따라 부호화하는 기존 방법에 비해 제안하는 방법은 peak signal-to-noise ratio (Y-PSNR)에서 평균 3.9%의 BD-rate 절감을 보여주었다. 본 연구는 또한 더 객관적인 품질 측정을 위해 immersive video peak signal-to-noise ratio (IV-PSNR)에 의한 비교 결과도 함께 제공하며, 참조 순서에 맞게 정렬한 프루닝 기반 정렬 기법과의 비교도 함께 제공한다.
-
홀로그램(Hologram)은 3차원 물체에서 나오는 빛의 정보를 제어하는 기술이다. 현재는 컴퓨터 생성 홀로그램(CGH)으로 생성한 디지털 홀로그램에 관한 연구, 특히 물체에서 나오는 빛의 정보를 최대한 기록하고 재현하여 디지털 홀로그램의 해상도를 향상 시키려는 연구가 활발히 진행되고 있다. 이에 본 논문에서는 고해상도 홀로그램 영상을 얻기 위해 딥러닝 기반 초해상도(Super Resolution) 네트워크를 훈련 및 최적화하여, 저해상도 위상 홀로그램 영상으로부터 높은 화질의 홀로그램 영상을 재현하는 고해상도 위상 홀로그램 영상을 생성하는 것을 목표로 한다. 이때 위상 홀로그램 영상의 특성을 이용한 순환 손실 함수(Circular loss function)를 새롭게 제안하며, 기존의 이미지 초해상도 신경망 모델을 학습시킬 때 자주 사용하는 L1 손실 함수와 비교했을 때 약 0.13dB 정도의 성능 향상이 있었다.
-
몰입형 고품질 가상 현실 영상 스트리밍을 위한 360도 영상 부호화 및 전송 기술 중 하나로 사용자 시점 기반 타일 스트리밍 기법이 활발히 연구되고 있다. 360도 영상은 용량이 크기 때문에 개별 타일 기반 스트리밍 방법을 사용해 사용자 시점만 보내는 것이 효율적이다. 본 논문은 시점 기반 가상 현실 영상 복호화 시스템을 위한 복호기 적응적 타일 클러스터링 알고리즘을 제안한다. 제안하는 방법은 클라이언트의 복호기가 최대로 복호화 가능한 해상도를 탐색한 후, 사용자 시점 데이터와 복호기 적응적 타일 클러스터링 알고리즘을 이용해 클러스터화할 복수 개의 사용자 시점 타일들의 목록을 생성한 후, 타일 병합기를 이용해 타일들을 병합하여 클러스터 비트스트림을 생성한다. 이후 클라이언트는 병합된 클러스터 비트스트림들을 복호화한 후 사용자 시점을 생성한다. 제안하는 방법을 이용하면 클라이언트의 복호기 환경에 제약받지 않는 복호화가 가능하며, 제안하는 방법 중 하나인 4K_clustering 방법의 경우 8%의 복호화 속도 개선 효과를 얻을 수 있어 몰입형 고품질 가상 현실 영상을 위한 실시간 타일 스트리밍이 가능하다.
-
최근 전동 킥보드 사용량이 크게 늘었으나, 다른 이동수단 대비 낮은 안정성과 사용자들의 헬멧 착용에 대한 인식 부족으로 인해 사고의 위험성이 큰 상황이다. 이에 대하여 정부는 헬멧 착용을 강제하는 법률을 제정하였으나, 경찰력의 한계에 따른 단속 미비로 여전히 헬멧 착용율은 낮다. 본 연구는 YOLO v3 알고리즘을 통해 학습시킨 딥러닝 모델을 활용하여 도로 상황을 촬영한 동영상 내에서 헬멧 착용자와 미착용자를 구분하고 미착용자 탐지 시 알람을 제공하는 시스템을 제시한다. 기존 YOLO 알고리즘 및 신경망을 적용하되, 전동 킥보드 데이터를 새로 수집하고 클래스를 구분하여 학습시켰다. 소수의 탐지 및 분류 오류를 보정하기 위해, 히스토그램 간 유사도를 측정해 최종적으로 객체를 추적 및 확정하고, 객체에 대한 헬멧 착용 여부를 통계적으로 확인한다.
-
Kim, Jiwoon;Kim, Dahui;Kim, Dong Hyun;Jang, Seung Soon;Cho, Hee Je;Han, Yeoung Jin;Kim, Jeongchang 205
본 논문에서는 딥러닝 (deeo learning)을 이용하여 x, y, z 세 축의 가속도계 측정 값을 이용하여 5가지 동작을 분류하고, 5가지의 동작이 아닌 다른 동작이 들어왔을 때 아닌 동작이라 판단할 수 있는 알고리즘을 제시한다. 제안하는 알고리즘으로는 동작 데이터 각 샘플 마다의 동작을 분류한 개별 판단을 적용하여 5가지 동작을 분류하고 5가지 동작이 아닌 다른 동작이 들어왔을 때 검출하도록 한다. -
본 논문에서는 합성곱 신경망을 활용하여 영상에서 마스크 착용 및 미착용 상태를 탐지하는 방법을 제안한다. 코로나바이러스감염증-19(COVID-19)의 유행에 따라 감염 및 확산방지를 위해 마스크 정상적 착용이 요구되는데 몇몇 사람들은 이를 지키지 않고 있으며 현재의 감시 시스템은 입구에서 마스크 착용 여부를 검사하는 방식으로 작동될 뿐 공간에 입장한 다음 착용 여부를 알 수 없다. 제안하는 방법은 합성곱 신경망을 통해 영상에서 얼굴을 탐지하여 얻은 데이터를 이용하여 다수사람들의 마스크 착용 및 미착용 상태를 판별하는 방법으로 설계하였다.
-
In a society with Covid-19 as part of our daily lives, we had to adapt ourselves to a new reality to maintain our lifestyles as normal as possible. An example of this is teleworking and online classes. However, several issues appeared on the go as we started the new way of living. One of them is the doubt of knowing if real people are in front of the camera or if someone is paying attention during a lecture. Therefore, we encountered this issue by creating a 3D reconstruction tool to identify human faces and expressions actively. We use a web camera, a lightweight 3D face model, and use the 2D facial landmark to fit expression coefficients to drive the 3D model. With this Model, it is possible to represent our faces with an Avatar and fully control its bones with rotation and translation parameters. Therefore, in order to reconstruct facial expressions during online meetings, we proposed the above methods as our solution to solve the main issue.
-
본 논문은 3D 공간에서 사용자를 추출한 뒤, 체적 정보 분석을 통한 3D 스켈레톤(skeleton) 분석 과정을 통해 정확도 높은 다수 사용자의 위치 추적 기술에 대해 연구하였다. 이를 위하여 YOLO(You Only Look Once)를 활용하여 실시간으로 객체를 검출(Real-Time Object Detection)한 뒤 Google의 Mediapipe를 활용해 스켈레톤 추출, 스켈레톤 정규화(normalization)를 통한 스켈레톤의 크기 및 상대적 비율 계산, RGB 영상 스케일링(Scaling) 후 주요 마디 인접 영역의 RGB 색상 정보를 추출하는 방법을 통해 정확도가 개선된 높은 성능의 다중 사용자 추적 기술을 연구하였다.
-
본 논문에서는 CAR(content adaptive resampler)로 축소된 저해상도 이미지를 직접 다른 모델에 여러가지 방식으로 훈련을 시켜 성능을 개선시키고자 하였다. 본 논문에서는 단일 영상 super resolution 에 관하여 여러 기술이 존재하는 상황에 더 나은 기술을 테스트하려 하고 그를 위해 과거의 모델들에 대한 이해가 필요하여 이를 구현하였다. 현재 가장 뛰어난 성능을 보이고 있는 모델 중의 하나인 CAR 에서 복원 전 이미지를 사용하여 훈련을 시키면 더 나은 성능의 모델을 만들 수 있을 것이라고 가정하고 다양한 훈련을 통해 성능을 개선시키고자 하였다.
-
본 연구는 Convolution Neural Network에서 사용되는 Convolution 연산기를 Systolic Array를 이용하여 구현한다. 두 개의 층으로 나뉜 연산기에 고정 소수점 값을 가지는 커널 값과 연속적인 입력을 넣고 정확한 출력이 나오는지 확인한다. 연산기 구현은 Verilog HDL로 하였으며 대조 연산은 Python에서 진행하였다.
-
최근 코로나19로 인하여 건물의 출입 관리가 엄격해지고 있으며, 대규모 회의가 진행될 경우 많은 사람들의 출입으로 출입 관리에 어려움이 있다. 이에 본 논문은 이러한 어려움을 해결하기 위하여, 얼굴 인식 기반 회의 참가자 관리 시스템을 제안한다. 회의 개설자가 초대한 회의 참가자들은 얼굴 인식을 통해 본인의 신원을 인증하며, 인증된 사용자는 참가자 목록, 회의록과 같은 회의 정보를 열람할 수 있는 권한을 획득한다.
-
최근 모바일 비디오 스트리밍 서비스의 이용자 수가 증가하고 있다. 이에 따라 모바일 환경에 적합한 DASH 비디오 스트리밍 메커니즘이 연구되었고, 이것을 DQN 기법에 의해 개선한 알고리즘은 모바일 네트워크 환경에서 적절한 비디오 품질 선택을 통해 버퍼링을 크게 줄일 수 있었다. 그러나 이는 모바일 요금제로 비디오 스트리밍 서비스를 이용하는 사용자들에게 안정적인 서비스를 제공하기 어렵다. 이에 본 논문은 기존의 DQN 기법에 의한 알고리즘을 발전시켜 사용자의 모바일 요금제에 적합한 비디오 품질을 선택하는 알고리즘을 연구하고 성능 실험 결과를 분석한다. 또한 이 알고리즘을 전체 모바일 비디오 스트리밍 시스템과 통합하여 이용하도록 제안한다.
-
본 논문은 스테레오 카메라 영상으로부터 물체의 절대 위치를 측정하는 영상 기반 거리 측정 기술의 최적화를 목표로 한다. 기존의 openCV 라이브러리를 이용한 거리 측정 방식은 전체 영상에 대해 깊이를 계산하는 방식이다. 이에 본 논문은 YOLOv4 모델을 적용하여 검출된 특정 물체에 대해서 거리를 추출하여 속도를 향상시키는 방식을 제안하고 기존의 방식과 비교하여 성능을 평가해 보았다.
-
최근 휴먼-컴퓨터 인터페이스, 가상현식, 증강현실, 지능형 자동차등에서 얼굴표정 인식에 대한 연구가 활발히 진행되고 있다. 얼굴표정인식 연구는 대부분 맨얼굴을 대상으로 하고 있지만 최근 코로나-19로 인해 마스크 착용한 사람들이 많아지면서, 마스크를 착용했을 때의 표정인식에 대한 필요성이 증가하고 있다. 본 논문은 마스크를 착용했을 때에도 실시간으로 표정 분류가 가능한 시스템개발을 목표로 구동에 필요한 알고리즘을 조사했고, 그 중 Tiny-YOLOv3와 ResNet50 알고리즘을 이용하기로 했다. 얼굴과 표정 데이터셋 등에서 모은 이미지 데이터를 사용하여 실행해 보고 그 적절성 및 성능에 대해 평가해 보았다.
-
코로나 19로 대학교 강의들이 비대면 방식으로 전환되고 있는데, 기존의 교수학습 지원센터는 웹 환경만을 제공한다. 따라서 본 논문에서는 모바일 애플리케이션을 통해 수강생들이 교수학습 지원센터에 쉽게 접근할 수 있도록 도와주는 시스템을 개발하였다. 애플리케이션에서 학생들의 강의 시간 및 시험, 과제 등의 일정을 관리해주고, 푸시 알림을 제공해주는 학습 도우미의 역할을 수행한다. 뿐만 아니라 직관적인 인터페이스, 다크 모드, scroll-to-top 버튼 등을 고려한 디자인으로 사용자의 편리함을 도모한다. 학습 도우미 애플리케이션의 가장 핵심기능 중 하나는 머신러닝 기법 중 비선형 회귀(Non-Linear Regression)을 이용해 성적 데이터를 분석해주는 차별화된 기능이다. 이를 위해 최종적인 성적을 종속변수, 일정 기간까지의 성적을 독립변수로 설정하여 기존의 성적 데이터를 바탕으로 종속변수인 최종성적을 랜덤 포레스트 비선형 회귀분석으로 예측하는 알고리즘을 제시하고자 한다.
-
코로나가 지속됨에 따라 많은 사람들이 언택트 생활 방식에 적응하고 있다. 기존 홈쇼핑과는 달리 실시간으로 상호 소통이 가능한 라이브 커머스가 등장하면서 쇼핑문화는 점차 발전하는 추세이다. 본 논문에서는 성장하는 라이브 커머스 시장에 맞춰 간편함을 갖춘 동시에 더 나은 품질의 방송을 제공하고자 4차 산업혁명의 산물인 '드론'을 접목하며 새로운 차원의 라이브 커머스 시스템을 구현하고자 한다.
-
최근 가상현실과 공간에 대한 다양한 연구들이 진행되면서 메타버스(Metaverse)를 중심으로 다양한 연구들이 진행중에 있다. 본 연구는 음악을 정량화하여 발생한 데이터를 이용하여 다양한 가상의 도시공간을 생성하는 작업을 진행한다. 이렇게 생성된 작업은 하나의 음악을 2-3명의 연주자가 연주한 내용을 바탕으로 진행이 되며, 분석 방법은 기존 연구 중 하나인 '뮤직 스카이라인(Music Skyline)'과 '크레페(CREPE)' 등의 방식을 통해 이루어지게 된다. 향후 추가 연구로서 이러한 부분들이 보완되고 개선된다면, 다양한 음악 정보를 활용한 자신만의 도시를 컴퓨터 기술이 아닌 음악 작곡만으로도 가능하도록 플래폼화 하고, 그 근거를 찾아내는데 많은 노력이 필요할 것으로 보인다.
-
본 작품은 쇼핑의 발달 및 코로나로 인한 언택트 및 비대면 수요의 증가와 더불어 시간과 공간의 제약을 받지 않고 서비스를 이용할 수 있는 장점을 살려 만들었다. 어플리케이션에서 서버와의 연동을 통해 정보를 주고받으면서 웹페이지 안에 3D 모형과 각종 기능을 확인할 수 있고 이를 스마트폰 모바일 기기에서 간편하게 확인이 가능함으로써 다양한 쇼핑 기능들을 시각적으로 확인하고 활용할 수 있다.
-
Choi, Sang-gil;Hwang, Seong-woo;Jeon, Ho-jin;Kim, Woo-hyeok;Jeong, Do-hyeon;Lee, Da-yeon;Lee, Sang-un 248
방송장비가 네트워크 기술을 만나 진화하고 있다. 네트워크 케이블로 초고해상도 영상과 다채널 음향 데이터를 송·수신하고, 다수의 방송장비 제어를 가능케 하는 NDI(Network Device Interface)의 등장으로 방송장비와 네트워크 기술이 융합되고 있다. 최근 국내외 여러 기업이 네트워크 기반의 방송 솔루션을 출시하고 있어, 관련 산업계는 향후 방송장비 시장이 네트워크 기반으로 개편될 것으로 전망하고 있다. NDI는 뉴텍(NewTek)에서 개발한 IP 전송 프로토콜의 일종으로 무(無)손실, 압축, 제로(Zero) 딜레이, 멀티캐스트 등의 특징을 갖고 있다. 기존 비디오 전송 프로토콜이었던 SDI(Serial Device Interface)와는 다르게 네트워크에서 방송장비를 운용할 수 있도록 만들어진 프로토콜이다. 본 논문에서는 NDI를 기반으로 앞으로 다가올 포스트 코로나 시대에 대응할 효율적인 방송 환경을 제안하고자 한다. -
코로나19 바이러스로 인해 이전에는 부가적으로 이루어졌던 온라인 공연이 오프라인 공연의 대안으로 떠오르며 비대면을 일컫는 '언택트(Untact)'에 온라인을 통한 외부와의 '연결(On)'을 더한 개념인 온택트 공연의 사례가 늘어나고 있다. 그러나 오프라인 콘서트에 직접 참여하여 느낄 수 있는 공연자와 관객 간의 상호작용을 전달하기는 어렵다. 이에 본 논문에서는 'ZOOM'이라는 화상회의 플랫폼을 활용하여 현장감을 더하고, 기존의 중계시스템에서 사용하던 SDI 방식보다 더 간단하고 효율적인 NDI(Network Device Interface) 기술을 적용한 온택트 중계시스템을 제안한다.
-
본 논문에서는 사람을 키넥트로 촬영하여 3 차원 아바타로 복원하여 연예인처럼 춤을 추게 하는 기술을 설계 구현하였다. 기존의 순수 딥러닝 기반 방식과 달리 본 기술은 3 차원 인체 모델을 사용하여 안정적이고 자유로운 결과를 얻을 수 있다. 우선 인체 모델의 기하학적 정보는 3 차원 조인트를 사용하여 추정하고 DensePose를 통하여 정교한 텍스쳐를 복원한다. 여기에 3 차원 포인트-클라우드와 ICP 매칭 기법을 사용하여 의상 모델 정보를 복원한다. 이렇게 확보한 신체 모델과 의상 모델을 사용한 아바타는 신체 모델의 rigged 특성을 그대로 유지함으로써 애니메이션에 적합하여 PSY 의 <강남스타일>과 같은 춤을 자연스럽게 표현하였다. 개선할 점으로 인체와 의류 부분의 좀 더 정확한 분할과 분할과정에서 발생할 수 있는 노이즈의 제거 등을 확인되었다.
-
코로나19로 인해 출입 관련 시스템도 비대면으로 변화하고 있다. 변화에 맞추어 비대면으로 출입자를 관리할 수 있는 프로그램을 개발하여 접촉 위험을 줄이고 출입자 모니터링에 실용성을 제공하고자 한다. 본 연구에서는 Raspberry Pi 카메라에 Alchera Face Authentication API를 적용하여 얼굴인식을 실시하며 정보를 AWS 클라우드에서 저장·관리 하는 시스템을 개발하였다. 챗봇 서비스를 통해 출입자를 확인할 수 있으며 메신저에서 쉽게 클라우드에 접근하여 정보를 확인할 수 있게 하였다. 이를 통해, 특정 장소를 비대면으로 관리하며 간편하게 출입자를 모니터링할 수 있을 것으로 기대한다.
-
POS 소프트웨어는 제품 판매 시점에 실시간으로 판매 정보가 저장되어 매출 분석 및 자동 정산, 재고 관리를 통해 효율적인 경영 관리를 가능하게 해주는 소프트웨어를 말한다. 이미 시장에 상당수의 POS 소프트웨어 제품들이 출시되긴 했지만, 무인 결제 시스템인 키오스크 (Kiosk) 나 메뉴 정보나 주문 정보를 실시간으로 표시해주는 DID 와 같이 효율적인 매장 관리를 위해 필요한 솔루션을 POS 와 동시에 사용하기는 고가의 비용을 지불하거나, 해당 솔루션을 함께 해주는 상품은 거의 존재하지 않는다. 본 논문에서는 moki 사에서 이미 제공하고 있는 솔루션에 연동되는 POS 소프트웨어 개발로 저렴한 가격으로 매장 관리를 할 수 있는 시스템 제공을 목표로 한다.
-
본 논문에서는 RGB이미지와 Depth 이미지를 촬영할 수 있는 촬영 장비인 Azure Kinect를 사용해 다시점 촬영 시스템 구성을 위한 카메라 동기화 시스템을 제안한다. 제안한 시스템에는 8대의 Azure Kinect 카메라를 사용하고 있으며 각 카메라는 3.5-mm 오디오 케이블로 연결되어 외부동기화 신호를 전달한다. 그리고 이미지를 저장할 때 발생하는 메모리에서의 병목현상을 최소화하기 위해 촬영 시스템의 동작을 16개의 버퍼로 나누어 병렬 컴퓨팅으로 진행한다. 이후 동기화 여부에 따른 차리를 디바이스 타임스탬프를 기준으로 하여 비교한다.
-
최근 영상신호처리에 대한 딥러닝 기술이 비약적으로 발전함에 따라 다양한 방면으로 시도되고 있다. 그 중 machine level vision 에서 인지 기능을 하는 optical flow 를 end-to-end 학습 방식으로 제시하여 고성능 결과물을 도출하는 RAFT(Recurrent All-pairs Field Transform for Optical flow, 2020)에 대해 분석하고자 한다. RAFT 는 입력된 두 이미지에 대한 4D correlation volume 을 구축하여 모든 픽셀에 대한 정보를 사용한다. 또한, recurrent neural network 에서 차용한 반복적인 연산 학습 구조를 통하여 결과물인 flow field 의 정확도를 높인다. 해당 모델은 stereo dataset 을 사용하는 다른 모델에 비해 학습 시간이 짧고 용량이 작으면서 error rate 은 낮은 모습을 보인다. 현재 많은 연구에서 optical flow 를 접목하려는 움직임을 보이고 있고 다양하게 활용될 가능성이 다분하다는 점에서 주목할 가치가 있다.
-
Choi, Eunchong;Park, Youngwoong;Yun, Subin;Baek, Sodam;Lee, Jin;Lee, Dahee;Ju, Hyeryeon;Kang, Minju;Lee, Sangun 273
기존의 중계 시스템은 유선 기반으로 방송 중계차와 케이블 등이 필요하여 시간과 비용, 장소의 제약과 같은 여러 한계점을 가지고 있었다. 하지만 무선 중계 기술의 발전으로 무선 카메라만 있으면 긴급재난 현장이나 중계차가 들어갈 수 없는 지역에서도 중계가 가능하게 되면서 중계방송의 제한 범위가 좁아지고 있다. 따라서 본 논문에서는 시간과 장소의 제약 없이 방송을 송출할 수 있는 5G 무선 중계 시스템을 분석한다. 분석한 시스템은 5G 모뎀이 장착된 MNG 장비를 이용해 UHD와 4K 신호를 무선으로 처리하여 초저지연·초고화질로 송출한다. 또한 현존하는 멀티뷰 기술을 접목시켜 시청자들이 원하는 서비스를 제공한다. -
최근 코로나 사태가 지속되면서 온라인으로 활동하는 경우가 많아졌다. 비대면 채팅, 메신저 사용이 늘면서 개인정보 유출 등 여러 이슈가 발생하고 있다. 이에 따라 정보 보안에 대한 관심이 높아지는 양상을 보인다. 시중에 존재하는 다수의 채팅 서비스들은 대화 내용을 서버 DB에 저장한다. 이러한 방식은 누군가가 다른 사람의 대화 내용에 접근할 수 있다는 가능성을 의미한다. 따라서 서버 DB에 데이터가 남지 않는 소켓 통신 암호화 채팅을 고안하였다. 그 외에도 보안 요소를 추가하기 위하여 외부 라이브러리를 사용하였다. 본 논문에서는 Miracl 라이브러리를 사용하여 안전한 키 교환을 위한 Diffie-Hellman 알고리즘과 평문을 암호화하기 위한 AES 알고리즘을 적용한 1대1 채팅을 제안하고자 한다.
-
최근에 딥러닝 기술인 GAN (Generative Adversarial Networks) 연구는 Image-to-Image translation 분야에서 활발하게 이뤄지고 있다. 이러한 기술을 바탕으로 사용자에게 편의와 재미를 제공하는 서비스가 애플리케이션 및 웹사이트의 형태로 개발되고 있다. 이에 본 논문은 CycleGAN 모델을 사용하여 이미지를 변환하고, 이를 인터랙티브 웹페이지를 통해 사용자와 실시간으로 상호작용하며 결과 이미지를 제공할 수 있는 방법을 연구하였다. 모델을 구현하기 위해 Tensorflow 및 Keras를 사용하였고, Django와 HTML5, CSS, JavaScript를 사용하여 웹사이트를 제작하였다.
-
4차 산업혁명을 맞이해 최근 산업 및 기술 영역에서는 인공지능을 이용한 생산력 향상, 자동화 등 딥러닝의 보편화가 빠르게 진행되고 있다. 또한, 딥러닝의 성능을 도출하기 위해서는 수많은 양의 학습용 데이터가 필요하며 그 데이터의 양은 딥러닝 모델의 성능과 정비례한다. 이에 본 작품은 최신형 영상처리 Library인 Albumentations를 이용하여 영상처리 알고리즘을 이용하여 이미지를 증강하고, 이미지 데이터 크롤링 기능을 통해 Web에서 영상 데이터를 수집을 자동화하며, Label Pix를 연동하여 수집한 데이터를 라벨링 한다. 더 나아가 라벨링 된 데이터의 증강까지 포함하여 다양한 증강 자동화를 한 인터페이스에 집적시켜 딥러닝 모델을 생성할 때 데이터 수집과 전처리를 수월하게 한다. 또한, Neural Net 기반의 AdaIN Transfer를 이용하여 이미지를 개별적으로 학습하지 않고 Real time으로 이미지의 스타일을 옮겨올 수 있도록 하여 그림 데이터의 부족 현상을 해결한다.
-
해당 소프트웨어는 딥러닝 기반의 언어 모델을 이용하여 한국어 랩을 더 효과적으로 작성할 수 있도록 돕는다. 이 소프트웨어는 단순히 가사를 생성하는 데에 그치지 않고, 라임을 맞추고자 하는 대상 단어와 앞뒤 문맥이 주어졌을 때, 라임과 맥락에 맞는 단어 목록을 추천한다. 작사가는 사용자 친화적인 문서 편집 인터페이스를 통하여 언어 모델과 적극적으로 상호작용을 해 나가며 효율적으로 가사를 만들어나갈 수 있다.
-
본 논문에서는 공부하는 사용자의 상황을 감지하여, 학습의욕을 고취시키고 집중력 향상을 도와주기 위한 학습능률 확인 시스템을 구현하고자 한다. 이를 위해 실시간 카메라를 통해 사용자의 얼굴이나 몸의 움직임을 추출하여 학습 태도, 집중력에 대한 데이터를 측정한다. 실시간 임베디드 시스템 구현을 위해 Jetson 보드를 사용하였으며, 영상인식을 위한 CNN(Convolution Neural Network)를 구현하였다. CNN 을 이용해 대상의 특징 부분을 검출한 후 움직임 검파를 수행한다. 캡처한 영상을 PYQT5 로 작성된 GUI 에서 영상을 보여주며, 각각 방해되는 행동을 했을 때 푸시메시지를 보내며 데이터를 수집한다. 또한 GUI 로 만든 메인 화면에서 각각의 기능들을 실행 가능하며, 수집한 데이터를 산출해주는 통계그래프와 작업관리 목록, 화이트 노이즈 등의 기능을 수행한다. 구축된 학습능률 확인 시스템을 통해 대상의 데이터를 수집 및 분석을 비롯한 다양한 기능을 사용자에게 제공하였다.
-
본 논문에서는 타투 한 모습을 AR을 통해 미리 육안으로 확인할 수 있도록 하는 기술적인 방법을 제공함으로써 타투 시술을 실제로 시행하기 전 개인별로 선택을 지원하는 기술을 제안한다. 이러한 목표를 달성하기 위해 Unity Vuforia Engine을 이용하여 서버에서 미리 제공하는 타투 도안 혹은 사용자가 원하는 타투 도안을 AR로 신체에 적용할 수 있도록 지원한다. 제안하는 기술에서는 AR로 인한 시각적인 이질감을 줄이기 위해서 Region Capture를 이용하여 타겟 이미지를 주변 피부와 이질감을 감소시키고 그 위에 타투 AR을 사용자 신체 굴곡에 맞춰 적용하는 방법을 제안한다. 또한 AR로 확인한 타투를 사진이나 동영상으로 촬영하여 앱 내 갤러리에서 확인할 수 있고 앱 내 커뮤니티를 통해 타투에 관심있는 사람이라면 타투에 관한 자유로운 소통을 할 수 있도록 지원하는 온라인 기술을 구현하였다.
-
최근 한국의 자살률은 10만 명 당 25.7명으로 높은 수치를 기록하고 있으며 한국 사회의 큰 문제로 자리 잡고 있다. 특히 한강 교량 내 투신자살 시도를 하는 경우가 매우 많다. 본 논문에서는 한강 교량 내 투신자살 시도를 예방하기 위해 자세 인식의 정확도를 향상하기 위해 딥러닝 기반의 교량에서의 자살 방식 시스템을 개발하였으며, 국내의 자살 예방률이 높아지기를 기대한다.
-
Automatic Creation of Artificial Intelligence Meeting Minutes System using Korean Keyword Extraction비대면 시대로 인한 화상 회의의 중요성이 높아졌다. 하지만 현재까지도 회의기록의 문서화 작업은 수작업으로 이루어지고 있어 시간과 인적자원이 많이 소모되고 있다. 본 논문은 기존 수작업으로 진행되는 회의 문서화 과정의 문제점을 개선하고자 한국어 키워드 추출을 활용한 인공지능 회의록 자동 생성 시스템을 제안한다. 회의 음성 파일을 기반으로 STT 기술을 활용한 회의 전문을 자동 생성하고 전문에 KR-WordRank 알고리즘을 적용해 키워드를 추출, Summary API를 사용하여 요약본을 생성한다. 최종 결과로 회의 전문과 키워드, 요약본이 담긴 PDF 형식의 회의록을 사용자에게 제공하여, 수기 회의록 작성 시 들이는 시간적, 인적 비용 절감을 돕는다.
-
최근 COVID-19 때문에 교육 및 모임 등 다양한 환경을 비대면으로 진행하고 있다. 이에 따라 메타버스 개념이 새로운 이슈로 주목받고 있다. 본 작품은 메타버스, 즉 3차원 가상공간의 새로운 세계에서 사용자를 대신하여 참여시킬 수 있는 아바타를 제작해 본다. 메타버스를 활용한 사용자의 움직임을 인식하는 3D 아바타는 코로나 사태로 인한 언택트 시대에 매우 유용하게 활용될 수 있을 것이다. 본 논문에서는 사용자가 각종 비대면 미팅에 자신의 아바타를 만들어 참여할 수 있도록 그 아바타를 움직임과 함께 구현하는 과정을 설명한다. 먼저, Kinect를 통해 사용자의 움직임을 받아 유니티를 연동시켜 불러온다. 다음으로 블렌더를 통해 사용자가 원하는 아바타를 제작하고 유니티 환경에서 사용자의 움직임을 실시간으로 반영하는 아바타를 나타낸다. 사용자는 자신의 행동을 그대로 반영시켜주는 3D 아바타를 가상현실 속 화면을 통해 확인할 수 있다.
-
ML(machine learning) 기술을 활용하여 실용적인 측면에서 일반 사용자들이 바라보고 사용할 수 있도록 다양한 연구 개발이 이루어지고 있다. 특히 최근 개인 사용자의 personal computer와 mobile device의 processing unit의 연산 처리 속도가 두드러지게 빨라지고 있어 ML이 더 생활에 밀접해지고 있는 추세라고 볼 수 있다. 현재 ML시장에서 다양한 솔루션 및 어플리케이션을 제공하는 툴이나 라이브러리가 대거 공개되고 있는데 그 중에서도 Google에서 개발하여 배포한 'Mediapipe'를 사용하였다. Mediapipe는 현재 'android', 'IOS', 'C++', 'Python', 'JS', 'Coral' 등의 환경에서 개발을 지원하고 있으며 더욱 다양한 환경을 지원할 예정이다. 이에 본 팀은 앞서 설명한 Mediapipe 프레임워크를 기반으로 Machine Learning을 사용한 image processing를 통해 일반 사용자들에게 편의성을 제공할 수 있는 알람 프로그램을 연구 및 개발하였다. Mediapipe에서 신체를 landmark로 검출하게 되는데 이를 scikit-learn 머신러닝 라이브러리를 사용하여 특정 자세를 학습시키고 모델화하여 알람 프로그램에 특정 기능에 조건으로 사용될 수 있게 하였다. scikit-learn은 아나콘다 등과 같은 개발환경 패키지에서 간단하게 이용 가능한데 이 아나콘다는 데이터 분석이나 그래프 그리기 등, 파이썬에 자주 사용되는 라이브러리를 포함한 개발환경이라고 할 수 있다. 하여 본 팀은 ML기반의 영상처리 알람 프로그램을 제작하는데에 있어 이러한 사항들을 파이썬 환경에서 기본적으로 포함되어 제공하는 tkinter GUI툴을 사용하고 추가적으로 인텔에서 개발한 실시간 컴퓨터 비전을 목적으로 한 프로그래밍 라이브러리 OpenCV와 여러 항목을 사용하여 환경을 구축할 수 있도록 연구·개발하였다.
-
본 논문에서는 복소 홀로그램 압축을 위해 타일링을 사용한 결과를 비교하고 이를 분석한다. 복소 홀로그램의 실수부와 허수부를 1024×1024의 크기로 타일링하여 코덱의 입력으로 사용한다. area-based tiling과 pixel-based tiling을 사용하여, JPEG2000 코덱 내부에서 적용할 수 있는 타일링 방법과 비교하고, 디코딩된 홀로그램의 SNR(Signal-to-Noise Ratio)과 수치적 복원 결과를 분석한다.
-
최근 다양한 산업분야에서 디지털 사용자 트랜잭션의 보안성 강화와 디지털 자산의 거래 비용 최소화를 동시에 실현하기 위해 블록체인 기술을 점진적으로 확대하고 있다. 특히 무인 자동화 시스템으로의 전환이라는 과도기적 상황과 코로나-19 대유행이 맞물려 비대면 시장에 대한 관심이 커졌고, 비대면 시장의 수익 극대화와 안정적인 비대면 서비스 실현을 위해 블록체인 시스템과의 결합이 초점화되고 있다. 본 캡스톤디자인 보고서는 블록체인 기반 암호화폐 결제 서비스 애플리케이션을 설계하고 구현하는 과정을 기술한다. 특히 새로운 알트코인으로 평택코인과 관련된 앱 생태계 구축 과정, 그리고 평택코인 결제 서비스 지원 애플리케이션을 개발을 통한 스마트 암호화폐 결제 애플리케이션의 서비스 초기 모델 구현 과정에 대해 기술한다.
-
하이라이트 영상은 원본 영상의 중요한 장면들을 짧은 시간 안에 감상할 수 있게 도와준다. 특히나 경기 시간 긴 축구나 야구 그리고 e-스포츠의 시청자들에게 있어, 하이라이트 영상의 효용성은 더욱 증가한다. 하이라이트 영상 추출의 자동화로 방송사나 온라인 플랫폼은 비용 절감과 시간 절약의 이점을 얻을 수 있다. 따라서 본 논문에서는 스포츠 영상에서 자동으로 하이라이트 구간을 추출하는 모델을 제안한다. 제안하는 모델은 멀티 헤드 어텐션 매커니즘과 LSTM 네트워크의 결합으로 구성된다. 해당 매커니즘의 여러 헤드를 통해 어텐션을 다양한 관점에서 진행한다. 이로 인해 영상의 전체적인 맥락과 장면 간의 유기적 관계를 다양한 관점에서 파악할 수 있다. 또한 오디오와 이미지 정보를 함께 이용하여 모델을 학습한다. 학습한 모델의 평가는 e-스포츠 경기 영상을 이용하여 평가한다.
-
최근 인터넷 플렛폼이 대중화되면서 영상물을 접하는 횟수가 늘어났다. 영상 선택에 있어서 대표 이미지가 중요한 역할을 하는데, 현재 빅데이터를 이용하여 개인 맞춤 서비스가 활성화 되면서 이를 이용하여 개인 맞춤 서비스로 특정인물 기반 대표 이미지 추출할 수 있게 된다면 영상 선택에 있어 소비자의 편의를 도우며 이목을 끌 수 있을 것으로 예상된다. 이에 본 논문은 영상 산업기술과 방송 통신 융합 서비스의 일환으로 특정인물 기반 대표이미지를 추출하는 서비스에 대해 연구하였다. 이를 위하여 얼굴 인식을 처리하는 컴퓨터 비전 기술을 이용하여 얼굴 인식 분야를 연구 개발하였다.
-
최근 고주사율 디스플레이 시장 확대와 실감콘텐츠에 대한 요구에 따라, 높은 프레임율의 동영상 콘텐츠에 대한 관심이 증가하고 있다. 본 논문은 이용자의 비디오를 초슬로우 비디오로 변환해주는 웹 기반 서비스 시스템을 제안한다. 이는 사용자가 웹을 통해 비디오를 업로드하면, 딥러닝 기반의 비디오 프레임 보간 알고리즘을 이용하여 초고프레임율의 동영상으로 변환하며. 변환된 초저속 비디오를 웹을 통해 보여주거나 파일 포맷으로 제공한다. 제안 시스템은 복잡한 연산을 요구하는 딥러닝 네트워크 모듈과 사용자와의 상호작용을 위한 웹 페이지 모듈로 구성되었다. 프레임 보간을 위해서, State-of-the-art 기술인 딥러닝 기반의 Real-Time Intermediate Flow Estimation for Video Frame Interpolation 방법이 활용되었으며, 웹페이지는 HTML, CSS, Javascript, Flask를 사용하여 구축되었고, Flask를 활용하여 두 모듈이 연동되었다. 제안 웹 기반 시스템을 통해, 사용자는 딥러닝 네트워크 구동에 필요한 별도의 지식 없이 통신 자원만으로 고실감의 경험과 편의성을 제공받을 수 있다.
-
코로나19 전염병 예방을 위한 공공장소에서의 마스크 착용이 의무화되고 있다. 그러나 사람들이 다양한 이유로 마스크를 제대로 착용하지 않아 감염에 노출되는 위험이 발생하고 있다. 이러한 방역 문제를 해결하고 본 논문은 영상을 인식하여 마스크를 쓴 얼굴과 쓰지 않은 얼굴을 검출하는 방식을 제안한다. 제안 방법은 마스크 착용자와 비착용자 얼굴 영상을 딥러닝 기반의 YOLO 네트워크로 학습하여, 마스크 착용 유무를 판별한다. 동일 YOLO 네트워크에 대해 여러가지 조건으로 학습을 수행하고, 학습에 사용되지 않은 검증 데이터를 이용해 정확도가 가장 높은 네트워크의 가중치를 선택하였다. 실험결과, 마스크 착용자는 67.2%, 미착용자는 39.8%의 판별 정확도를 보였다. 미착용자에 대해 낮은 정확도를 보인 이유는 학습 데이터의 부족으로 판단되며, 이를 보완하기 위하여 더 많은 학습데이터를 제작하여 성능을 개선시키고자 한다.
-
최근 메타버스의 등장으로 VR에 많은 관심이 집중되는 가운데, 여전히 사이버 멀미라는 해결되지 못한 문제가 있다. 사이버 멀미는 여러 요인이 있지만 본 논문은 시각 정보와 전정 정보의 불일치로 인해 발생하는 것을 주 요인으로 본다. 이러한 문제는 룸스케일 방식으로 해결될 것으로 보고, 제약된 현실 공간에서 보다 넓은 가상공간을 자유롭게 돌아다니기 위해 RDW(Redirected Walking)을 도입했다. 그러나 RDW 또한 화면을 왜곡시켜 사용자의 동선을 조정하는 것이기 때문에 왜곡률에 따라 멀미를 유발시킬 가능성이 있다. 따라서 공간활용과 왜곡률에 따른 사용자의 인식,멀미 정도를 고려할 필요가 있어 연구를 진행하게 되었다. 본 연구는 7×7m의 현실 공간을 기준으로 3가지 크기의 가상 공간에서 RDW 시스템의 회전 왜곡률과 설정된 플레이 공간의 벽에 부딪히는 횟수, 멀미도(SSQ)를 측정하고 정리하였다.
-
기존의 택배 배송시스템은 수령인 본인이 아니더라도 주소, 전화번호와 같은 개인정보를 쉽게 확인할 수 있다. 코로나 19로 인해 언택트(Untact) 주문 및 배달, 배송 서비스가 급격히 늘어나면서 택배 배송 관련 사업은 거대한 시장으로 성장하고 있으며 이와 함께 노출된 개인정보가 범죄에 악용될 수 있다는 우려도 증가하고 있다. 더불어 여러 택배 및 배송물이 도착했을 때, 수신자는 택배 상자를 뜯지 않고 배송물의 오도착 여부를 확인하기 어려우며 원하는 물품이 담긴 택배가 정확히 어떤 것인지 알기 힘들다.본 프로젝트에서는 다단계 인증이 가능한 QR code를 활용해 송수신자의 주소, 제품 종류, 명칭 등을 포함한 여러 정보를 배송기사, 수령인 등에 따라 선택적으로 접근한다. 같은 QR code를 스캔하더라도 수령인의 경우 모든 정보를 확인할 수 있고, 배달원은 일부의 정보를 확인할 수 있지만, 권한이 없는 사람은 어떠한 정보도 확인할 수 없다. 기존의 택배 배송시스템처럼 정보를 맨눈으로 인식할 수도 없으므로 개인정보 노출의 한계를 극복할 수 있다. 이때 송장 정보는 텍스트 형태뿐 아니라 주문한 내용물의 종류 및 모양 등을 그대로 구현한 AR(augmented reality) 형태로도 확인할 수 있어 포장된 상태 그대로 배송물의 오도착 여부를 확인하거나 다량의 택배를 보다 효율적으로 구분할 수 있다. 이처럼 같은 QR code로 서로 다른 정보를 제공하는 SQRC(Security/Secure QR code)의 원리를 이용해 정보를 안전하게 보호하는 것에 그치지 않고, 비디오나 이미지와 같은 멀티미디어 서비스를 추가로 제공해 실감 미디어의 적용 범위를 넓힐 수 있다.
-
최근 드론의 용도는 취미, 공연, 농업, 안전, 군사, 연구, 물자수송 등 다양한 분야와 목적으로 활용되고 있다. 더불어 드론의 불법적 활용으로 인한 안전 및 법적 문제 또한 빈번히 발생하고 있어, 이런 문제들을 예방하기 위한 드론의 탐지 기술이 활발히 연구되고 있다. 본 논문은 카메라로 촬영된 영상에서 조류와 같은 다른 객체와 구별하여 드론을 탐지하는 기술과 상공에서 바라본 객체들을 탐지하는 기술을 구현한다. 제안 방법은 딥러닝 기반의 YOLOv4를 사용하였다. UAV_123 데이터세트로 학습한 실험 결과, mAP는 85%, Recall은 85%, Precision은 81%의 정확도를 보였다. 제안 방법은 인명 구조, 배송, 건축 뿐만 아니라 안티 드론 시장에서도 효과적으로 활용될 수 있을 것으로 기대된다.