1. 서론
최근 가상 현실(virtual reality; VR)에 대한 수요가 늘어감에 따라, 몰입형 미디어를 지원하기 위한 기술의 중요성이 강조되고 있다. Moving picture experts group(MPEG)에서는 MPEG-Immersive(MPEG-I) 그룹을 설립하여 몰입형 미디어의 표준화를 위해 가상 현실에서의 사용자 자유도를 3단계로 정의하였다. 현재 표준화가 완료되어 널리 쓰이고 있는 three degrees of freedom(3DoF)는 고정된 시점에서 3방향으로의 사용자 머리의 회전을 포함한 움직임을 지원하고, 단일 360도 영상을 요구한다. Six degrees of freedom(6DoF)는 회전뿐만 아니라 사용자의 움직임도 완벽히 지원하여 가상 현실 공간에서 사용자의 모든 움직임을 지원하나, MPEG-I에서는 높은 연산량, 대역폭 등의 이유로 2022년까지 점진적으로 표준화를 진행할 예정이다. 이에 3DoF와 6DoF 중간 단계로 3DoF+가 등장하였는데, 3DoF+ 환경에서는 의자에 앉은 사용자의 머리 회전 및 움직임을 지원하여 제한된 6DoF로서의 기능을 지원한다. 3DoF+ 및 6DoF는 여러 위치에서 취득된 영상들을 동시에 압축 및 전송하여 사용자 시점의 영상을 합성하는데, 이는 높은 대역폭과 연산량을 요구한다. 이를 해결하기 위해 비대칭 다운 샘플링[1], 다시점 영상 간 중복성 제거 및 병합[2], 사용자 시점 기반 타일 스트리밍[3-5], 스크린 콘텐츠 코딩(screen contents coding; SCC) 기반 부호화[6] 등의 방법이 제시되었다.
앞서 언급된 효율적인 스트리밍 기법을 평가하기 위해서 원본 영상 및 재구성된 영상 간 품질 비교를 사용할 수 있다. 일반적으로 픽셀 단위의 차분 값을 측정하는 peak signal-to-noise ratio(PSNR)이 사용되고, 일반적인 영상 부호화 도구에서 나타나는 화질 열화 측정을 검출할 수 있다. 하지만, 3DoF+ 및 6DoF 시스템에서는 다시점 영상을 사용하여 사용자 시점을 합성하고, 머리장착형 영상 장치(head-mounted display HMD)에 출력하여 영상 부호화 도구로 인해 나타나는 화질 열화와는 다른 형태의 열화가 나타난다. 따라서, PSNR은 3DoF+ 및 6DoF 시스템에서의 화질 열화를 제대로 검출하기 어렵다.
본 연구는 PSNR 외의 최신 객관적 영상 품질 평가 기법들을 선정하여 3DoF+ 영상에 대한 주관적 품질 평가와의 상관관계를 제시한다. 또한, 상관관계에 따라 모든 객관적 영상 품질 평가 기법들에 대해 선형회귀(linear regression)를 적용하여 몰입형 비디오에 대한 주관적 품질을 잘 반영하는 슈퍼 메트릭(super metric)을 도출한다. 그림 1은 슈퍼 메트릭의 도출 구조를 나타낸다.
본 논문의 구성은 다음과 같다. 2절에서는 3DoF+ 및 6DoF 스트리밍 시스템 및 영상 품질 평가 기법들을 소개한다. 3절에서는 몰입형 비디오 품질 평가를 위한 슈퍼 메트릭 기법을 설명한다. 4절에서는 제안하는 기법의 결과를 소개하고 마지막으로 5절에서는 본 논문의 결론을 서술한다.
(그림 1) 몰입형 비디오를 위한 슈퍼 메트릭 도출 구조
(Figure 1) Conceptual architecture of super metric for immersive video
2. 관련 연구
2.1 3DoF+와 6DoF 스트리밍 시스템
본 절은 3DoF+와 6DoF 시스템의 표준화 현황을 소개한다. 현재 널리 사용되고 있는 3DoF는 단일 360도 카메라에서 영상을 취득하여 HMD를 통해 영상을 렌더링한다. 단일 영상만의 전송이 요ㅈ구되어 현재 널리 사용되고 있는 advanced video coding(AVC) 및 high-efficiency video coding(HEVC) 와 사용될 수 있으나, 단일 시점에서의 영상만을 제공하기에 제한된 자유도를 지원한다. 3DoF+ 및 6DoF 환경과 같이 사용자에게 더 높은 자유도를 부여하기 위해서는 여러 위치에서 동시에 취득된 영상들을 전송하여야 하는데, 이는 단일 영상을 부호화하도록 개발된 AVC 및 HEVC를 사용하여 부호화할 경우 높은 대역폭 및 자원 사용량을 요구한다. 따라서, 다시점 영상을 부호화하기 위해 multi-view video coding(MVC)[7] 및 multi- view HEVC(MV-HEVC)[8] 가 등장하였고, 각각 AVC와 HEVC의 확장 표준으로 개발되었다. MV-HEVC는 다시점 영상을 부호화할 때 HEVC 대비 우수한 부호화 성능을 제공하나, 별도의 복호화 장비가 필요하여 제한된 호환성을 제공하므로 MPEG-I에서 참조 소프트웨어로 채택하지 않았다. 대신, MPEG-I는 기존 부호화 도구와 호환성을 유지하면서 우수한 압축률을 제공할 수 있는 3DoF+ 시스템을 만들기 위해 2019년 1월에 3DoF+ call for proposals (CfP)를 제안하였다[9]. 이에 2019년 4월에 Philips, Technicolor와 Intel, Poznan University of Technology(PUT)와 한국전자통신연구원, Nokia, 그리고 Zhejiang University가 call for response(CfR)을 제출하였다[10-14]. 제출된 CfR들의 장점들을 조합하여 MPEG-I는 test model for immersive video(TMIV)를 개발하였고, 참조 소프트웨어로 채택하였다[15]. 3DoF+ 표준의 일환으로 MPEG immersive video(MIV) 표준이 개발되고 있고, 현재 committee draft(CD) 단계를 거치고 있으며 6DoF 표준은 2022년까지 표준화가 완료될 예정이다.
2.2 영상 품질 평가 기법
본 절은 몰입형 비디오 품질 평가에 사용될 수 있는 영상 품질 평가 기법들을 소개한다. 2.1 절에서 언급된 3DoF+ 시스템을 평가하기 위해 MPEG-I에서는 common test conditions(CTC)를 제안하였고, 실험 조건들을 정의하였으며 여러 영상 품질 평가 기법들을 사용하여 시스템을 평가할 것을 권고하였다[16]. MPEG-I에서 논의된 객관적 품질 평가 지표로는 weighted-to- spherically-uniform PSNR(WS-PSNR), structural similarity(SSIM), multiscale SSIM(MS-SSIM), video multimethod assessment fusion (VMAF), immersive video PSNR(IV-PSNR) 등이 있다 [17-21]. 360도 영상은 HMD에서 3차원의 구 형태로 매핑(mapping)될 수 있는데, 기존의 영상 부호화 도구를 통해 부호화하기 위해 2D 평면 영상으로의 프로젝션(projection)이 이루어진다. 360도 영상의 대표적인 프로젝션 방법 중 하나인 equirectangular projection(ERP)는 구 형태의 360도 영상을 2D 평면에 매핑하는데, 프로젝션 특성상 상하 극점에서 왜곡이 일어난다. WS-PSNR은 이 왜곡에 대한 영향을 고려하기 위해 각 픽셀의 위치에 따른 가중치를 부여하는 방법을 사용한다. SSIM은 원본 영상과 재구성된 영상 간 구조적 유사성을 도출한다. 인간 시각 체계 (human visual system; HVS)는 영상의 구조 정보를 잘 검출하고, SSIM은 이 정보를 잘 도출하기에 몰입형 비디오 품질 평가에서도 유효하게 사용될 수 있다. MS-SSIM은 영상이 여러 크기의 디스플레이 장치에서 재생될 것을 고려하여 여러 스케일(scale)에서의 SSIM 값을 반영한 평가 기법이다. VMAF는 넷플릭스에 의해 제안되었고, 공간적 및 시간적 측면에서의 영상 품질을 측정하고 서포트 벡터 머신(support vector machine; SVM)을 사용하여 인간의 주관적 평가에 가깝게 영상 품질 점수를 산출한다. IV-PSNR은 최근 MPEG-I에서 제안되었고, 3DoF+ 및 6DoF에서 주관적 품질 평가와 객관적 품질 평가 간 상관관계를 높이기 위해 개발되었다. 그림 2는 3DoF+ 및 6DoF 환경에서 합성된 사용자 시점에서의 화질 열화 예시를 나타낸다. 3DoF+ 및 6DoF 환경에서는 여러 영상을 이용해 사용자 시점을 합성하기에 주로 물체의 가장자리에서 화질 열화가 나타나고, 이는 사용자가 거의 의식하지 못한다. 그러나, PSNR과 같은 영상 품질 평가 기법은 픽셀 단위로 차분 값을 계산하기에 이러한 열화를 결과값에 반영하고, 실제로 사용자가 괜찮다고 느끼는 영상도 품질을 낮게 측정하는 문제가 발생한다. IV-PSNR은 이러한 화질 열화를 무시하고, 몰입형 비디오에서 주관적 품질 평가와 높은 상관관계를 보인다.
(그림 2) 3DoF+/6DoF 사용자 시점의 화질 열화
(Figure 2) An example of artifacts on 3DoF+/6DoF viewport
3. 몰입형 비디오 품질 평가를 위한 슈퍼 메트릭
본 절은 기존 객관적 영상 품질 평가 기법에 비해 몰입형 비디오에 대한 사용자의 주관적 평가를 더 잘 반영하는 슈퍼 메트릭 기법에 대해 소개한다. 그림 2에 나와 있듯 3DoF+ 및 6DoF 환경에서의 몰입형 비디오에서는 기존의 영상 부호화 도구에서 나타나는 블러링 아티팩트 (blurring artifact) 및 뷰 합성 시 나타나는 엣지 아티팩트 (edge artifact) 모두 관찰된다. 따라서, 본 논문에서 제안하는 기법은 2.2절에서 소개된 여러 영상 품질 평가 기법들을 결합한 앙상블(ensemble) 기법으로 접근하여 주관적 평가와의 상관계수(correlation coefficient)를 향상시킬 수 있도록 하였다. 그림 3은 본 논문에서 제안하는 몰입형 비디오 평가를 위한 슈퍼 메트릭이 적용된 시스템 구조를 나타낸다. 제안하는 시스템은 TMIV를 기반으로 다시 점 영상들을 처리한다. 다시점 영상은 텍스쳐(texture), 깊이 지도(depth map) 두 가지 유형의 정보로 구성된다. 텍스쳐 정보는 카메라로부터 취득된 색상 정보를 저장하고, 깊이 지도는 텍스쳐에 표현된 물체와 카메라 간 거리 정보를 포함한다. TMIV 부호기는 각 다시점 영상을 기본 시점(basic view), 추가 시점(additional view)으로 분류한다. 기본 시점은 전체 다시점 영상을 포괄하는 정보를 가지고, 추가 시점에서는 기본 시점이 이미 포함하고 있는 정보들을 픽셀 단위로 제거한다. 이후 추가 시점에서 남은 정보들을 추출 및 병합하고 기본 시점 영상과 함께 아틀라스(atlas)로 출력한다. 이를 통해 다시점 영상을 각각 부호화 및 전송할 때 대비 대역폭 및 클라이언트에 요구되는 복호기의 개수를 절약할 수 있다. 생성된 아틀라스들은 HEVC 또는 최근 표준화가 이루어지고 있는 versatile video coding(VVC) 부호기를 통해 부호화되어 클라이언트로 전송된다. 이후 클라이언트 단에서 HEVC 또는 VVC 복호기를 이용해 복원된 아틀라스들은 TMIV 렌더러(renderer)로 전달되고, TMIV 렌더러는 사용자 시점에 부합하는 영상을 생성한다. 이후 서버 단에서 원본 영상을 사용해 생성된 사용자 시점 영상과의 PSNR, SSIM, MS-SSIM, VMAF, IV-PSNR 값을 계산하고, 각 품질 평가 기법에 할당된 가중치와의 곱과 편향(bias) 값을 더하여 슈퍼 메트릭 값이 출력된다. 2.2절에서 소개된 WS-PSNR은 360도 영상에 적용되는 기법이고, HMD를 통해 표현되는 사용자 시점 영상은 일반적인 직사각형 영상이므로 제안하는 기법은 WS-PSNR 대신 PSNR을 사용하였다.
(그림 3) 몰입형 비디오를 위한 슈퍼 메트릭 시스템 구조
(Figure 3) System architecture of super metric for immersive video
슈퍼 메트릭은 각 품질 평가 기법이 가지는 상관 계수를 고려하여 차등적으로 가중치를 부여하고, 가중치는 주관적 품질 평가 결과와 선형회귀를 적용하여 상관계수를 높일 수 있도록 수정된다. 수식 1은 슈퍼 메트릭의 도출 과정을 나타낸다. 각 품질 평가 기법 결과에 가중치를 곱하고, 편향 값을 더하여 계산한다. 3DoF+ 영상은 실사 및 그래픽 기반 영상 모두 존재할 수 있어 다양한 아티팩트가 발생할 수 있으므로 최근 제안된 기법들뿐 아니라 종래에 널리 쓰이던 기법인 PSNR 및 SSIM도 수식 1에 포함하여 가중치를 계산하였다. 가중치 및 편향 값은 mean squared error (MSE) 값을 기반으로 한 손실 함수(loss function)를 이용하여 주관적 품질 평가 결과와 가장 높은 상관관계를 보일 수 있도록 반복하여 수정된다.
\(\begin{aligned} &\alpha \cdot P S N R+\beta \cdot S S I M+\gamma \cdot M S-S S I M+\delta \cdot \\ &V M A F+\varepsilon \cdot I V-P S N R+\text { bias } \end{aligned}\) (1)
4. 실험 결과
본 절은 3DoF+ 몰입형 비디오에 대한 주관적 화질 평가와 객관적 화질 평가, 슈퍼 메트릭 간 비교를 포함한 실험 결과를 소개한다. 주관적 화질 평가 지표로는 3DoF+ CfR에 대한 mean opinion score(MOS)를 사용하였다[22]. 3DoF+ CfR MOS는 3DoF+ CfP에 명시된 expert viewing protocol(EVP)에 의해 산출되었고, EVP는 ITU-R BT.2022 를 기반으로 한다[23]. Sony사의 65인치 LG사의 55인치 OLED TV를 통해 영상을 출력하였으며 평가자는 0점에서 10점 사이의 점수를 부여한다. 표 1은 실험에 사용한 테스트 시퀀스 정보를 나타낸다. 테스트 시퀀스로는 ClassroomVideo, Technicolor-Museum, TechnicolorHijack, TechnicolorPainter, IntelFrog 5개의 영상을 사용하였고, 3개의 영상은 360도 그래픽 영상이며 나머지 2개의 영상은 2D 실사 영상이다. 3DoF+ CfP에 정의된 대로 HEVC로 전체 영상을 부호화하는 경우와 전체 영상 중 일부를 택하여 부호화하는 경우에 대하여 사용자 시점 영상을 생성하였고, 객관적 영상 품질 평가를 진행하였으며 주관적 평가 결과와 비교하였다. 이후, 해당 결과들을 통하여 슈퍼 메트릭의 가중치 및 편향 값을 최적화하였다.
(표 1) 3DoF+ 테스트 시퀀스 정보
(Table 1) Characteristics of the 3DoF+ test sequences
슈퍼 메트릭에서 선형회귀 과정은 keras에서 진행되었다. 각 가중치는 32비트 실수 값을 가지고, 옵티마이저 (optimizer)로는 RMSProp을 사용하였다[24]. PSNR, SSIM, MS-SSIM, VMAF, IV-PSNR엔 각각 -0.212892, -0.414345, -0.610262, 0.031026, 0.226949의 가중치가 적용되었으며 편향 값으로는 -0.66383이 사용되었다. 표 2는 MOS와 영상 품질 평가 기법들의 상관 계수를 나타낸다. 그 중 PSNR이 0.3012로 가장 낮은 상관 계수를 보여주었고, 제안하는 슈퍼 메트릭은 0.7525로 가장 높은 상관 계수를 기록하였다. 그림 4는 MOS와 영상 품질 평가 기법들의 산점도를 나타낸다. X축은 MOS, Y축은 영상 품질 평가 기법을 나타낸다. 그림 4를 통해 영상 품질 평가 기법들 중 VMAF와 슈퍼 메트릭이 MOS와 강한 관계를 보여주었음을 확인하였다.
(그림 4) MOS와 영상 품질 평가 기법 산점도
(Figure 4) Scatter plots of MOS and video quality assessment methods
(표 2) MOS와 영상 품질 평가 기법 간 상관 계수
(Table 2) Correlation coefficients between MOS and video quality assessment methods
5. 결론
본 논문은 3DoF+ 및 6DoF에서의 몰입형 비디오를 위한 향상된 객관적 품질 평가 지표인 슈퍼 메트릭을 제안한다. 몰입형 비디오에서 나타나는 블러링 아티팩트와 엣지 아티팩트를 검출하고 사용자의 주관적 평가와 잘 부합하기 위해 PSNR, SSIM, MS-SSIM, VMAF, IV-PSNR 등의 평가 기법에 선형 회귀 기법을 적용하였다. 제안하는 기법은 주관적 평가 지표와의 상관관계에서 PSNR 대비 0.4513의 상승을 보여주었다. 향후 연구로 360도 영상뿐만 아니라 렌즈렛(lenslet) 등의 형태를 갖춘 몰입형 비디오에 대한 MOS 값 측정 및 주관적 평가 지표와의 상관관계를 상승시키는 회귀 모델을 개발할 예정이다.
References
- J. B. Jeong, D. Jang, J. Son, E. -S. Ryu, "3DoF+ 360 Video Location based Asymmetric Down-sampling for View Synthesis to Immersive VR Video Streaming", Sensors, 18(9):3148, 2018. https://doi.org/10.3390/s18093148
- J. -B. Jeong, S. Lee, D. Jang, E. -S. Ryu, "Towards 3DoF+ 360 Video Streaming System for Immersive Media", IEEE Access, Vol. 7, pp. 136399-136408, 2019. http://mcsl.skku.edu/wordpress/wp-content/uploads/2019/10/08845574-1.pdf https://doi.org/10.1109/access.2019.2942771
- J. -W. Son, E. -S. Ryu. Tile-Based 360-Degree Video Streaming for Mobile Virtual Reality in Cyber Physical System, Elsevier, Computers and Electrical Engineering, Vol. 72, pp. 361-368, 2018. https://doi.org/10.1016/j.compeleceng.2018.10.002
- J. -B. Jeong, S. Lee, I. -W. Ryu, T. T. Le, E. -S. Ryu, "Towards Viewport-dependent 6DoF 360 Video Tiled Streaming for Virtual Reality Systems", In Proceedings of the 28th ACM International Conference on Multimedia (ACM MM), pp. 3687-3695, 2020.
- Jeong, Jong-Beom, Soonbin Lee, Inae Kim, Sangsoon Lee, and Eun-Seok Ryu, "Implementing VVC Tile Extractor for 360-degree Video Streaming Using Motion-Constrained Tile Set",Journal of Broadcast Engineering, Vol, 25, Issue 7,pp.1073-1080, 2020 https://doi.org/10.5909/JBE.2020.25.7.1073
- Lee, Soonbin, Jong-Beom Jeong, Inae Kim, Sangsoon Lee, and Eun-Seok Ryu, "Screen Content Coding Analysis to Improve Coding Efficiency for Immersive Video," Journal of Broadcast Engineering, Vol, 25, Issue 6,pp.911-921, 2020 https://doi.org/10.5909/JBE.2020.25.6.911
- Y. -S. Ho, K. -J. Oh, "Overview of multi-view video coding",In 2007 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services , pp. 5-12, 2007. https://www.researchgate.net/profile/Yo-Sung-Ho/publication/4290624_Overview_of_Multi-view_Video_Coding/links/568af3d808ae1975839dbcd0/Overview-of-Multi-view-Video-Coding.pdf
- M. M. Hannuksela, Y. Yan, X. Huang, H. Li, "Overview of the multiview high efficiency video coding (MV-HEVC) standard", In 2015 IEEE International Conference on Image Processing (ICIP). IEEE, pp. 2154-2158, 2015.
- ISO/IEC JTC1/SC29/WG11, "Call for Proposals on 3DoF+ Visual", 125th MPEG meeting of ISO/IEC JTC1/SC29/WG11, MPEG/n18145, 2019.
- B. Kroon, B. Sonneveldt, "Philips response to CfP on 3DoF+", 126th MPEG meeting of ISO/IEC JTC1/SC29/WG11, MPEG2019/m47179, 2019.
- J. Fleureau, F. Thudor, R. Dore, M. Dmitrichenko, B. Salahieh, J. Boyce, "Description of Technicolor Intel response to MPEG-I 3DoF+ Call for Proposal", 126th MPEG meeting of ISO/IEC JTC1/SC29/WG11, MPEG2019/m47445, 2019.
- M. Domanski, A. Dziembowski, D. Mieloch, O. Stankiewicz, J. Stankowski, A. Grzelka, G. Lee, J. Y. Jeong, J. Seo, "Technical description of proposal for Call for Proposals on 3DoF+ Visual prepared by Poznan University of Technology (PUT) and Electronics and Telecommunications Research Institute (ETRI)", 126th MPEG meeting of ISO/IEC JTC1/SC29/WG11, MPEG2019 /m47407, 2019.
- V. K. M. Vadakital, K. Roimela, L. Ilola, J. Keranen, M. Pesonen, S. Schwarz, J. lainema,M. Hannuksela, "Description of Nokia's response to CFP for 3DOF+ visual", 126th MPEG meeting of ISO/IEC JTC1/SC29/WG11, MPEG2019/m47372, 2019.
- B. Wang, Y. Sun, W. Wang, J. Chen, L. Yu, H. Yu, "Description of Zhejiang University's response to 3DoF+ Visual CfP", 126th MPEG meeting of ISO/IEC JTC1/SC29/ WG11, MPEG2019/m47684, 2019.
- B. Salahieh, B. Kroon, J. Jung, M. Domanski, "Test Model for Immersive Video",126th MPEG meeting of ISO/IEC JTC1/SC29/ WG11, MPEG2019/n18470, 2019.
- J. Jung, B. Kroon, J. Boyce, "Common Test Conditions for Immersive Video", 128th MPEG meeting of ISO/IEC JTC1/SC29/ WG11, MPEG128/n18789, 2019.
- S. Yule, A. Lu, L. Yu, "Weighted-to-spherically-uniform quality evaluation for omnidirectional video", IEEE signal processing letters, 24(9), pp. 1408-1412, 2017. https://doi.org/10.1109/LSP.2017.2720693
- Z. Wang, A. C. Bovik, H. R. Sheikh, E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity", IEEE transactions on image processing, 13(4), pp. 600-612, 2004. https://doi.org/10.1109/TIP.2003.819861
- Z. Wang, E. P. Simoncelli, A. C. Bovik, "Multiscale structural similarity for image quality assessment", In The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, Vol. 2, pp. 1398-1402, 2003.
- C. G. Bampis, A. C. Bovik, Z. Li. "A Simple Prediction Fusion Improves Data-driven Full-Reference Video Quality Assessment Models", In 2018 Picture Coding Symposium (PCS), pp. 298-302, 2018. https://doi.org/10.1109/PCS.2018.8456293
- A. Dziembowski, "Software manual of IV-PSNR for Immersive Video", 128th MPEG meeting of ISO/IEC JTC1/SC29/ WG11, MPEG127/n18709, 2019.
- V. Baroncini, G. Baroncini, "Report of the evaluation of the responses to the CfP on 3DoF+ Visual", 126th MPEG meeting of ISO/IEC JTC1/SC29/ WG11, MPEG2019 /m47979, 2019.
- ITU-R BT.2022, "General viewing conditions for subjective assessment of quality of SDTV and HDTV television pictures on flat panel displays," ITU, 2012.
- R. Sebastian, "An overview of gradient descent optimization algorithms", arXiv preprint arXiv: 1609.04747, 2016. https://ruder.io/optimizing-gradient-descent/