DOI QR코드

DOI QR Code

A Novel Fast and High-Performance Image Quality Assessment Metric using a Simple Laplace Operator

단순 라플라스 연산자를 사용한 새로운 고속 및 고성능 영상 화질 측정 척도

  • Bae, Sung-Ho (Korea Advanced Institute of Science and Technology, School of Electrical Engineering) ;
  • Kim, Munchurl (Korea Advanced Institute of Science and Technology, School of Electrical Engineering)
  • 배성호 (한국과학기술원 전기및전자공학부) ;
  • 김문철 (한국과학기술원 전기및전자공학부)
  • Received : 2016.01.19
  • Accepted : 2016.03.09
  • Published : 2016.03.30

Abstract

In image processing and computer vision fields, mean squared error (MSE) has popularly been used as an objective metric in image quality optimization problems due to its desirable mathematical properties such as metricability, differentiability and convexity. However, as known that MSE is not highly correlated with perceived visual quality, much effort has been made to develop new image quality assessment (IQA) metrics having both the desirable mathematical properties aforementioned and high prediction performances for subjective visual quality scores. Although recent IQA metrics having the desirable mathematical properties have shown to give some promising results in prediction performance for visual quality scores, they also have high computation complexities. In order to alleviate this problem, we propose a new fast IQA metric using a simple Laplace operator. Since the Laplace operator used in our IQA metric can not only effectively mimic operations of receptive fields in retina for luminance stimulus but also be simply computed, our IQA metric can yield both very fast processing speed and high prediction performance. In order to verify the effectiveness of the proposed IQA metric, our method is compared to some state-of-the-art IQA metrics. The experimental results showed that the proposed IQA metric has the fastest running speed compared the IQA methods except MSE under comparison. Moreover, our IQA metric achieves the best prediction performance for subjective image quality scores among the state-of-the-art IQA metrics under test.

영상 처리 및 컴퓨터 비전 분야에 있어서, 평균 제곱 오차(Mean Squared Error: MSE)는 좋은 수학적 특성(예를 들어, 척도성(metricability), 미분가능성(differentiability) 및 볼록 성질(convexity))을 가짐으로 인해 많은 영상 화질 최적화 문제의 객관적 척도로 사용되어 왔다. 그러나 MSE가 영상의 왜곡 신호에 대한 시각적 인지 화질과 상관도가 높지 않다는 것이 알려지면서, 이를 해결하기 위해 위에서 언급한 좋은 수학적 특성과 높은 영상 화질 예측 성능을 동시에 가지는 객관적 영상 화질 측정(Image Quality Assessment: IQA)척도가 활발히 연구되어 왔다. 비록 최근 제안된 좋은 수학적 성질을 만족시키는 IQA 척도들은 MSE와 비교하여 매우 향상된 주관적 화질 예측 성능을 보이지만, 상대적으로 높은 계산 복잡도를 가진다. 본 논문은 이를 해결하기 위해, 단순 라플라스 연산자를 이용한 좋은 수학적 특성을 가지는 새로운 IQA 척도를 제안한다. 제안 IQA 방법에 도입한 단순 라플라스 연산자는 인간 시각 체계의 망막에서의 광도 자극에 대한 시신경 반응을 효과적으로 모사할 뿐만 아니라 계산이 매우 단순하기 때문에, 제안 IQA 척도는 단순 라플라스 연산자를 사용하여 매우 빠른 계산 속도와 높은 주관적 화질 점수 예측력을 확보하였다. 제안 IQA 척도의 효과를 검증하기 위해, 최신 IQA 척도들과 광범위한 성능비교 실험을 수행하였다. 실험 결과, 제안하는 IQA 척도는 모든 테스트 IQA 척도들 중 MSE를 제외하고 가장 빠른 처리 속도를 보였을 뿐만 아니라, 가장 높은 주관적 화질예측 성능을 보였다.

Keywords

Ⅰ. 서 론

영상의 화질을 객관적으로 측정하는 알고리즘은 영상처리 및 컴퓨터 비전 분야에서 매우 중요하게 사용된다[1]. 예를 들어, 객관적 영상 화질 측정(Image Quality Assessment: IQA) 방법은 영상 처리 및 컴퓨터 비전 알고리즘을 통해 획득된 복원 영상의 화질을 쉽고 빠르게 측정하기 위한 척도로 사용된다[2]. 또한, 객관적 IQA 방법은, 영상 복원 문제에 있어서 인지적으로 높은 화질 영상을 복원할 때 영상 화질 최적화 문제의 목적 함수(objective functions) 또는 사전 지식(prior knowledge)으로 사용되거나, 계산 복잡도를 줄이기 위한 국부-선택적인 영상복원 방법에 적용될 수 있다[3], [4]. 최근에는, 영상 또는 비디오 압축에 있어서 시각적으로 보이지 않는 신호를 압축 과정에서 효과적으로 제거하여 동일 인지 화질 대비 압축 효율을 향상시키기 위해 객관적 IQA 방법들이 사용되고 있다[5]-[9].

왜곡 영상에 대한 객관적 영상 화질 측정 방법은 참조 영상 정보의 사용 가능성 정도에 따라 완전 참조(Full-Reference: FR) IQA 방법, 감소 참조(Reduced-Reference: RR) IQA 방법, 무 참조(No-Reference: NR) IQA 방법으로 나뉜다[10]. 본 논문에서는 완전 참조 IQA(FR-IQA) 방법만을 다룬다.

평균 제곱 오차(Mean Squared Error: MSE)는 영상 처리 및 컴퓨터 비전 분야에서 영상 화질 최적화 문제에 사용되는 대표적인 FR-IQA 방법으로, 계산이 간단하고 최적화 문제에 적용하기 좋은 수학적 특성인 척도성(metricability), 미분가능성(differentiability) 및 볼록 성질(convexity)을 가지고 있기 때문에 널리 이용되어 왔다. 그러나 이러한 객관적 FR-IQA 방법은 신호의 통계적 특성에만 의존할 뿐 인간 시각 체계(Human Visual System: HVS)의 인지 화질 특성을 잘 반영하지 않기 때문에, 주관적 화질과의 상관도가 높지 않다[1].

이를 극복하기 위해, 주관적 화질과 높은 상관도를 가지는 FR-IQA 방법을 개발하기 위한 연구가 활발히 진행되어 왔다[10]-[20]. 대표적으로 Wang이 제안한 SSIM(Structural SIMilarity)은 기존 방법과 비교하여 획기적인 주관적 화질예측 성능 향상을 보였다[11]. 그러나 SSIM을 포함한 대부분의 FR-IQA 방법은 위에서 언급한 좋은 수학적 특성을 만족시키지 못하기 때문에, 영상 화질 최적화에 적용하기 어려운 문제가 있었다. 이에 따라, 최근 영상 화질 최적화 문제에 적용이 용이하도록, 좋은 수학적 특성을 만족시키면서 또한 높은 주관적 화질 예측 성능을 가지는 FR-IQA 척도를 개발하기 위한 활발한 노력이 있어 왔다[19],[20]. 본 논문에서는 영상 화질 최적화 문제 적용에 용이한 좋은 수학적 특성을 만족시키는 고속 FR-IQA 모델링 방법에 집중한다.

Brunet은 SSIM에 대한 수학적 성질 분석을 통해, 최초에 제안된 SSIM이 최적화 문제에 적용되기에 좋은 수학적 특성들(예를 들어, 유효 거리 척도성 및 유사-볼록(quasi-convex) 특성)을 가지지 못함을 보이고, 이러한 좋은 수학적 특성들을 가지도록 하는 확장된 변형 SSIM(Modified SSIM: MoSSIM)을 제안하였다[19]. Xue는 가우시안 평활화(smoothing)가 적용된 원본 영상과 왜곡 영상간 오차의 평균 제곱값으로 왜곡에 대한 인지 화질 정도를 모델링 하였고, 이를 PAMSE(Perceptual fidelity Aware Mean Squared Error)로 명명하였다[20]. PAMSE는 가중치-평균 제곱 오차(weighted MSE)와 같이 해석될 수 있기 때문에 위에서 언급한 좋은 수학적 특성을 모두 만족한다.

그럼에도 불구하고, 최근 개발된 MoSSIM과 PAMSE는 상대적으로 높은 계산 복잡도를 요구한다. 본 논문에서는 이 문제를 완화하기 위해 새로운 단순 라플라스 연산자를 이용한 FR-IQA 척도(Simple Laplace operator-based Quality Metric: SLQM)를 제안한다. 본 논문에서 FR-IQA 모델링을 위해 처음으로 도입한 단순 라플라스 연산자는 사람 시각 체계(Human Visual System: HVS)의 인지 화질 특성을 효과적으로 반영하면서 동시에 매우 낮은 연산 복잡도를 가지고 있기 때문에 제안 FR-IQA 척도는 높은 주관적 화질 예측 성능을 유지하면서 위에서 언급한 계산 복잡도 문제를 효과적으로 완화시킬 수 있다.

본 논문은 다음과 같이 구성된다. 2장에서는 좋은 수학적 특성을 가지는 FR-IQA 척도에 대한 관련 연구를 알아본다. 3장은 제안하는 FR-IQA 방법을 설명하며, 4장은 제안 방법 성능을 다양한 조건에서 실험하고, 결과를 분석한다. 5장은 제안 방법의 효과를 광범위한 실험을 통해 검증한다. 6장은 본 논문의 결론을 맺는다.

 

II. 관련 연구

앞에서 언급한 좋은 수학적 특성들, 즉, 척도성, 미분가능성 및 볼록 성질을 모두 만족시키는 FR-IQA 척도는 영상 화질 최적화 문제의 목적 함수로 매우 효과적으로 사용될 수 있다. 예를 들어, 유효 거리 척도성은 영상 화질 최적화 알고리즘을 설계할 때 알고리즘의 수렴가능성 및 수렴 속도에 대한 분석을 용이하게 한다. 미분 가능성 및 볼록 성질을 가지는 FR-IQA 척도는 영상 화질 최적화 문제에 적용될 시 수치적 방법(또는 분석적 방법)을 통해 최적해에 항상 수렴하도록 알고리즘을 설계할 수 있다. 최근 개발된 MoSSIM[19]과 PAMSE[20]는 MSE보다 향상된 주관적 화질 예측 성능을 가지면서 위에서 언급한 좋은 수학적 특성들을 가지고 있다. 이 장에는 MoSSIM과 PAMSE 방법에 대해 설명한다.

1. Modified SSIM(MoSSIM)

Wang이 제안한 SSIM 방법은 ‘HVS는 영상 패턴의 구조적 정보를 추출하는데 상당히 적응되어 있다’라는 가정을 기반으로 개발되었고, 현재 FR-IQA 방법의 마일스톤으로 평가받고 있다[11]. SSIM은 이에 따라 원본 영상과 왜곡된 영상 간 광도(luminance), 대비(contrast) 및 구조(structure) 특징에 대한 유사도를 기반으로 왜곡 영상의 화질을 예측했다. SSIM은 국부 영상 영역의 화질을 예측하기 위해, 특징값(국부 영상 신호들의 평균값, 분산값 또는 중심화 된(평균이 0인) 픽셀 벡터)을 영상 신호로부터 추출하고, 원특징 값에 대한 유사도 형태(similarity form)로 국부 영역의 화질을 예측했다. SSIM에서 국부 영역 화질을 예측하기 위한 식은 (1), (2)와 같다.

여기서 x, y는 각각 원본 영상 X와 왜곡 영상 Y의 벡터화 된 국부 영상 신호들을 의미하며, ϕ(•)는 영상 신호의 특징값을 계산하는 함수이다. 식 (2)의 θ는 분모가 0이 되는 것을 방지하기 위한 양수 값을 가지는 모델 파라미터이다. 식 (2)는 k번째 특징에 대한 원본과 왜곡 국부 영상의 유사도를 계산하며, 식 (1)로부터 총 K개의 특징들에 대한 유사도 값을 모두 곱함으로써 국부 영상에 대한 화질을 예측하였다. 최종적으로 SSIM은 전체 영상에 대한 왜곡을 각각 국부 영역에서 예측한 화질 값의 평균으로 계산했다. X에 대한 Y에 대한 예측 영상 화질 값은 식 (3)과 같이 계산된다.

여기서 xj, yj는 각각 원본 영상 X와 왜곡 영상 Y의 총 J개 의 국부 영상 중 j번째 국부 영상 신호를 의미한다.

비록 SSIM이 기존 FR-IQA 방법과 비교하여 괄목할 만한 주관적 화질 점수 예측 성능 향상을 보였지만, SSIM은 영상 화질 최적화 문제의 목적 척도로 도입되기에는 좋은 수학적 특성이 부족했다. 즉, SSIM은 유효한 거리 척도 특성을 가지지도 않았고, 볼록함수의 특성도 없었기 때문에 최적화 문제에 적용 시 알고리즘의 수렴 가능성을 분석하기도 힘들었을 뿐만 아니라, 전역 최적해를 보장하지도 않았다. 그림 1은 식 (2)의 SSIM의 국부 영역에 대한 유사도를 도시하며, 여기서 ϕ(x)=0 으로 두었다. 그림 1에서 알 수 있듯이, SSIM은 볼록 성질을 가지지 않으며, 최적화 문제에 적용 시 전역 최적 해에 수렴하지 않을 수 있다.

그림 1.SSIM의 국부 영역에 대한 유사도값의 예(ϕ(x)=0 인 경우) Fig. 1. An example of the similarity form in SSIM for ϕ(x)=0

이를 극복하기 위해, 최근 Brunet은 좋은 수학적 특성을 가지는 FR-IQA 방법으로 변형된 SSIM(Modi- fied SSIM, MoSSIM)을 제안했고, 제안한 방법은 SSIM과 거의 동일한 주관적 화질 예측 성능을 가지면서, 동시에 어느 정도 제한된 조건에서 위에서 언급한 좋은 수학적 특성을 보유하였다[19]. 이를 위해 MoSSIM은 SSIM의 식 (1)과 (2)를 각각 아래의 식 (4), (5)와 같이 변형하였다.

여기서 x, y는 각각 원본 영상 X와 왜곡 영상 Y의 벡터화된 국부 영상 신호들을 의미하며, ϕ(•)는 영상 신호의 특징값을 계산하는 함수이다. 식 (5)의 θ는 분모가 0이 되는 것을 방지하기 위한 양수 값을 가지는 모델 파라미터이다. 식 (5)는 정규화된 평균 제곱 오차(Normalized Mean Squared Error, NMSE)이며, ϕk(x)Tϕk(y) ≥ -0.5θ의 조건에서 유사 볼록(quasi-convex)성을 만족한다[19]. 이는 MoSSIM이 최적화 문제에 적용될 경우 수치계산적 방법을 통해 최적 해에 수렴할 수 있음을 의미한다. 또한 MoSSIM은 부분 정렬 조건(partially ordered condition)에서 유효 거리 척도성을 가진다.

그럼에도 불구하고, MoSSIM은 영상의 광도, 대비 및 구조 특징을 계산하기 위해 영상 국부 영역의 픽셀 값들에 대한 평균, 분산 및 피어슨 선형 상관 계수(Pearson Linear Correlation Coefficient, PLCC)를 계산하기 때문에 높은 계산 복잡도를 가진다.

2. Perceptual Fidelity Aware Mean Squared Error(PAMSE)

최근, Xue는 MSE의 좋은 수학적 특성을 가지면서 동시에 높은 주관적 화질 예측 성능을 가지는 FR-IQA 방법을 제안하기 위해, 시각 인지 특성을 반영하는 선형 연산자가 도입된 MSE 기반의 FR-IQA 방법(Perceptual fidelity Aware Mean Squared Error, PAMSE)을 제안했다[20]. 제안된 PAMSE는 좋은 수학적 특성을 유지하면서 동시에 MoSSIM보다 훨씬 고속으로 동작한다. PAMSE는 식 (6)의 수학식으로 계산된다.

여기서 X와 Y는 각각 원본 및 왜곡 영상을 가리키며, N은 한 영상에서 총 픽셀의 개수이다. 식 (6)에서 Gσ는 표준편차값이 σ인 가우시안 커널을, ⊗는 콘볼루션 연산자를 의미한다. 식 (6)은 계산복잡도 감소를 위해 콘볼루션 연산에 대한 분배 법칙을 이용하여 최종적으로 식 (7)로 계산된다.

Gσ는 선형 연산자이기 때문에, 식 (7)의 PAMSE는 미분 가능하며 볼록 성질을 가지는 함수임을 알 수 있다.

PAMSE는 위에서 설명한 좋은 수학적 특성 외에도 구현이 간단하고 계산 속도가 빠른 장점이 있지만, 주관적 화질예측 성능은 MoSSIM보다 상당히 낮다. 뿐만 아니라, 식 (7)에서 사용되는 가우시언 커널(Gσ)의 표준편차 σ가 증가할수록 요구되는 커널의 크기가 증가하며, 증가된 커널 크기는 PAMSE의 계산 복잡도를 증가시킨다.

 

III. 제안 Simple Laplace operator based Quality Metric(SLQM)

본 논문에서 단순 선형 연산자(라플라스 연산자)를 사용하는 FR-IQA 척도를 제안한다. 본 논문에서 우리는 제안 방법을 Simple Laplace operator based Quality Metric (SLQM)으로 명명하였다. 다양한 색 공간에서 제안 SLQM의 성능을 테스트 해 보았고, 결과적으로 제안방법은 Luv 색 공간에서 상대적으로 높은 예측 성능을 가지는 것을 확인하였다(보다 자세한 실험 결과는 4장에서 설명됨). 결과적으로, 제안 SLQM 방법은 Luv 색 공간에서 수행된다. 원본 영상 및 왜곡 영상 신호는 각각 X = (XL, Xu, Xv), 왜곡 영상 Y = (YL, Yu, Yv)으로 표현되며, 여기서 아래첨자 L은 광도(luminance) 채널을 u, v는 색차(chrominance) 채널을 의미한다. 제안하는 SLQM은 3차원의 특징 벡터 Φ = [ϕ1, ϕ2, ϕ3]T에 대한 가중치합으로 모델링 되었다. SLQM에서 광도 신호에 대한 특징을 추출하기 위해, 우리는 식 (8)과 같은 단순 라플라스 연산자를 도입한다.

이러한 라플라스 연산자는 HVS의 영상 신호 자극에 대한 시각 인지 반응을 효과적으로 모사할 수 있다. 자세히 설명하면, HVS는 입력되는 광도 신호를 1차적으로 망막(retina)의 시신경 세포(cons and rods)에서 흡수하여 이를 전기적 신호로 전환하며, 이 전기적 신호는 압축된 형태로 광학 신경다발(optical nerve)을 통과 하여 시각 피질(visual cortex)로 전달된다. 이 때, 광학 신경다발에 전달되는 전기적 신호는 망막에 입력된 국부 영상신호의 광도 대비 차이 신호(인접 광도 신호 간 차분 신호)로 압축되어 전달된다[20]. 따라서 본 논문에서 사용하는 단순 라플라스 연산자를 기반으로 하는 FR-IQA 척도는 HVS의 영상 신호에 대한 시각 인지 반응에 대한 매커니즘을 효과적으로 반영할 수 있으며, 결과적으로 제안 SLQM가 높은 주관적 화질 예측 성능을 갖도록 한다.

우리는 식 (8)의 연산자를 이용해 XL 와 YL 각각에 대해 발산(divergence)맵에 대한 MSE를 최종 광도 신호의 특징 값(ϕ1)으로 제안한다. 즉, 본 논문에서 제안하는 광도 신호의 특징값은 식 (9)로 표현된다.

여기서 NL은 하나의 광도 채널 영상에 대한 총 픽셀의 개수이다. 식 (7)의 가우시언 커널 기반 MSE 방법인 PAMSE와 제안 SLQM의 식 (9)는 유사한 구조를 가지고 있으나 이 둘은 근본적으로 다른 매커니즘을 내포한다. 일반적으로, 가우시언 커널을 이용한 영상의 컨볼루션은 영상의 고주파 성분을 제거하고 신호를 스무딩하기 위한 목적을 가진다. 반면 라플라스 커널을 이용한 영상의 컨볼루션은 영상 편집, 합성 등에서 영상의 텍스쳐 추출 (DC를 제외한 나머지 주파수) 을 위한 목적으로 활용되어 왔다. 따라서 PAMSE는 인지적으로 둔감한 영상의 고주파 성분을 배제하는 관점에서 인지적 왜곡 예측을 수행한다고 볼 수 있다. 반면, 제안 SLQM은 영상의 텍스쳐 성분이 DC 성분보다 인지 화질에 더욱 중요하다고 보고, 영상의 텍스쳐 성분에 한해 중점적으로 인지적 왜곡을 예측하겠다는 의도로 제안되었다.

우리는 다음으로, 색차 신호 왜곡에 대한 인지화질 변화를 예측하기 위해, 원본 영상과 왜곡 영상의 u, v 채널 영상에 대한 MSE를 특징으로 사용한다. HVS는 색차 신호의 왜곡을 광도 신호의 왜곡보다 둔감하게 인지하기 때문에, 본 논문에서는 먼저 색차 영상들(u, v 채널의 영상들)의 크기를 4의 요소(factor)로 크기 축소(down-sampling, 또는 color sub-sampling)한다. 축소된 색차 영상들의 왜곡에 대한 특징은 식 (10)으로 계산된다.

여기서 Nu, Nv는 각각 하나의 u, v채널 영상에 대한 총 픽셀의 개수이며, ↓4 는 4의 요소를 가지는 크기 축소 연산자이다.

최종적으로 제안하는 SLQM은 위에서 추출한 3개의 특징값들의 가중치 합으로 계산된다. 즉, SLQM은 식 (11)으로 최종 계산된다.

여기서 W = [w1, w2, w3]T 는 각 특징들의 가중치이며, 본 논문에서는 실험적으로 w1 = 0.8, w2 = w3 = 0.1 으로 설정했다. 결과적으로, 제안하는 SLQM은 식 (11)에서 보듯이 특징들에 대한 가중치된 MSE의 구조를 가지며, 따라서 각각의 특징들은 그 입력에 대해 모두 미분 가능한 볼록함수의 성질을 가지는 것을 쉽게 알 수 있다. 이는 제안하는 SLQM가 영상 화질 최적화 문제의 목적함수로 사용될 경우 분석적 방법(또는 수치적 방법)을 통해 전역 최적점에 쉽게 수렴될 수 있다는 것을 의미한다.

 

V. 제안 SLQM에 대한 분석

본 장에서는 제안 SLQM에 대한 광범위한 성능 분석을 수행한다. 즉, i) 제안 SLQM을 다양한 색공간에 적용함에 따라 어떤 성능 변화가 있는지를 분석하며 ii) 제안 SLQM에 있어서 식 (10)과 식 (11)에서 사용된 광도 및 색차 신호에 대한 각각의 특징들에 대한 단독 성능 분석을 수행하여 제안 방법에 사용된 라플라스 연산자의 효과성을 분석한다. 이를 위해 현재 공식적으로 사용가능하며 가장 많은 데이터를 가지는 4개의 데이터베이스(TID2013[21], TID2008[22], CSIQ[18], LIVE[23])에 대해 주관적 화질 예측 성능 실험을 수행하였다. 표 1은 실험에 사용된 데이터베이스의 정보를 보인다.

표 1.실험에 사용된 데이터베이스 정보 Table 1. Information of eight publicly available IQA databases

성능 검증을 위해, 본 논문에서는 4개의 성능 지표를 도입하였다. 즉, SROC(Spearman Rank-Order Correlation coefficient), KROC(Kendall Rank-Order Correlation coefficients), PLCC(Pearson Linear Correlation coefficient) 및 RMSE(Root Mean Squared Error)을 사용하였다. 여기서 SROC, KROC, PLCC는 IQA 방법을 이용해 예측한 화질 값과 실제 측정한 주관적 화질 값 간의 상관도를 나타내는 것으로, 큰 값을 가질수록 해당 FR-IQA 방법이 더 좋은 성능을 가진다고 할 수 있다. 반면 RMSE(Root Mean Squared Error)의 경우 FR-IQA 방법으로 예측한 결과 값과 실제 측정한 주관적 화질 점수 간 평균 유클리디언 거리를 나타내는 것으로, 이 거리가 0에 가까울수록 FR-IQA 방법이 주관적 화질 점수를 더 정확하게 예측한다고 할 수 있다. FR-IQA 방법의 예측된 값과 실제 측정한 주관적 화질 점수간 단조-비선형 관계를 가질 수 있기 때문에, 로지스틱 회귀모델[24]을 사용하여 예측한 화질값을 측정값 주관적 화질 점수에 매핑한 후 PLCC와 RMSE을 측정하였다. 4가지 성능 측정 지표 중, SROC 및 KROC가 FR-IQA 방법의 성능을 측정하기 위한 대표적인 성능 지표로 사용된다[10].

첫 번째로, 제안 SLQM의 성능이 다양한 색공간에서 어떤 성능 변화를 가지는지를 분석하기 위해, 5 종류의 색공간, 즉, XYZ, HSV, RGB, YCbCr, Luv에 대해서 실험을 수행하였다. SLQM에 도입된 각각의 색공간 정보는 SLQM의 아래첨자로 표시하였다(예를 들어, YIQ 색공간에 대해 수행된 SLQM은 SLQMYIQ로 표시). 표 2는 다섯 종류의 색공간에 대한 제안 방법의 주관적 화질 점수 예측 성능을 보인다. 결과적으로 Luv 색공간에서 제안 방법은 가장 높은 성능을 보였다. 따라서 본 논문에서 제안하는 SLQM는 Luv 색 공간에서 계산되도록 설정하였다. 색 공간과 IQA방법의 화질점수 예측력 간 상관관계에 대한 보다 근본적인 이유에 대한 연구는 아직 기존 어떤 논문에서도 언급되지 않았으며, 이에 대해서는 향후 확장 연구를 통해 밝혀낼 계획이다.

표 2.다섯 종류의 색공간(HSV, XYZ, RGB, YCbCr, YIQ)에 대한 제안 SLQM의 주관적 화질 예측 성능 실험 결과 Table 2. Performance of SLQM for five different color spaces (HSV, XYZ, RGB, YCbCr, YIQ)

두 번째로, 제안 SLQM에 있어서 식 (9)의 라플라스 연산된 광도신호의 MSE 및 식 (10)의 색차 신호의 MSE가 각 특징들이 영상의 화질 예측에 어떤 영향을 주는지 확인하였다. 이를 위해 식 (9) (SLQML으로 명명) 및 식 (10)(SLQMuv라고 명명) 특징들을 각각 독립적으로 사용하여 주관적 화질 성능 평가를 수행하였다. 표 3은 Luv을 모두 사용한 식 (11)의 제안방법(SLQMLuv), 식 (9)만 사용한 SLQML, 식 (10)만 사용한 SLQMuv의 성능을 보인다. 실험 결과, 표 3에서 볼 수 있듯이 광도 신호(L)에 대한 Laplace 연산 기반 MSE가 색차신호 (u,v)의 MSE보다 훨씬 더 영상 화질 예측 성능에 큰 영향을 준다. 결과적으로 표 3을 통해 우리는 식 (9)의 광도 신호에 대한 왜곡 모델과 식 (10)의 색차 신호에 대한 왜곡 모델을 결합한 경우 SLQM의 성능이 가장 극대화 된다는 것을 확인할 수 있다. 따라서 본 논문에서 제안하는 SLQM은 식 (9)의 라플라스 연산된 광도신호에 대한 MSE 모델 과 식 (10)의 색차 신호에 대한 MSE 모델 모두를 사용한 식 (11)로 모델링되었다.

표 3.Luv을 모두 사용한 제안방법 (SLQMLuv), 광도 신호 왜곡 특징 (SLQML), 색차 신호 왜곡 특징 (SLQMuv) 각각에 대한 주관적 화질 예측 성능 실험 결과 Table 3. Performance comparison of SLQMLuv, SLQML and SLQMuv

추가적으로, 본 논문에서 제안하는 라플라스 연산자 기반 MSE가 색체 신호에 대한 왜곡 모델로도 적합한지 확인하기 위해 L, u, v 각각의 채널마다 모두 식 (9)와 동일한 라플라스 연산기반 MSE를 사용하여 주관적 화질 예측 성능을 테스트하였다. 편의상 이렇게 변형된 방법을 SLQMmod1 이라고 명명하였다. 실험 결과, 4개의 IQA 데이터셋(TID2013, TID2008, CSIQ, LIVE)에 대한 SLQMmod1의 전체 성능은 SROC = 0.8322, KROC = 0.6574, PLCC = 0.7146 으로 색상 채널에 대한 왜곡을 단순 MSE로 계산한 원래 SLQM보다 SROC, KROC, PLCC 관점에서 각각 2.8%-포인트, 3.2%-포인트 2.1%-포인트 낮은 성능을 보였다. 결론적으로, u와 v 영상 신호에 대해 식 (10)의 단순 MSE 가 아닌 식 (9)의 라플라스 연산자 기반 MSE를 적용할 경우 계산 복잡도는 크게 증가하지만 예측 성능은 오히려 감소하는 것으로 나타났다.

우리는 이에 대한 분석을 위해 IQA영상 데이터 셋을 정밀히 조사하였다. 조사 결과, 색차 왜곡을 포함하는 영상의 경우 피 실험자들은 색차 신호의 구조적 왜곡(예를 들어 Bayes 패턴과 유사한 왜곡 등)보다는 색차 값 자체가 바뀐 경우(예를 들어 색 포화 왜곡 등)에 대해 상대적으로 왜곡을 크게 인지(낮은 주관적 화질 점수값을 책정)한 것을 확인하였다. 이는 색차 신호의 왜곡을 모델링하기 위해서는 색차 신호의 구조적 정보를 사용하기 보다는 색차 신호 값 자체의 차이를 비교하는 것이 더 효과적일 수 있음을 의미한다. 따라서 본 논문에서는 u와 v 영상 신호에 대해서는 식 (10)과 같이 단순 MSE를 사용하여 인지 왜곡을 모델링하였다.

 

VI. 실험 결과

제안하는 SLQM의 성능을 주관적 영상 화질 예측 정확도 및 계산 복잡도 측면에서 검증하였다. 본 논문에서는 영상 최적화 문제에 적용이 용이한 좋은 수학적 특성을 가지는 FR-IQA 모델링 방법에 집중하였기 때문에 제안 SLQM는 마찬가지로 좋은 수학적 특성을 가지는 3종류의 FR-IQA 척도들(PSNR, MoSSIM[19], PAMSE[20])과 비교되었다. 여기서 MoSSIM, PAMSE는 모두 광도 신호에 대한 왜곡만을 고려한다. 반면, 본 논문에서 제안하는 SLQM은 식 (10)을 이용해 색차 신호에 대한 왜곡도 고려하고 있다. 공정한 비교를 위해, MoSSIM 및 PAMSE에 대해 제안한 방법과 동일한 식 (10)의 색차 신호에 대한 왜곡 모델을 추가한 경우에 대해서도 실험을 수행하였다. 색차신호에 대한 왜곡 모델이 추가된 MoSSIM 및 PAMSE는 각각 MoSSIMc, PAMSEc으로 명명하였다.

실험에 사용된 IQA 데이터베이스는 총 4개 (LIVE, CSIQ, TID2008, TID2013)로, 표 1은 이들에 대한 정보를 보인다. 표 4는 테스트 FR-IQA 척도들에 대한 영상 화질 예측 성능 실험 결과를 보인다. 결과적으로, 표 4에서 알 수 있듯이 제안하는 SLQM 은 다른 비교 FR-IQA 척도들(광도 신호에 대한 왜곡만 고려한 경우 및 광도 및 색차 신호에 대한 왜곡을 모두 고려한 경우 모두)과 비교하여 평균 SROC, KROC 관점에서 가장 좋은 성능을 보였다. PSNR의 경우, 전체 SROC 및 KROC 관점에서 비교 FR-IQA 척도들 중 가장 낮은 성능을 보였다. 그 이유는 PSNR은 MSE를 이용해서 계산되는데, MSE은 HVS의 시각 화질 인지 특성을 잘 반영하지 못하기 때문이다. PAMSE의 경우 LIVE 데이터베이스에서만 가장 좋은 성능을 보였다(SROC, KROC 기준). 이는 PAMSE가 LIVE 데이터베이스에 포함된 소수의 특정 왜곡 종류(가산 백색 가우시안 노이즈, 가우시안 블러 노이즈, JPEG 압축 노이즈 및 고속 페이딩 노이즈)에 대해서만 잘 동작하도록 설계되었기 때문이다[20]. 따라서 전체 SROC, KROC 측면에서 SLQM은 PAMSE 및 PSNR보다 약 12%~15% 포인트 더 향상된 성능을 보였다. MoSSIM과 비교한 경우, 제안 방법은 전체 SROC, KROC 관점에서 각각 5%-포인트, 7%-포인트 더 높은 성능을 보였다.

표 4.영상 화질 예측 성능 실험 결과 Table 4. Performance of FR-IQA methods under test

색차 왜곡에 대한 특징을 포함한 FR-IQA 방법들과 그렇지 않은 FR-IQA 방법들 (광도 신호에 대한 왜곡 모델만 고려)에 대한 성능을 비교해 보면, 색차 신호 왜곡에 대한 식 (10) 의 특징을 도입한 PAMSEc 및 MoSSIMc는 그렇지 않은 원래 방법들(PAMSE, MoSSIM)보다 성능이 좀 더 향상되는 것을 표 4에서 확인 할 수 있다. 특히 PAMSEc의 경우 PAMSE보다 SROC 및 KROC관점에서 약 3.3%-포인트, 2.3%-포인트 성능이 향상되었다. 반면 MoSSIMc의 경우 약간의 성능 향상을 보였다. 이 실험 결과는 색차 신호에 대한 MSE를 사용한 식 (10)의 왜곡 모델이 광도신호만을 고려하는 FR-IQA 방법의 성능 향상을 위해 효과적으로 사용될 수 있다는 것을 의미한다. 또한 제안 SLQM이 PAMSE 및 MoSSIM보다 더 높은 성능을 가지는 이유가 단순히 색차 신호를 고려했기 때문만은 아님을 명확히 보인다. 결론적으로, 제안 방법의 성능이 PAMSE, PAMSEc, MoSSIM, MoSSIMc 보다 높은 이유는 사람의 시각 체계에서 광도 신호 전달 매커니즘과 유사한 라플라스 커널을 본 논문에서 처음으로 도입했기 때문으로 사료된다.

다음으로 SLQM의 연산속도에 대한 성능실험을 수행하였다. 연산 속도 실험은 24 GB의 RAM을 가지는 3.2 GHz Intel i7TM 프로세서 상에서 수행되었고, 테스트 플랫폼은 MATLABTM R2013a이다. 테스트는 TID2013 데이터베이스의 전체 왜곡 영상에 대해 수행하였고, 평균 연산 속도는 초당 계산 프레임 속도(frames per second, fps)로 구했다. 표 5는 테스트 FR-IQA 척도에 대한 평균 연산속도(fps)를 보인다. 제안하는 SLQM은 PSNR을 제외하면 3개의 FR-IQA 척도들 중 가장 빠른 연산 속도를 가진다. PAMSE의 연산속도는 제안 SLQM보다 약간 느리지만, MoSSIM 보다는 훨씬 빠른 연산 속도(약 1.8배)를 가진다는 것을 알 수 있다. 그러나 표 5에서 보이듯이 PSNR과 PAMSE는 제안 방법보다 영상 화질 예측성능이 상당히 낮다. 비교 FR-IQA 척도들 중 제안 SLQM을 제외하고 가장 높은 주관적 화질 예측 성능을 보인 MoSSIM과 비교 시, SLQM은 1.8배 이상의 훨씬 빠른 연산 속도를 보인다.

표 5.테스트 FR-IQA 방법에 대한 연산 속도 비교 Table 5. Average running speeds of four FR-IQA methods

그림 2는 PAMSE, MoSSIM, SLQM의 예측성능(전체 SROC) 및 처리속도(fps)를 보인다. 그림 2에서 보이듯이 제안 방법은 MoSSIM의 높은 예측 성능 및 PAMSE의 빠른 계산속도의 장점을 모두 가지고 있는 것을 알 수 있다.

그림 2.PAMSE, MoSSIM, SLQM(제안방법)의 예측성능(SROC) 및 처리속도(fps) 비교 Fig. 2. Comparisons of PAMSE, MoSSIM, SLQM in running speed (fps) and prediction performance (SROC)

 

VII. 결 론

본 논문에서는 단순 라플라스 연산자를 이용한 새로운 고속 및 고성능 FR-IQA 척도를 제안했다. 본 논문에서 도입한 단순 라플라스 연산자는 연산이 매우 빠를 뿐만 아니라 HVS의 영상 신호 인지 특성을 반영하고 있기 때문에 제안 FR-IQA 척도에 효과적으로 적용되었다. 실험결과, 제안 SLQM은 비교된 좋은 수학적 특성을 가지는 최신 FR-IQA 척도들보다 더 높은 주관적 화질 예측 성능을 보이면서, 매우 빠른 연산 속도를 보였다. 결론적으로, 제안 방법은 효과적으로 영상 처리 및 컴퓨터 비전 분야의 영상 화질 최적화 문제에 목적함수로 사용될 수 있을 것으로 전망된다.

References

  1. Z. Wang and A. C. Bovik, “Mean squared error: Love it or leave it? A new look at signal fidelity measures,” IEEE Signal Process. Mag., vol. 26, no. 1, pp. 98-117, Jan. 2009. https://doi.org/10.1109/MSP.2008.930649
  2. S.-H. Bae, J. Kim, M. Kim, S. H. Cho, and J. S. Choi, “Assessments of subjective video quality on HEVC-encoded 4K-UHD video for beyond-HDTV broadcasting services,” IEEE Trans. on Broadcast., vol. 59, no. 2, pp. 209-222, Jun. 2013. https://doi.org/10.1109/TBC.2013.2247171
  3. J.-S. Choi, S.-H. Bae and M. Kim, "Single image super-resolution based on self-examples using context-dependent subpatches," IEEE Int. Conf. on Image Proc, Sept. 27-30, 2015.
  4. J.-S. Choi, S.-H. Bae and M. Kim, "A no-reference perceptual blurriness metric based fast super-resolution of still pictures using sparse representation," Proc. SPIE, vol. 9401, pp. 94010N.1-94010N.7, Mar. 2015.
  5. J. Kim, S.-H. Bae, and M. Kim, “An HEVC-compliant perceptual video coding scheme based on JND models for variable block-sized transform kernels,” IEEE Trans. Circuits Syst. Video Technol., vol. 25, no. 11, pp. 1786-1800, Sept. 2015. https://doi.org/10.1109/TCSVT.2015.2389491
  6. S.-H Bae and M. Kim, “A novel DCT-based JND model for luminance adaptation effect in DCT frequency,” IEEE Signal Process. Lett., vol. 20, no. 9, pp. 893-896, Sept. 2013 https://doi.org/10.1109/LSP.2013.2272193
  7. S.-H. Bae and M. Kim, "A new DCT-based JND model of monochrome images for contrast masking effects with texture complexity and frequency," IEEE Int. Conf. on Image Proc, Melborne, Australia, Sept. 15-18, pp. 431-434, 2013.
  8. S.-H Bae and M. Kim, “A novel generalized DCT-based JND profile based on an elaborate CM-JND model for variable block-sized transforms in monochrome images,” IEEE Trans. on Image Process., vol. 23, no. 8, Aug. 2014.
  9. S.-H. Bae and M. Kim, “A DCT-based Total JND Profile for Spatio-Temporal and Foveated Masking Effects,” IEEE Trans. Circuits Syst. Video Technol., to appear, 2016.
  10. L. Zhang, L. Zhang, X. Mou, and D. Zhang, "A comprehensive evaluation of full reference image quality assessment algorithms," Proc. 19th IEEE Int. Conf. Image Process., pp. 1477-1480, Sep./Oct. 2012.
  11. Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Trans. on Image Process., vol. 13, pp. 600-612, Apr. 2004. https://doi.org/10.1109/TIP.2003.819861
  12. Z. Wang and Q. Li, “Information content weighting for perceptual image quality assessment,” IEEE Trans. Image Process., vol. 20, no. 5, pp. 1185-1198, May 2011. https://doi.org/10.1109/TIP.2010.2092435
  13. Z. Wang, E. P. Simoncelli, and A. C. Bovik, "Multiscale structural similarity for image quality assessment," Proc. 37th Asilomar Conf. Signals, Syst., Comput., pp. 1398-1402, Nov. 2003.
  14. S.-H. Bae, M. Kim, "A Novel SSIM Index for Image Quality Assessment using a New Luminance Adaptation Effect Model in Pixel Intensity Domain," IEEE Video Comm. and Image Proc., Dec. 13-16, 2015.
  15. S.-H. Bae and M. Kim, "A novel image quality assessment based on an adaptive feature for image characteristics and distortion types," IEEE Video Comm. and Image Proc., Dec. 13-16, 2015.
  16. S.-H. Bae and M. Kim, “Elaborate Image Quality Assessment with a Novel Luminance Adaptation Effect Model,” Journal of Broadcast Engineering, vol. 20, no. 6, pp. 1-10, Nov. 2015. https://doi.org/10.5909/JBE.2015.20.6.818
  17. S.-H. Bae and M. Kim,“A Novel Image Quality Assessment with Globally and Locally Consilient Visual Quality Perception,” IEEE Trans. on Image Process., to appear, 2016.
  18. E. C. Larson and D. M. Chandler, “Most apparent distortion: Full-reference image quality assessment and the role of strategy,” J. Electron. Imag., vol. 19, no. 1, pp. 001006:1–001006:21, Jan. 2010.
  19. D. Brunet, E. R Vrscay, and Z. Wang. “On the mathematical properties of the structural similarity index,” IEEE Trans. Image Process., vol. 21, no.4, pp. 1488-1499, Oct. 2012. https://doi.org/10.1109/TIP.2011.2173206
  20. W. Xue, X. Mou, L. Zhang, X. Feng, "Perceptual fidelity aware mean squared error"," Proc. IEEE Int. Conf. Computer Vision, Dec. 2013, pp. 705-712.
  21. N. Ponomarenko et al., "Color image database TID2013: Peculiarities and preliminary results," Proc. 4th Eur. Workshop Vis. Inf. Process., Jun. 2013, pp. 106-111.
  22. N. Ponomarenko, V. Lukin, A. Zelensky, K. Egiazarian, M. Carli, and F. Battisti, ”TID2008-A database for evaluation of full-reference visual quality assessment metrics,”Adv. Modern Radioelectron., vol. 10, pp. 30–45, 2009.
  23. H.R. Sheikh, M.F. Sabir, and A.C. Bovik, ”A statistical evaluation of recent full reference image quality assessment algorithms,” IEEE Trans. Image Process., vol. 15, no. 11, pp. 3440-3451, Nov. 2006. https://doi.org/10.1109/TIP.2006.881959
  24. Final Report From the Video Quality Experts Group on the Validation of Objective Models of Video Quality Assessment VQEG. Available: http://www.vqeg.org, 2000.