Ⅰ. 서 론
최근 들어 미디어, 부품, 네트웍 기술의 동반 성장으로 인해 차세대 TV 방송 기술의 도래에 대한 기대가 어느 때보다 높아지고 있다. 4k, 8k의 수평 해상도를 가지는 UHDTV 방송, 안경없이도 3차원 입체영상을 즐길 수 있는 다시점 3DTV, 보다 넓은 시야각을 커버하는 파노라마 영상, 사용자와 인터랙션을 가지는 대화형 콘텐츠, 그리고 홀로그램 영상이 차세대 TV 방송의 대표주자들이라고 할 수 있다. 이러한 차세대 TV 방송 기술의 도래에 대한 기대와 함께, 이들 차세대 TV 영상의 서비스에 어울리는 사운드 기술에 대한 관심도 동반 상승하고 있다.
지금까지의 방송 오디오 기술의 변천 과정을 살펴보면, 영화 사운드 기술을 시발점으로 하여 일정 기간 후 방송에 적용되는 양상을 볼 수 있다. 이는 영화 콘텐츠가 비디오 테잎, DVD, BD(Blue-lay Disc) 등 가정용 매체를 통해 가정에 보급되면서, 홈씨어터 시스템이 가정의 중요한 미디어로 자리매김하기 때문이라 할 수 있다. 그러므로 영화 사운드를 중심으로 오디오 기술의 변천 과정을 살펴보면, 그 특징과 방송 오디오 기술의 발전 전망을 어느 정도 예상할 수 있다[1]. 영화 사운드는 1895년 무성영화 시대의 변사로 부터 시작하여, 1927년 모노 사운드, 1950년대 2채널 스테레오 사운드, 1970년대 서라운드 사운드, 2000년대 Beyond 5.1채널 입체 사운드로 발전해 왔다. 최근에는 돌비 ATMOS, IOSONO, AURO3D, MDA 등 채널기반 오디오와 함께 객체기반 오디오 기술을 접목하여 사용하는 하이브리드 오디오 기술이 태동하여, 오디오 산업에 대한 여파가 어떻게 될지 귀추가 주목되고 있다.
기존의 5.1채널 오디오 포맷의 대주자로서 7.1채널이 제안되어 사용되고 있었지만, 이는 수평면의 스피커를 추가한 것에 불과하였으며, 최근의 추세는 수평보다는 천장채널을 추가하여 수직 음상을 구현하는 것을 보다 중요하게 생각하고 있다. 수직 음상은 “Voice of God”이라고 부르는 천장 스피커를 통해 음상의 수직 변위 효과를 주기 위한 것으로서, 기존의 수평면만의 서라운드 사운드로는 제공하지 못했던 보다 완성된 현장감을 주는 것으로 평가되고 있다.
객체기반 오디오는 채널기반 오디오로는 해결할 수 없는 융통성과청취공간에서의 대화형 서비스를 가능하게 하는스마트한 음향 기술이라 할 수 있다. 이러한 객체기반 음향은 콘텐츠 제작과 재생이 서로 종속되어 있던 채널기반 음향의 한계를 벗어날 수 있게 하는 한편, 음향 콘텐츠의 제작 및 재생기술과 관련 장비 및 서비스 시장이 보다 유연하게 성장할 수 있는 기반을 조성하고 있다고 긍정적으로 평가할 수 있다.
객체기반의 유연함과 채널기반의 효율성을 조합한 하이브리드 오디오 기술은 차세대 TV 방송에 활용될 것이 확실시되고 있는 한편, 차세대 TV 방송에 활용하기 위해서는 객체기반 음향의 표현 및 렌더링 방법, 채널기반 음향의 형식 및 렌더링 방법에 대한 고찰이 필요하다. 본 논문에서는 실감 오디오 기술의 필요성에 대해 환경변화와 휴먼팩터의 관점에서 살펴보고, 차세대 TV 방송을 위한 실감 음향기술로서 하이브리드 오디오를 중심으로 한 UHD 오디오 기술의 개념과 특징, 그리고, 콘텐츠 포맷 및 렌더링 기술을 포함하는 실감 오디오 재현 기술에 대하여 고찰하고자 한다.
본 논문의 구성은 다음과 같다. 먼저 2 장에서는 실감오디오의 개념 및 특성에 대해 분석하고 3 장에서는 차세대 TV 방송의 특징과 함께 차세대 TV 방송을 위한 실감 오디오의 요구사항에 대해 논하고자 한다. 이후 4 장에서는 하이브리드 오디오 포맷 및 재현 기술에 대하여 고찰하고, 5 장에서는 향후 과제에 대해 기술하고자 한다.
Ⅱ. 실감 오디오 고찰
실감 오디오는 현실에서 느끼는 소리를 그대로 느끼도록 전달하여 재생하는 것을 의미한다. 현실에서 느끼는 소리란 의미 있는 소리로부터 불필요한 잡음에 이르기까지 각 음원의 위치로부터 전파되는 소리뿐만 아니라, 이 소리들이 각종 물체와의 간섭에 의해 만들어 내는 반사와 잔향을 포함하는 현장의 소리를 의미한다.
음원에 대해 좀 더 자세히 살펴보면, 그림 1과 같이 한점으로부터 방사되는 점음원, 선형태의 음을 발생시키는 선음원, 면형태의 음을 발생시키는 면음원, 부피를 가지는 음원으로부터 방사되는 체적음원으로 구분할 수 있다. 이러한 이론적인 음원들은 현실에서는 존재하지 않는다고 할 수 있으며, 극한까지 확대하면 모든 음원들이 체적음원으로 간주될 수 있다.
그림 1.음원의 종류 및 특징 Fig. 1. Type and feature of sound sources
체적음원은 각자의 위치와 방향으로 방사되는 음원들이 혼합된 형태로 생각할 수 있으며, 이들 음원들의 상호 간섭에 의해 고유한 지향특성을 가지게 된다. 그러므로 모든 음원들은 멀리서 관찰할 때 축소되어 고유한 지향특성을 가지는 점음원으로 관찰될 수도 있고, 가까이에서 확대하여 관찰하면 다중 음원을 가지는 선음원, 면음원, 체적음원으로 간주될 수도 있다. 이렇듯 음원도 관찰하기에 따라 매우 복잡한 특징을 가지게 되며, 실제로는 그림 2와 같이 음원이 속한 공간의 벽 및 물체들과의 반사, 회절, 확산 등 간섭 현상에 의해 더욱 복잡한 특징을 가지게 된다.
그림 2.실내 공간의 음향 전달 특성 Fig. 2. Acoustic transfer function of a room
이러한 음향의 복잡한 특징이 있음에도 불구하고, 음원의 파장이 비교적 길어 음원 및 공간의 복잡한 간섭현상들을 어느 정도 근사화하여도 청감 상으로 차이를 느끼지 못하는 경우가 많다. 한편으로는 전기음향이 모노 채널로부터 시작하여 점차 멀티채널로 진화함으로써, 극단적인 근사화에 의해 소리의 공간지각에 관계된 벡터 특성을 모두 배제한 체 소리의 내용에 관계된 스칼라 특성만을 모사한 것이 자연스럽고, 이상하다고 생각되지 않는 것이 일반적인 인식이다.
이러한 상황은 문명의 변화와도 관계가 없지 않다. 모든 것을 육체를 이용해야 했던 원시시대와 현대의 생활을 비교해 보면 표 1과 같다.
표 1.원시시대와 현대의 생활환경 비교 Table 1. Comparison of ancient and present life style
우선 사냥과 생존을 위한 원시시대의 육체활동이 현대보다 월등히 동적이었음을 간주할 수 있다. 이러한 사냥과 생존을 위한 활동에는 다른 동물들처럼 시각과 함께, 멀리 있는 보이지 않는 목표물을 찾는데 있어 청각의 공간지각 능력을 많이 이용하였으리라는 것을 쉽게 유추할 수 있다. 특히, 활동범위가 넓지 않고 보조 이동수단을 사용하지 않았던 생활방식은 주변의 상황들을 자연스러운 청각 훈련을 통해 익숙하게 인지하는데 도움이 되었을 것이다. 별도의 조명도구가 없었던 원시시대에는 어두운 밤이면 더욱 청각을 집중하여 주변을 살폈을 것이다. 이렇듯 원시시대에는 일상생활을 통해 자연스럽게 시각과 청각에 의해 공간지각 능력을 훈련할 수 있었고, 현대인보다는 훨씬 고도의 청각 능력을 가지고 있었을 것으로 추정할 수 있다.
이와는 반대로 현대에는 생존을 위한 활동이 다소 정적인 경우가 많으며 활동범위는 좁은 반면, 이동 범위는 훨씬 넓고, 교통수단을 이용함으로써 이동 중에는 육체 활동이 극히 제한된다. 밤에는 조명에 의해 낮처럼 자유롭게 다닐 수 있으며, 이동 중에는 스마트폰을 들여다보거나, 헤드폰을 착용하는 경우가 많아 인위적이며 부자연스러운 자극들이 난무하며, 자연스러운 청각의 공간지각 능력을 훈련시킬 수 있는 환경이 열악하다고 할 수 있다. 이러한 지각 능력의 감퇴는 인지능력의 감소로 이어질 수 있고, 인지능력의 감소는 위험감지 능력 저하, 의사소통의 어려움 등을 유발할 수 있어 극단적으로 인류 생존에 커다란 위협이 될 수도 있다[2].
한편 ‘칵테일파티 효과’는 대표적인 공간지각 능력과 뇌의 선택적 주의 능력의 협력에 의한 인간의 특별한 청각능력이라고 할 수 있다. 눈이 시야 속에 있는 특정 부분에 초점을 맞추어 정확히 보는 것과 유사하게, 귀는 사방에서 들리는 소리들 속에서 듣고 싶은 소리를 걸러내어 집중하는 능력이 있는데 이러한 능력을 칵테일파티 효과라고 부른다. 이러한 관심 있는 소리를 걸러내는 작업은 청각기관 자체라고 하기 보다는 뇌를 포함한 신경세포의 일이라고 할 수 있다.
이스라엘의 Elana M. Zion Golumbic에 의하면, 두뇌는 함께 대화에 참여하고 있는 음성과 무시하고 있는 음성 모두를 저장하기는 하지만, 대화에 참여하고 있는 음성은 언어 관장 부분에 그리고, 무시하고 있는 음성은 소리를 관장하는 부분에 저장한다고 한다[3]. 시끄럽고 여러 가지 대화가 오고가는 장소에서 하나의 대화에 집중하고 이해하는 능력은 의사소통에 있어 가장 중요한 요소라고 할 수 있다. 이러한 능력이 부족한 상태가 주의력 집중장애(ADD/ADHD)와 자폐증 등에도 관련이 있을 것이라 추정되고 있으며, 이는 생활을 통해서 자연스럽게 청각의 공간지각 능력을 훈련하는 환경이 배제되고 있는 현대문명과도 무관하지 않다는 것을 유추할 수 있다.
일반적으로 청각의 특징은 모든 방향의 소리를 감지할 수 있다는 것과 두 개의 귀에 의해 소리의 방향 및 거리를 구별할 수 있다는 것이 가장 기본적인 특징이다. 이러한 인간 청각의 방향 감지 해상도는 평균 5도라고 하며, 고도로 집중하는 경우 1도 차이의 음원도 구별할 수 있다는 실험결과가 있다. 이러한 청각의 평균적 공간 해상도 5도에 대해 구별이 가능한 음상의 개수를 스피커의 개수로 가정한다면, 청취자를 둘러싸는 구체에 1,650개의 스피커를 사용하는 것이 완벽한 실감음향을 재생할 수 있는 방법이라 할 수 있다. 그러나 패닝 방법에 의해 30도 이내의 각도에서는 비교적 정확한 음상을 표현할 수 있다는 것을 감안하면 46개의 스피커 배치로 실감음향을 재생할 수 있다. 여기에 대부분의 의미 있는 음원이 상반구에 배치되어 있는 현실에 의해 30여개의 스피커가 이상적이며, 후방 음상 및 수직 음상에 대해 중요도 및 지각 해상도가 낮아지는 청각특성에 의해 더 감소시킬 여지가 있다고 할 수 있다. 이러한 관점에서 보면, NHK STRL에서 제안한 UHDTV용 22.2채널 오디오 포맷은 사실상 최상의 실감음향을 재현할 수 있는 시스템이라 할 수 있다.
Ⅲ. 차세대 방송과 실감 오디오
2001년 본격적으로 시작된 HDTV 서비스도 이제 10년을 훌쩍 넘기며, 보다 양질의 서비스를 제공하고 있다. 그러나 고화질에 대한 요구는 끊임없이 제기되었고, HDTV의 뒤를 잇는 차세대 TV 방송으로서 UHDTV 서비스가 거론되어 산업계에서는 일찌감치 UHD 디스플레이를 장착한 TV를 내놓고 있다. UHDTV는 HDTV에 비해 최대 16배 높은 해상도를 제공하는 TV 방송이라고 할 수 있으며, 이러한 고해상도를 이용하여 기존의 TV 방송의 한계를 뛰어 넘는 다양한 영상 서비스 기술개발 시도들도 함께 추진되고 있다.
먼저 무안경 다시점 3DTV는 초고해상도 디스플레이를 이용하여 일정 범위에서 다른 시각의 3차원 입체 영상을 안경없이 볼 수 있게 한다. 다시 말하면, 3차원 입체영상을 정확하게 볼 수 있는 영역이 넓어지게 된다. 파노라마 영상의 경우는 인간의 시각범위를 더 많이 채움으로써 몰입감을 극대화하고, 필요에 따라 기존의 디스플레이에서는 화면에 표시되는 영상을 회전시킬 수 있는 사용자 인터랙션을 가능하게 한다. 홀로그램 영상의 경우에도, 초고해상도 디스플레이에 의해 좀더 실감나는 입체영상을 표시할 수 있는 가능성을 가지게 되었고, 유사 홀로그램의 경우 공연 및 제품 출시 이벤트에 적극적으로 활용되어 지금은 주변에서 쉽게 체험할 수 있는 매체가 되었다.
이러한 초고해상도 영상 미디어의 등장에 의해 요구되는 오디오의 기능 및 성능도 확대되었다. 우선 다시점 입체 영상을 위해서는 음원의 위치 및 실내 음장 특성을 보다 정확히 재현하는 것이 필요하며, 보다 넓은 유효 청취영역을 확보하여야 한다. 또한 파노라마 영상을 위해서는 전방뿐만 아니라 측방, 후방, 천장 위치의 음상도 정확히 표현하여야 하는 요구사항이 발생하였으며, 화면에 표시되는 영상을 상하좌우로 회전시켜 변경할 경우, 그에 따른 음상의 위치도 함께 변경되어야 한다.
이러한 요구사항을 충족시키기 위해서 가장 직관적인 방법은 채널수를 늘리는 것이다. 즉, 오디오의 공간적 해상도를 증가시키는 것이다. 가장 먼저 제시된 방법은 NHK의 22.2채널방식[그림3]이다[4]. 일본의 8K 해상도의 SHV(Super Hi-Vision)의 기본 오디오 방식으로 제시된 초다채널 오디오 방식이며, 가정용 오디오로서는 좀 사치스러운 오디오 방식이라 할 수 있다. 극장용 사운드에도 초다채널 고현장감 오디오 방식이 속속 등장하였으며, 최근에는 32채널까지 설치하는 솔루션도 등장하고 있다.
그림 3.NHK 22.2채널 오디오 재현 시스템 Fig. 3. NHK 22.2 channel audio reproduction system
초다채널 오디오 방식들이 제시되면서, 한 가지 큰 특징은 수평면의 서라운드뿐만 아니라 천장에도 스피커가 배치된 것을 들 수 있으며, 이를 통하여 위에서 들리는 소리를 사실적으로 표현할 수 있을 뿐 아니라, 실제 현장에서 들리는 소리들을 대부분 재생할 수 있게 되었다.
채널을 증가시키는 방법과 함께 최근 대두되고 있는 실감음향 기술은 객체기반 오디오를 접목한 하이브리드 오디오 기술이다. 실제 정확한 음상을 표현하여야 하는 오디오 객체가 콘텐츠의 전체 장면에서 일부분인 것에 착안하여, 배경음과 객체음으로 구분하여 콘텐츠를 제작하고, 재생할 때도 구분하여 별도의 렌더링을 하는 것이다. 실제로 각 채널도 객체로 표현하면, 렌더링 방법에 따라 재생하는 공간에서는 임의의 스피커 레이아웃만으로도 하이브리드 오디오 콘텐츠를 렌더링하여 재현할 수 있다. 객체기반 오디오의 객체 신호는 청취자와의 상대적인 위치를 표시하는 메타데이터가 추가로 필요하게 되며, 객체 신호를 재생하기 위해서는 메타데이터가 표시하는 위치에 객체신호를 렌더링하기 위한 최소한의 신호처리 즉, 렌더링이 필요하게 된다.
이러한 객체기반 오디오를 사용하면 여러 가지 새로운 서비스가 가능하게 되는데, 사용자와의 인터랙션 서비스가 가장 주목받는 서비스라고 할 수 있다. 가장 간단하게는 대화와 배경음의 비율을 조절함으로써 대화를 강조하여 명료도를 증가시키거나, 혹은 배경의 분위기 사운드를 강조하여 몰입감을 증대시킬 수 있다. 객체단위의 인터랙션이 가능한 게임 혹은 인터랙티브 미디어 서비스에서는 객체신호의 위치를 사용자가 직접 가변시켜 청취할 수 있다. 또한 파노라마 영상과 함께 시점을 변화시키는 어플리케이션 혹은 개인용 HMD(Head Mounted Display)에서의 사운드를 머리의 움직임에 따라 보다 사실감 있게 표현할 수 있다.
Ⅳ. UHD 사운드 기술 개발
UHD 사운드 기술 개발을 위해 최초로 UHDTV용 사운드 포맷을 제시했던 NHK의 22.2채널 오디오 포맷을 고려할 수도 있으나, 가정용으로는 현실적으로 너무 많은 채널이므로 실험을 통해 10.2채널을 제안하게 되었다. 10.2채널을 통해 표현하지 못하는 세밀한 음상정위는 객체 오디오를 통하여 정확한 위치에 렌더링할 수 있다. 또한 멀티채널 스피커를 설치하는데 부담을 느끼는 가정에서 손쉽게 설치하고 사용할 수 있는 스피커어레이 기반 음장합성에 의한 입체음향 렌더링 기술, 임의의 스피커 레이아웃에 대해서도 원 음장을 최대한 모사하여 표현하는 플렉서블 렌더링기술, 헤드폰을 통해서도 입체음향을 재생할 수 있는 바이노럴 렌더링 기술 개발 등을 추진하게 되었으며, 다음 각 절에서는 이들 기술의 특징 및 구현에 대하여 차례로 논하고자 한다.
1. 10.2채널 오디오 포맷[5]
10.2채널 오디오 포맷은 그림 4와 같이 기본 7.1채널 포맷을 기반으로 측후면 서라운드를 보강하고 천장채널을 추가하는 한편 LFE는 2개의 채널로 구성하는 것을 특징으로 하고 있다.
그림 4.10.2 채널 오디오 스피커 구성도 Fig. 4. Speaker layout for 10.2 channel audio format
자세히는 표 2와 같은 범위에서 스피커를 배치할 수 있으며, C(Center), L(Left), R(Right), LS(Left Surround), RS(Right Surround), LB(Left Back), RB(Right Back) 채널은 수평채널로서 수직방향 0°, 즉, 청취자의 귀 높이에 위치하며, 수평방향으로는 표 2에서와 같은 배치 범위를 각각 가지게 된다. LH(Left Height), RH(Right Height), CH(Ceiling Height) 채널은 천정에 배치되며, 각각 표 2의 배치 범위에 설치하여 수직 음상을 표현하게 된다.
표 2.10.2 채널 스피커의 배치 Table 2. Arrangement range of 10.2 channel speakers
10.2채널 오디오 포맷은 22.2채널 오디오 포맷에 비해 아래(Lower) 채널을 제외하고, 수평 및 천장(Height) 채널을 최적화한 형태라고 할 수 있다. 이렇게 채널수를 줄이면서도 음상정위 성능은 크게 차이가 나지 않음을 인간의 청각 모델을 통한 객관적 비교에서 검증할 수 있었다.
그림 5에서 22.2채널과 10.2채널 오디오 포맷의 수평 방향 음상정위 성능을 비교하고 있다. 실제 청취자 높이의 수평방향의 채널수는 22.2채널 포맷의 경우 10채널, 10.2채널의 경우 7채널로 3채널 차이밖에 나지 않는다. 그러므로 수평방향의 음상정위 성능은 실제로 많은 차이를 보이지 않는 것을 그림 5를 통해 알 수 있다. 천장 채널의 경우 22.2채널 포맷의 9개의 스피커를 3개로 줄였는데, 이는 일반적인 콘텐츠의 경우, 수직 음상의 비중이 많지 않다는 것과 인간의 수직 음상에 대한 청각의 감도가 수평방향의 청각 감도에 비해 매우 둔하다는 것을 반영한 결과이다.
그림 5.22.2와 10.2 채널 수평면 음상정위 성능 비교 Fig. 5. Comparison of horizontal sound localization for 22.2 and 10.2 channel
실제 청취에 있어서도 거의 구별이 힘든 결과를 확인할 수 있었는데, 이는 하나의 음상을 청취할 때보다 멀티채널로 청취할 때 개별 음상의 정위감에 대한 집중도가 감소하게 되어 전체적인 음상의 차이를 제대로 느끼지 못하는 것이 그 이유라고 할 수 있다.
2. 스피커어레이 렌더링
일반 가정에서는 멀티채널 스피커에 대한 거부감이 많은 것을 5.1채널 스피커의 보급 과정에서 파악할 수 있었는데, 이를 반영하듯이 최근에는 전방에 있는 막대모양의 박스에 스피커를 내장하는 사운드바 제품의 인기가 급증하고 있다. 이러한 사운드바는 일반 스테레오 스피커부터 5.1채널 스피커를 배치한 구조를 가지고 HRTF에 의한 가상음향 효과를 추가한 것이 대부분이며, 야마하의 사운드 프로젝터 제품은 스피커어레이를 이용한 빔포밍을 통해 벽반사에 의한 서라운드 사운드를 만들어 내는 것이 특징이다[1].
본 연구에서는 스피커어레이 기반 빔포밍을 이용한 벽반사 뿐만 아니라, 음장합성(WFS: Wave Field Syn- thesis) 및 집중 음원(Focused Sound)을 이용한 전방 거리감을 표현할 수 있는 기술을 사용함으로써, 전방에 있어서는 입체감 있는 음장 표현을 측후방에는 벽반사에 의한 가상 음상이 형성되도록 하였다. 뿐만 아니라 스피커어레이를 스크린 아래 및 위에 두 조를 배치하여 수직 음상도 표현할 수 있도록 하고 있다.
2 layer 스피커어레이를 통한 3단계 높이의 22.2채널 사운드 재현 방법은 그림 6을 참조하면 다음과 같다. 직관적으로 Layer 1 스피커어레이를 통해서는 천장의 서라운드 채널을 재현하도록 하고 있으며, Layer 2 스피커어레이를 통해서는 Lower 채널의 사운드를 재현하며, Layer 1과 Layer 2 스피커 어레이를 동시에 사용함으로써, 패닝효과에 의한 수평방향의 사운드를 재현하고 있다.
그림 6.2열 스피커어레이에 의한 멀티채널 음장 재현 Fig. 6. 3-layer sound field reproduction by two layer speaker array
10.2채널, 7.1채널, 5.1채널 등의 경우에는 대략 22.2채널 구성의 부분집합으로 간주할 수 있으므로, 동일한 방법을 통해 충분히 표현할 수 있음을 알 수 있다. 스피커어레이를 사용하여 음장합성을 하게 되면, 전방의 음상이 스테레오 스피커에 의해 패닝된 음상보다 안정하게 되며, 스크린의 앞, 뒤에 음상을 배치할 수 있으므로 다시점 3DTV의 영상 객체들과 공간적인 일체감을 유지할 수 있게 된다. 또한, 청취자 주변의 근접 음원도 표현할 수 있어, 지금까지의 오디오에서 표현하지 못했던 주변을 맴도는 벌과 같은 근접된 음향효과를 제공할 수 있다.
음장합성은 1차 음원(소스 음원)에서 발생된 파형을 2차 음원(라우드스피커 어레이)를 이용하여 재현해내는 방식으로, 하나의 점음원에서 발생한 파면은 연속적이고 무한한 구형 파면으로 합성이 가능하다는 호이겐스 원리에 기반하여 물리적인 1차 음원 없이도 스피커 어레이만으로 소스 음원을 재현해내는 방식이다. 스피커어레이로 재생되는 오디오 신호의 도출은 Rayleigh 방정식과 Kirchhoff-Helmholtz 적분에 기반을 두고 있다[6,7,8].
가상 음원을 스피커어레이로 렌더링하기 위해서는 먼저 각 채널에 대한 지연과 이득값을 산출해야 한다. 이 지연과 이득값을 산출하기 위해서는 객체의 위치와 스피커어레이를 구성하는 각 스피커 유닛의 거리를 필요로 한다. 각 스피커 유닛의 지향성 특성은 수식을 간략화하여 계산량을 줄이기 위해 무시하였다. 이러한 최적화를 통해 얻어진 i 번째 스피커 유닛을 위한 지연과 이득값은 식 1과 같이 나타낼 수 있다.
여기서 c 는 음속이며, FS 는 표본화 주파수이며, cos(θ)는 음원과 각 스피커 유닛 사이의 거리를 반영하는 부분으로서 식 2와 같은 내접연산에 의해 얻어진다.
이렇게 얻어진 지연과 이득값은 음원을 스피커어레이의 각 스피커 유닛에 렌더링할 때 사용되며, 이때 렌더링된 각 스피커 채널의 출력은 식 3과 같이 나타낼 수 있다.
여기서 n 은 음원의 샘플을 나타내며, i 는 스피커 유닛의 번호를 나타낸다.
이렇게 생성된 스피커어레이 신호들을 시뮬레이션을 통해 확인하였다. 그림 7(a)는 스피커어레이 왼쪽 뒤편에서 발생된 점음원에 의해 형성된 음장의 파면을 나타내고 있으며, 그림 7(b)는 집중음원 빔포밍을 통해 오른쪽 벽면에 반사시켜 우측 채널 신호를 만들어 내었을 때 음장의 파면을 나타내고 있다. 시뮬레이션 결과에 의하면, 가운데 청취 위치에서 음원에 의해 형성되는 파면이 제대로 만들어지고 있는 것을 확인할 수 있다[9].
그림 7.스피커어레이에 의한 음장합성 시뮬레이션 Fig. 7. Wave field synthesis by speaker array(simulation)
3. 플렉서블 렌더링
플렉서블 렌더링은 실제 오디오 콘텐츠를 제작할 때 사용한 기준 채널 포맷과 청취 공간에서의 채널 구성 및 배치가 다른 것을 보상하기 위한 방법이다. 즉, 실제 청취 공간에 설치된 스피커들을 이용하여 오디오 콘텐츠를 제작자의 의도와 최대한 유사하게 재현할 수 있도록 하는 솔루션이라고 할 수 있다.
우선, 채널 포맷이 다른 경우에는 채널 포맷 변환을 하여야 한다. 콘텐츠의 채널 포맷보다 적은 수의 채널 포맷으로 재생하는 경우에는 매트릭싱에 의한 다운믹스를 통하여 인접채널을 정해진 가중치에 따라 융합하는 방법을 사용할 수 있다. 또한 콘텐츠의 채널 포맷보다 많은 수의 채널 포맷으로 재생하는 경우에는 채널 신호를 가중치에 따라 분리한 후 상관제거를 통해 공간감이 확대되도록 하는 업믹싱 방법을 간단히 사용할 수도 있다.
일반적인 가정환경에서 채널 포맷이 동일하다고 하더라도 스피커 배치를 기준 위치에 정확히 설치하는 것은 쉽지 않다. 이러한 경우에는 스피커의 위치에 따른 지연 및 이득조정에 의해 보상을 해 주어야 한다. 또한 수평에만 스피커가 배치된 기존의 채널 포맷에서 천장 스피커의 음상을 재현하기 위해서는 수직 음상을 제어하는 청각필터 처리를 해 주어야 하며, 극단적으로 스테레오 스피커만 설치되어 있는 경우에는 트랜스오럴 스테레오 기술에 의해 가상 스피커를 만들어 줄 필요가 있다.
이러한 다양한 방법에 의해 임의 채널의 콘텐츠를 임의 채널의 스피커 배치를 통해 변환하여 표현할 수도 있지만, 최근 가장 많이 사용되는 방법은 헬싱키대학의 V. Pulkki에 의해 제안된 VBAP(Vector Based Amplitude Panning)이다. VBAP은 설치되어 있는 스피커들을 꼭지점으로 하는 삼각격자 공간들로 나누어 임의 격자 내부에 있는 음상을 세 개의 스피커로 패닝에 의해 표현하는 방법이다. 그러나 스피커 개수가 적은 경우, 오차가 발생할 소지가 많고 불연속 잡음이 발생할 수도 있어 주의를 요한다.
플렉서블 렌더링 기술은 이러한 기술들의 조합 혹은 좀더 복잡한 처리를 통한 음장 제어 기술에 의해 향후에도 계속 발전될 것으로 예상되며, 하이브리드 오디오 콘텐츠의 확산에 따라 이 분야의 연구 개발 사례도 증가될 전망이다[10].
MPEG-H 3D Audio에서는 이러한 플렉서블 렌더링 기법을 범용적으로 적용할 수 있도록 하는 Format Converter란 툴을 표준화 하였다[11]. 그림 8과 같이 Format Converter는 QMF 서브밴드 단위로 수행되며, 입력 멀티채널 오디오 신호의 레이아웃(예: 22.2채널) 정보와 출력 오디오 신호의 레이아웃(예: 5.1채널) 정보를 이용하여 다운믹스 매트릭스를 생성하고, 생성된 다운믹스 매트릭스를 입력 멀티채널 오디오 신호에 적용함으로써 변화된 출력 멀티채널 오디오 신호를 생성한다. 다운믹스 매트릭스를 생성하는 알고리즘은 VABP을 확장한 개념을 사용하며, 다운믹스 과정 중에 발생할 수 있는 위상 불일치에 의한 신호상쇄는 입력 멀티채널 오디오 신호의 위상조정을 통해 방지하는 기술을 적용하였다. 그러나 VBAP이 가지고 있는 원천적인 문제점인 스피커 주위로 음상이 맺히는 문제는 여전히 내포하고 있다[12].
그림 8.MPEG-H 3D Audio의 Format Converter 블록도 Fig. 8. Block diagram for MPEG-H 3D Audio Format Converter
이러한 문제점을 극복하기 위하여 스피커와 청취공간으로 구성되는 음향공간필터를 예측하여 표현하고자 하는 스피커의 위치에 따라 적응적으로 음향공간필터를 적용함으로써 플렉서블 렌더링을 수행하는 방법도 제안되어 있다[12]. 그림 9와 같이 스피커를 통해 재생되는 복원음장 신호 q 마이크로폰 어레이를 통해 녹음되는 원음장 신호 p 사이의 평균자승오차를 최소로 하도록 하는 복원음장 신호는 식 4와 같이 의사역행렬 연산으로 계산될 수 있다. 이때 Z는 스피커와 마이크로폰 사이의 음향전달함수이다. 이러한 기법을 이용하여 입력 멀티채널 오디오 신호를 구면파를 형성하는 하나의 음원(p)으로 모델링하고 재생되는 위치가 결정되면 스피커들(q)로부터 생성할 출력 신호를 식 4를 이용하여 계산할 수 있다. VBAP에 비하여 보다 유연하고 정확하게 입력 멀티채널 오디오 신호를 표현할 수 있지만 음향전달함수가 정확하게 계산 또는 측정되어야 하며 필터링 과정에 의한 음질 손실이 발생한다는 문제점이 있다[13].
그림 9.스피커어레이에 의한 제어 영역의 음압 산출 Fig. 9. Sound pressure calculation of control region by speaker array
4. 바이노럴 렌더링
바이노럴 렌더링 기술은 채널기반 또는 객체기반 입체음향을 헤드폰을 통하여 청취하기 위한 기술로서, 최근 모바일 단말을 통한 멀티미디어 콘텐츠의 소비가 증가함에 따라 관심이 높아지고 있는 기술이다.
헤드폰 청취 환경에서는 멀티채널 오디오 청취 환경과 다르게 귀에 밀착된 2개의 스피커로만 소리를 재현하게 된다. 멀티채널 스피커로 재생되어야 할 음향을 단순하게 스테레오 신호로 다운믹스하여 헤드폰으로 청취하는 경우, 각 스피커의 위치에 따른 방향성이 사라지게 되고, 공간감도 없어지게 된다. 이러한 문제점을 해결하기 위하여, 각 스피커와 양 귀간의 전달 함수를 측정 또는 계산하여 멀티채널 오디오 신호를 헤드폰 청취를 위한 스테레오 신호로 다운믹스 시 보정해 주는 방법이 사용된다.
스피커와 양 귀간의 전달 함수를 일반적으로 BRIR (Binaural Room Impulse Response)라고 하는데, 스피커의 위치에 따라 사람에게 전달되는 각도 및 소리의 전달 경로가 달라지기 때문에 그 값이 달라지며, 그림 10과 같이 왼쪽 귀를 위한 전달함수와 오른쪽 귀를 위한 전달함수가 존재하게 된다.
그림 10.30도 위치의 BRIR의 예 Fig. 10. Example of BRIR for 30° from listener
멀티채널 오디오 재생 환경에 따른 각 스피커의 BRIR을 계산한 후, 음원의 위치에 해당하는 각도의 BRIR과 컨볼루션하는 방법으로 헤드폰을 위한 스테레오 신호를 생성한다.
사용된 BRIR은 KEMAR HRTF를 기반으로 음질 왜곡이 최소화되도록 전처리를 수행하고, 인공적인 잔향을 생성하는 방법을 사용하였다. 구현된 BRIR은 최대한 소리가 헤드폰 밖에서 들리도록 음상의 외재화를 위한 일련의 튜닝이 적용되었다. 헤드폰 청취에 의한 음상의 외재화 성능(청감상 거리[cm])은 주관평가에 의해 표 3과 같은 결과를 얻었다.
표 3.음상 외재화 성능 평가 결과(청감상 거리[cm]) Table 3. Result of sound externalization test(Perceptual distance[cm])
최근 표준화가 진행 중인 MPEG-H 3D Audio에서는 BRIR이 주어졌을 때, 적은 연산량으로 음질의 열화 없이 바이노럴 렌더링을 수행하는 방법에 대한 표준화가 진행되었다[14].
다양한 기관에서 다양한 기술을 제안하였으며, 초기 반사음의 처리 방식으로는 ETRI, 연세대학교, Wilus가 함께 제안한 VOFF(Variable Order Filtering in Frequency-domain) 방식이 채택되었고, 잔향 처리 방식으로는 독일 FhGIDMT에서 제안한 SFR(Sparse Frequency Reverberator) 방식이 최종적으로 DIS(Draft International Standard)에 채택되었다[11].
VOFF 방식은 BRIR이 주파수 대역별로 다른 잔향시간을 가지는 특성을 이용한 것으로서, BRIR과 원 신호와의 필터링을 수행할 때 BRIR의 대역별 필터계수의 길이를 가변적으로 조절하는 방식을 사용하였다.
그림 11은 특정 BRIR의 대역별 잔향시간을 분석하여 나타낸 것이다.
그림 11.주파수 대역별 잔향 길이 Fig. 11. Reverberation times for given subbands
그림 11과 같이 낮은 주파수 대역에서 잔향 시간이 길게 나타나고, 높은 주파수 대역일수록 잔향 시간이 짧게 나타나는 것을 알 수 있다. 따라서 저주파수 대역에서는 BRIR의 필터계수를 충분히 길게 해주고, 고주파수 대역에서는 필터계수의 길이를 줄여서 연산할 수 있다[14].
최근 모바일 단말을 통한 멀티미디어의 소비가 증가하고, 일반 가정에서 멀티채널 오디오 재현 시스템을 구축하는 것에 어려움이 있다는 점을 감안하였을 때, 바이노럴 기술은 점점 더 넓은 분야에 사용될 것으로 예상된다. 또한 바이노럴 기술은 멀티채널 오디오 콘텐츠의 재현 뿐 아니라, 가상현실, HMD(Head Mounted Display) 등에 적용되어 현실감을 증가 시킬 수 있어 활용 분야가 더욱 다양해 질 것으로 예상된다.
Ⅴ. 결 론
이상에서 실감오디오의 특징과 실감오디오가 현대의 멀티미디어 생활에 있어 매우 중요한 요소이며, 실감오디오를 위한 기존의 채널기반 오디오의 한계를 극복할 수 있는 방법으로서, 객체기반 오디오를 접목한 하이브리드 오디오 기술이 UHDTV, 다시점 3DTV, 파노라마 영상, 홀로그램영상 등 차세대 TV 방송을 위한 차세대 오디오 기술의 유력한 후보임을 살펴보았다. 또한 하이브리드 오디오 콘텐츠를 다양한 환경에서도 유연하게 재생해 주기 위한 방법으로 10.2채널 오디오 포맷의 개발, 스피커어레이 렌더링, 플렉서블 렌더링, 바이노럴 렌더링 기술에 대해서도 고찰해 보았다.
아직은 객체기반 오디오 기술이 태동 단계로서 향후 많은 발전을 거듭할 것으로 예상되며, 보다 정확한 객체음의 표현을 위해서는 음원의 위치 외에도 지향성, 다중음원 등 음향의 벡터형 파라메터의 구성과 그에 따른 렌더링 방법에 대한 발전이 기대된다.
하이브리드 오디오 기술이 발전하기 위해서 선결되어야 하는 중요한 이슈 중 하나는 콘텐츠 제작이 보다 용이해져야 한다는 것이다. 현재의 제작 기술은 채널기반 오디오 콘텐츠의 제작에 특화되어 있어, 객체기반 오디오 콘텐츠를 제작하는데 있어서는 매우 불편하며 복잡한 실정이다. 하이브리드 오디오 콘텐츠의 확산을 위해서는 제작 시스템의 획기적인 변화가 필요하다고 할 수 있다.
또한, 음원의 획득에 있어서도, 음장분석, 음원분리 등 이미 녹음된 오디오 신호의 후처리 기술을 활용하여 객체화하는 방안과 영상획득과의 연동이 적극적으로 사용되어야 할 것으로 예상되며, 재생환경에서의 오디오 신호 렌더링 방법의 진화와 룸의 구조 및 특성을 측정하고, 보상하는 룸튜닝 기술 개발도 동반되어야 할 것이다.
지금까지 살펴본 바와 같이 하이브리드 오디오 기술은 차세대 오디오 기술로서 급부상할 것으로 예상되고 있고, 이미 돌비 ATMOS, AURO3D를 지원하는 홈씨어터 시스템도 시장에 나오고 있으며, 관련 미디어 및 온라인 VOD 서비스 등이 잇달아 제공될 것으로 예상되므로 향후 관련 기술 및 시장 변화를 주시할 필요가 있다.
References
- Daeyoung Jang, Jeongil Seo, Taejin Lee, Kyeongok Kang, “Present and Future of UHD Sound Technology”, Korea Society Broadcast Engineers Magazine Vol. 17, no. 5, pp.47-59, 2012. 10.
- Diane Ackerman, A Natural History of the Senses [Translated by Young-mi Back], ISBN-8972882364, Jakkajungsin, Gyeonggi Province Korea, 259-335, 2012
- Elana M. Zion Golumbic, etal, “Mechanisms Underlying Selective Neuronal Tracking of Attended Speech at a “Cocktail Party”,“ Neuron, Volume 77, 980-991, March, 2013 https://doi.org/10.1016/j.neuron.2012.12.037
- Kimio Hamasaki, Koichiro Hiyama, “Development of a 22.2 Multichannel Sound System”, Broadcast Technology no.25, NHK STRL, Winter 2006
- Taejin Lee, Jae-hyoun Yoo, Jeongil Seo, Kyeongok Kang, Hwanwoo Kim, “10.2 channel Audio Reproduction for UHDTV”, Journal of Broadcast Engineering, Vol. 17, no. 5, pp.827-837, 2012. 9. https://doi.org/10.5909/JBE.2012.17.5.827
- A.J. Berkhout, D. de Vries and P. Vogel, “Acoustic Control by Wave Field Synthesis,” J. Acoust. Soc. Am., vol. 93, no. 5, 1993, pp. 2764-2778. https://doi.org/10.1121/1.405852
- E. Verheijen, “Sound Reproduction by Wave Field Synthesis,” PhD Thesis, TU Delft, 1998.
- G. Theile, “Wave Field Synthesis – A Promising Spatial Audio Rendering Concept,” Proc. 7th Int. Conf. Digital Audio Effects, Oct. 2004, pp. 125-132.
- Taejin Park, Keunwoo Choi, Jeongil Seo, Daeyoung Jang, Kyeongok Kang, Jinwoong Kim, “Multichannel Compatible Two-layer Speaker Array System,” 3DSA 2014, Seoul, 2014. 5.
- Daeyoung Jang, Jeongil Seo, Jae-hyoun Yoo, Taejin Park, Taejin Lee, “A Study of UHD Sound for Future TV Broadcasting,” Proceedings of the Korean Society of Broadcast Engineers Conference, 2014. 11.
- N14747, “Text of ISO/IEC 23008-3/DIS, 3D audio,” ISO/IEC JTC1/SC29/WG11 (MPEG), July 2014.
- Jeongil Seo, Daeyoung Jang, Kyeongok Kang, “Virtual Sound Source Rendering for Flexible Speaker Layouts,” Proceedings of the Korean Society of Broadcast Engineers Conference, 2014. 7.
- Mincheol Shin, Filippo M. Fazi , Jeongil Seo, and Philip A. Nelson, “Efficient 3D sound field reproduction”, 130th AES Convention Paper, no. 8404, 2011. 5.
- Jeongil Seo, Yong Ju Lee, Taejin Lee, Seungkwon Beack, ”Description of ETRI proposal for MPEG-H 3D Audio Binaural CE”, ISO/IEC JTC1/SC29/WG11 MPEG2013/M31271, 2013. 10.
Cited by
- On-Line Audio Genre Classification using Spectrogram and Deep Neural Network vol.21, pp.6, 2016, https://doi.org/10.5909/JBE.2016.21.6.977