1. 서론
대중 가요는 음악과 음악에 포함된 가사를 통해서 사용자에게 창작자의 의도가 전달된다. 음악만큼 가사의 의미가 가지는 역할이 중요하지만, 가사는 비언어적 단서가 전혀 없는 정적 형태로 사용자들에게 전달되는 경우가 대부분이다. 이러한 정적 형태는 가사가 가지고 있는 정보를 온전히 전달하는 것에 한계가 있다. 최근 가수들은 가사의 텍스트에 다채로운 효과를 적용한 키네틱 타이포그래피 영상을 제공하는 경우가 늘고 있고, 그들이 제공하는 키네틱 타이포그래피 영상에서 가사는 텍스트의 움직임과 색상, 폰트와 같은 다양한 속성의 변화를 통해 단순한 텍스트 형태에서 벗어나 동적 요소를 포함한다. Fig. 1은 가수 BTS가 제공한 키네틱 타이포그래피 영상 사례이다. 영상에서 다양한 시각적 효과를 통해 음악의 감정을 효과적으로 전달할 수 있다.
Fig. 1. Examples of lyrics music video provided by BTS (https://youtu.be/qvu4nPMyl3U).
하지만 키네틱 타이포그래피 영상을 제작하는 것은 전문적인 기술을 요구한다. 영상을 제작하기 위한 편집 도구들은 매우 복잡하여 초보자가 능숙하게 도구를 다루는 데까지 시간이 오래 걸린다. 또한, 음악의 구절과 어울리는 키네틱 타이포그래피 모션과 속성을 영상 제작자가 임의로 지정하게 되면 의미 전달 효과가 떨어진다. 이처럼 영상 제작자가 키네틱 타이포그래피 영상을 직접 제작하는 것은 많은 단점을 가진다. 따라서 본 논문에서는 복잡하고 많은 비용을 지불하는 기존의 영상 제작 방식이 아닌, 음악의 리듬과 감정을 자동으로 분석하여 각 구절과 어울리는 모션을 적용한 키네틱 타이포그래피 영상을 생성해주는 서비스를 설계했다. 음악은 인간의 감정을 높은 수준으로 유발할 수 있다[1]. 음악과 인간의 감정은 높은 연관성을 가지므로 음악으로부터 유발되는 감정을 통해서 음악과 어울리는 모션을 선정하여 움직이는 가사를 보여줌으로써 음악의 의미를 효과적으로 전달하고자 하였다.
2. 관련 연구
인공 지능의 발전은 컴퓨터가 데이터를 통해 인간의 감정을 추출하는 기술의 발전에 크게 영향을 끼쳤고 활발한 연구가 진행되고 있다. 기존 연구에서는 추출된 감정을 통해 사용자의 선호도, 경향성을 분석해 마케팅에 활용하는 연구들이 많았다. 하지만 점점 인간의 감정을 이해하는 것에서 확장해 분석한 감정을 이용해 새로운 영역에 적용하는 연구가 증가하고 있다. 음악의 감정을 분석하는 연구도 증가하고 있는데, 음악 가사 텍스트의 감정 분석을 진행하고 이를 이용해 시각화 콘텐츠를 제작한다[2].
인간의 감정을 분석한 결과를 마케팅과 같은 분야에 활용하는 것에서 나아가 예술 창작의 범위까지 확장되고 있다. 인간의 감정을 분석하려는 다양한 시도 중에서, 인간이 심리를 표출하는 수단인 문장의 감정을 분석하는 연구가 다양하게 진행되고 있다. 문장의 감정을 긍정, 부정의 두 가지 측면으로 분석하려는 연구에서부터 인간의 감정을 범주화하여 분석하려는 연구들이 시도되고 있다. 문장의 감정을 분석하기 위한 학습 기법 중, 순방향으로만 학습하는 LSTM 모델에서 역방향으로 학습하는 레이어를 추가한 Bi-LSTM 구조는 시퀀스를 양쪽 방향에서 처리하기 때문에 과거의 정보도 수용하여 문맥 정보를 획득함으로써 문장 감정 분석의 성능을 향상 시킨다 [3]. 음악 감정 분석에서도 많은 연구가 긍정, 부정의두 차원으로 감정을 분석한다. 음악을 다중 감정으로 분석하기 위해 음악의 장르, 가수를 예측하는 음악 분류 알고리즘을 감정 분석에 적용하려 한다. 음악을 딥러닝 학습을 통해 분류하는 연구 중, 음악 파일을 파형과 스펙트럼의 특징이 결합되어 소리를 시각화해주는 멜스펙트로그램(Mel-spectrogram)의 형식으로 변환한 뒤 CRNN(Convolutional Recurrent Neural Network) 구조로 학습한 모델에서 평균 F1 스코어가 0.937 정도의 높은 정확도의 결과를 보였다[4]. 본연구에서는 음악 데이터 셋을 감정 별로 분류한 뒤 이와 같은 CRNN 구조의 딥러닝 모델을 학습하여 음악 감정 분류를 진행한다.
음악과 가사라는 두 가지 측면의 감정 분석을 통해 키네틱 타이포그래피 영상의 모션을 선정할 때. 각 감정에 적합한 모션을 선정하는 기준이 필요하다. 키네틱 타이포그래피의 투명도, 이동 방향과 같은 속성과 감정의 관계를 조사한 연구를 통해 부정적인 무드를 주는 속성과 긍정적 무드를 주는 속성을 조합해 도출할 수 있는 감정에 적절한 모션을 선정하고자 한다. 부정적 무드를 유발하는 속성으로는 투명도 사용, 아래로 이동 등이 있고 긍정적 무드를 유발하는 속성으로는 규칙적인 움직임, 위로 이동 등이 있다[5].
3. 시스템 설계
3.1 음악 요소 별 감정 분석
가사 텍스트와 음악의 감정을 분석한 결과를 이용하여 텍스트에 적용할 키네틱 타이포그래피 모션과 폰트, 색상 등의 시각적 속성을 선택한다. Fig. 2는 음악의 분석 결과가 키네틱 타이포그래피 영상 자동생성에서 활용되는 규칙이다. 가사의 텍스트 문장 분석을 진행해 나온 가사의 감정을 기준으로 폰트 종류와 모션 종류를 선택한다. 음악 감정 분석 결과값은색상 선택에 사용한다. 키네틱 타이포그래피 모션의 빠르기, 크기와 같은 모션의 속성값은 음악의 템포, 평균 주파수, 엔벨로프 강도를 분석해 설정한다
Fig. 2. Rules for using music analysis results.
3.2 가사 감정 분석
가사 감정 분석으로 나오는 감정은 기쁨, 기대, 신뢰, 놀라움, 공포, 슬픔, 혐오, 분노이며 8가지 감정 중에서 가장 높은 수치를 갖는 대표 감정 한 가지를 이용한다. 관련 연구에서 조사한 키네틱 타이포그래피 모션은 긍정과 부정이라는 두 가지 측면에서 연구를 진행했기 때문에 이를 본 시스템에 적용하기 위해 8가지의 감정을 동일하게 긍정과 부정의 감정으로 분류한다. 감성 분류 체계 중 Mehrabian의 PAD 감정 분류 모형을 참조해 기쁨, 기대, 신뢰는 긍정적인 감정으로 분류하고 공포, 슬픔, 혐오, 분노는 부정적인 감정으로 분류한다. 놀람은 중립 감정으로 분류한다[6]. 분류한 기준에 따라 감정에 적합한 긍정과 부정 모션을 선택한다. 중립적인 감정으로 분류한 놀람은 긍정과 부정 모션을 결합해 모션을 선택한다. 폰트의 종류도 가사 감정 분석을 통해 설정한다. 세리프, 산세리프, 손글씨라는 세 가지 계열의 폰트를 각 감정과 매칭시킨다. 감성 분류를 한글 폰트에 적용하기 위해 PAD(Pleasure, Arousal, Dominance) 모형에 Organize를 추가한 PADO 모형으로 정렬한 결과 [7]와 weems에서 제공한 폰트 계열과 연관 있는 형용사[8]들을 기반으로 각 감정에 적합한 폰트를 설정한다. 각 폰트 계열별로 저작권이 없는 폰트를 수집해 설문을 통해 8개를 선정한다. Table 1은 감정 별로모션과 폰트 종류가 어떻게 매칭되는지 나타낸다.
Table 1. Matching rules for motion and font according to emotion.
3.3 리듬 분석
모션이 정해지면 모션이 움직이는 속도, 크기와 같은 모션의 속성을 설정해야 한다. 모션의 속성은 음악의 리듬 분석한 결과를 통해 설정한다. 음악 리듬 분석을 통해 템포, 주파수 평균, 엔벨로프 강도 값이 나온다. 각 모션이 이동하거나 변화하는 속도는 음악의 빠르기와 비례하게 설계하고 주파수 평균과엔벨로프 강도는 각 모션의 크기와 관련된 속성을 설정하도록 설계한다. 주파수 평균과 엔벨로프 강도는 음악마다 연속적인 값이므로 해당 값이 변화하면모션의 속성이 변화한다. 예를 들어, 텍스트의 감정이 혐오라면 템포를 통해 투명도가 변화하는 시간, 움직이는 속도가 바뀌고 주파수 평균과 엔벨로프 강도의 변화를 통해 움직이는 거리가 변한다.
3.4 음악 감정 분석
음악 감정 분석 결과는 색상과 이모지와 매치한다. 빨강은 차분한 감정 차원이 낮고 열정, 흥분, 분노, 불안, 혐오 등의 감정과 관련성이 높은 것처럼 색상에서 유발되는 감정에 차이가 있다[9]. Table 2 는 감정과 관련 있는 색상을 순위별로 정리한 것이다. 감정별로 색상이 중복되는 경우가 많기 때문에 시각적 효과를 높이기 위해 색상이 중복되면 다음 순위의 색상을 이용하거나 명도, 채도의 조정한다. 음악 감정 분석 결과값이 높을 경우에는 이모지가 나타나 감정 전달을 효과를 보강한다.
Table 2. Ranking of colors related to emotions.
키네틱 타이포그래피 영상에서 각 요소들이 너무 빈번하게 변화하면 사용자에게 피로감을 줄 수 있으므로 음악과 가사의 전체 감정 분석 결과를 초기값으로 설정하고 임계치를 정하여, 각 구절에서 분석한 음악 및 가사의 감정 결과 수치가 임계치를 넘는 경우에만 모션, 폰트, 색상이 변화한다.
4. 시스템 구현 및 결과
4.1 시스템 구현 및 환경
본 시스템은 파이썬 언어로 기반으로, 장고 프레임워크를 기반으로 사용자에게 제공되는 서비스를 구현한다. 텍스트 감정 분석은 Bi-LSTM을 기반 한국어 감정 분석 API인 “Saltlux API”[10]를 이용했으며, 주어진 한국어 문장에 대해 다중 감정을 추론해준다. 8가지(기쁨, 기대, 신뢰, 놀라움, 공포, 슬픔, 혐오, 분노) 중 가장 유사한 감정을 한 가지 이상 추론해주고 감정값을 0~1 사이의 값으로 나타낸다. 음 감정 분석은 “Librosa”[11] 라이브러리를 이용해 음악을 멜스펙스토그램 형태로 변경하고, 이 데이터를 이용해 “Keras”[12] 라이브러리를 이용해 학습한다. “Librosa”에서 제공하는 함수 중 리듬에 관련한 함수들은 음악 리듬 분석에서 사용된다. “Mutagen”[13] 라이브러리를 통해 화면 구성에 필요한 음악 파일의 메타데이터를 추출한다.
Fig. 3는 전체 시스템 흐름을 나타낸 것이다. 사용자에게 음악 파일과 가사 파일을 입력받아 음악과가 사의 감정 분석과 리듬 분석을 진행하고 결과값을데이터베이스에 저장한다. 데이터베이스에 저장된 분석 결과를 전달받아서 키네틱 타이포그래피 영상을 생성한다.
Fig. 3. Full system flow diagram of motion subtitle automatic creation service.
4.2 가사 감정 분석 및 적용
본 연구에서 사용하는 가사 파일은 가사와 가사가 시작되는 지점의 시간 정보를 가지고 있다. 이 시간 정보는 구절 변화 지점이기 때문에 해당 시간을 기준으로 화면에서 가사와 모션을 전환한다. 따라서 입력받은 가사 파일에서 시간 정보와 가사 내용을 따로 분리해서 사용한다. Fig. 4는 실제 가사 파일의 형태와 파일에서 분리한 시간 정보와 가사 텍스트다. 분리된 시간 정보는 음악 감정 분석에서도 사용한다.
Fig. 4. Example of separating time and text from lyric file.
우선, 가사 전체를 하나의 문장으로 입력하여 가사 전체에서 나타나는 감정을 도출한다. 전체 감정을 확인한 뒤에 시간 정보를 기준으로 분리된 가사를 각각 하나의 입력값으로 하여 구절 별 감정을 확인한다. 전체 감정 결과를 통해 음악에 전반적으로 사용될 기본 모션과 폰트가 설정하고 구절이 바뀌는 지점에서의 감정 결과를 확인하고 감정값이 0.7을 넘으면 모션 종류가 변한다. 결과 감정은 미리 설계한 규칙에 따라 모션과 폰트가 설정되어서 키네틱 타이포그래피 영상에 포함된다.
4.3 음악 리듬 분석 및 활용
음악 리듬 분석 결과를 통해 나오는 값은 분당 비트 수인 템포. 프레임 당 주파수를 대표하는 평균 주파수, 음표가 시작하는 지점의 강도를 추정한 엔벨로프(envelope) 강도이다. 평균 주파수와 템포는 절대적인 값을 반환해주기 때문에 분리된 음악을 기준으로 값을 얻어도 되지만 엔벨로프 강도 값은 첫 시작점을 기준으로 상대적인 에너지를 나타내기 때문에 분리되기 전 음악을 통해 값을 이용한다. 이 시스템에서는 리듬 분석을 통해 나온 값이 임계치를 넘어야 화면에서 변화가 일어나게 설계했기 때문에 연속적인 값인 평균 주파수와 엔벨로프 강도 값은 극대, 극소의 값만 저장해서 메모리 낭비를 방지한다. 평균 주파수와 엔벨로프 강도가 급격하게 변화하면 변화하는 비율에 맞춰서 텍스트의 크기를 조절해서 음악의 변화를 효과적으로 느낄 수 있도록 한다.
4.4 음악 감정 분석 및 활용
음악 감정 분석은 미리 음악의 분위기가 분류되어있고 저작권이 없는 음악을 데이터 셋으로 활용하여 음악 감정 분석 모델을 학습한다. 학습에서 음악들은 멜 스펙트로 그램 형식으로 변환하여 CRNN 구조의 모델에서 학습을 진행한다. 가사 감정 분석과 마찬가지로 구절 별 감정을 확인하기 위해서 입력된 음악 파일은 가사 파일에서 추출한 시간 정보를 기준으로 파일을 분리한다. 분리한 음악은 멜스펙트로그램 형식으로 변환한 뒤 미리 학습한 모델에 입력하여 감정과 정확도를 예측한다. 모델에서 예측된 결과는 미리 설계한 규칙에 맞춰서 영상의 색상과 이모지를 설정하는 데에 사용한다.
4.2 시스템 구현 사례
본 연구에서 구현한 키네틱 타이포그래피 영상 자동 생성 프로그램으로 만들어진 결과 영상 중 두 가지에 사례를 통해 구현 결과를 설명한다.
(사례 1) 포미닛(4Minute)의 “싫어(Hate)”
전체 가사를 분석한 결과 대표 감정은 “분노” 였으며 감정의 값은 0.79다. 이 노래는 설계 규칙에 따라 모션은 “Trembling”으로 나타나고 손글씨 계열의 폰트를 기본으로, 구절이 변하고 감정 값이 기준 값을 넘으면 구절 감정에 해당하는 모션을 나타낸다. Table 3는 “싫어(Hate)”의 전체 가사의 감정과 첫 번째 구절부터 열 번째 구절까지 가사의 감정 및 음악의 감정을 분석한 결과다.
Table 3. Result of analysis of emotions by the entire lyrics and verses in the music.
Fig. 5는 음악의 리듬에서 분석한 평균 주파수와엔벨로프 강도 같은 연속적인 값을 시간에 흐름에 따라 가시화한 그래프다. 이 값들이 변화함에 따라 모션의 크기, 속도와 같은 모션의 속성을 변경한다.
Fig. 5. Rhythm analysis extracted from music. (a) Envelope Strength and (b) Spectral_Centroid.
Fig. 6 생성된 키네틱 타이포그래피 영상 화면이다. Fig. 6(a)가 해당하는 구절에서 문장 감정 분석 결과는 “혐오” 이지만 감정 값이 0.47로 기준보다 낮기 때문에 노래의 기본 모션인 “trembling”이 나타난다. Fig. 6(b)는 감정 분석 결과가 “분노”이므로 “trembling” 모션이 나타나고 해당 구절에서 엔벨로프 강도의 큰 변화로 인해 나타나는 문장의 크기가엔벨로프 강도의 변화와 비례해서 점진적으로 변화한다. Fig는. 6(c)에서는 감정 분석 결과가 “혐오”이고 감정 값이 0.92로 기준보다 높기 때문에 “Fade- in&Move” 동작이 나타난다.
Fig. 6. Example of a kinetic typography video automatically generated by the system.
(사례2) EXO의 “Lucky One”
Table 4는 “Lucky One”의 전체 가사의 감정과 첫 번째 구절부터 열 번째 구절까지 가사의 감정 및 음악의 감정을 분석한 결과다. 전체 가사를 분석한 결과 대표 감정은 “신뢰” 였으며 감정의 값은 0.94다. 이 노래는 설계 규칙에 따라 모션은 “wave”다. Table 4에 나타난 초반 구절들은 가사 전체를 분석한 감정과 상충하는 부정적 감정들이 다수 나타난다. 하지만 감정값이 대부분 낮기 때문에 모션 변화에 영향을 미치지 않는 경우가 대부분이다.
Table 4. Result of analysis of emotions by the entire lyrics and verses in the song.
Fig. 8(a)가 해당하는 구절에서 문장 감정 분석 결과는 “신뢰”로 “wave” 모션이 나타난다. 음악 감정분석 결과는 “행복” 이기 때문에 배경 색상은 노란색이고 감정값이 기준치보다 높아서 이모지가 나타난다. Fig. 8(b)는 “기대”라는 감정을 가지지만 감정값이 0.50으로 모션 변경 기준보다 낮아 모션이 변경되지 않는다. 음악 감정 분석 결과는 “신뢰”이며 초록색 색상이 나타나고 Fig. 8(a)와 마찬가지로 감정값이 기준보다 높아 이모지가 나타난다. 각 모션은 Fig. 7에 나타나는 리듬의 변화에 따라 변화한다.
Fig. 7. Rhythm analysis extracted from music. (a) Envelope Strength and (b) Spectral_Centroid.
Fig. 8. Example of a kinetic typography video automatically generated by the system.
5. 결론
본 논문에서 제안한 음악 감정 분석을 통한 모션자막 자동 생성 프로그램은 음악이 가지고 있는 감정을 추출하고 이를 통해 음악에 어울리는 모션과 속성을 자동으로 제공해 가사의 텍스트가 가지는 전달 효과를 극대화하려 했다. 이를 위해 각 감정에 적합한 모션과 폰트, 색상을 매칭하려는 시도를 진행하고 음악 감정 분석을 통해 감정에 어울리는 모션 자막을 생성하는 시스템을 설계 및 구현했다. 하지만 각 감정에 어울리는 모션과 폰트, 색상을 고르는 과정은 개인의 선호와 주관이 포함되어 있어 결과를 도출하는 것에는 어려움이 있었다. 또한, 한글 폰트의 감정을 분석한 연구가 부족해 영어 폰트에서 진행된 연구를 기반으로 영어 폰트의 속성을 한글 폰트에 적용한 결과로 감정에 어울리는 폰트를 선정했기 때문에 사용자가 느끼는 감정과 불일치할 수 있다.
따라서 추후 시스템에서는 일반인 및 전문가에게 감정 별 모션 선정에 대한 리서치를 통해 모션 선정하고 현재 진행한 여덟 종류의 모션 외에도 다양한 모션을 추가하는 방안을 연구하면 효과적일 것이다. 더불어 한글 폰트에서 적용 가능한 폰트별 감정값을 추출하는 연구를 진행해 사용자에게 보편적으로 통용 가능한 감정을 전할 수 있도록 하는 방법을 모색하려 한다.
References
- J. Lee, "Neurophysiology and Brain-Imaging Study of Music - Music & Language, Music & Emotion," Nangman Quarterly, Vol. 18, No. 3, pp. 69-146, 2006.
- H. Ki and K. Shin, "Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation," The Journal of BigData, Vol. 5, Issue 1, pp. 197-208, 2020.
- H. Kim, "Development of the Artwork Using Music Visualization Based on Sentiment Analysis of Lyrics," Journal of the Korea Contents Association, Vol. 20, Issue 10, pp. 89-99, 2020 https://doi.org/10.5392/JKCA.2020.20.10.089
- Z. Nasrullah and Y. Zhao, "Music Artist Classification with Convolutional Recurrent Neural Networks," International Joint Conference on Neural Networks, pp. 1-8, 2019
- J. Lee, "Evaluating Pre-defined Kinetic Typography Effects to Convey Emotions," Journal of Korea Multimedia Society, Vol. 17, Issue 1, pp. 77-93, 2014 https://doi.org/10.9717/kmms.2014.17.1.077
- A. Mehrabian, "Pleasure-Arousal-Dominance: A General Framework for Describing and Measuring Individual Differences in Temperament," Current Psychology, Vol. 14, No. 4. pp. 261-292, 1996. https://doi.org/10.1007/BF02686918
- H. Kim, A Study on the Shape and Emotion Feature Analysis Algorithms for HanGul Font Recommendation, Master's Thesis of Sookmyung Women's University, 2019.
- The Psychology of Fonts, https://weemss.com/blog/2857-the-psychology-of-fonts (accessed August 3, 2020).
- J. Lee and H. Cho, "A Study on the Characteristics of Value and Emotional Response Associated with Color and Their Impact on Color Attitude," Journal of Korea Society of Color Studies, Vol. 32, Issue 3, pp. 79-95, 2018. https://doi.org/10.17289/jkscs.32.3.201809.79
- Saltlux text sentimental analysis, https://www.saltlux.ai/portal/api_detail?id=category14 (accessed August 3, 2020).
- Librosa, https://librosa.org/doc/latest/index.html (accessed August 3, 2020).
- Keras, https://keras.io (accessed August 3, 2020).
- Mutagen, https://mutagen.readthedocs.io (accessed August 3, 2020).