Humming: Image Based Automatic Music Composition Using DeepJ Architecture

Kim, Taehun;Jung, Keechul;Lee, Insung;

doi:10.9717/kmms.2022.25.5.748

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

Volume 25 Issue 5
/
Pages.748-756
/
2022
/
1229-7771(pISSN)
/
2384-0102(eISSN)

Korea Multimedia Society (한국멀티미디어학회)

DOI QR Code

Humming: Image Based Automatic Music Composition Using DeepJ Architecture

허밍: DeepJ 구조를 이용한 이미지 기반 자동 작곡 기법 연구

Kim, Taehun (School of Global Media, College of IT, Soongsil University) ;
Jung, Keechul (School of Global Media, College of IT, Soongsil University) ;
Lee, Insung (Dept. of English, College of Humanities, Soongsil University)

Received : 2021.12.07
Accepted : 2022.04.27
Published : 2022.05.31

https://doi.org/10.9717/kmms.2022.25.5.748 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Thanks to the competition of AlphaGo and Sedol Lee, machine learning has received world-wide attention and huge investments. The performance improvement of computing devices greatly contributed to big data processing and the development of neural networks. Artificial intelligence not only imitates human beings in many fields, but also seems to be better than human capabilities. Although humans' creation is still considered to be better and higher, several artificial intelligences continue to challenge human creativity. The quality of some creative outcomes by AI is as good as the real ones produced by human beings. Sometimes they are not distinguishable, because the neural network has the competence to learn the common features contained in big data and copy them. In order to confirm whether artificial intelligence can express the inherent characteristics of different arts, this paper proposes a new neural network model called Humming. It is an experimental model that combines vgg16, which extracts image features, and DeepJ's architecture, which excels in creating various genres of music. A dataset produced by our experiment shows meaningful and valid results. Different results, however, are produced when the amount of data is increased. The neural network produced a similar pattern of music even though it was a different classification of images, which was not what we were aiming for. However, these new attempts may have explicit significance as a starting point for feature transfer that will be further studied.

Keywords

1. 서론

알파고가 이세돌과의 대국에서 승리하기 전까지 바둑은 절대적으로 인간의 영역이라고 받아들여졌지만 인간인 이세돌의 패배 후에는 인공 신경망에 대한 관심이 뜨거워지기 시작했다. 이후 학자들의 지속적인 연구와 컴퓨팅 디바이스의 성능 향상은 빅데이터와 신경망의 발전으로 이어졌고, 인공지능은 인간의 지능을 모방할 뿐만 아니라 그것을 뛰어넘는 성과를 보여주고 있다.

아직까지 창작만큼은 인간만이 가능하다고 이야기되고 있지만, 이제는 다른 분야 못지않게 창작 분야에 도전하는 인공지능들이 계속해서 만들어지고 있다.가장 먼저 성과를 보인 쪽은 그림 분야로 VAE, GAN등 뛰어난 성능을 보이는 이미지 생성 모델링 들은 사람들로 하여금 실제와 가짜를 쉽게 구분할 수 없을 정도로 발전하였다[1, 2].

더 나아가 순간의 창작이 아닌 연속성을 지닌 시계열 생성 분야로 인공 신경망의 활용이 넘어가고 있다.많은 연구자들이 음악과 글쓰기 분야를 위한아키텍쳐(architecture)들을 만드는데 성공하였고 일부는 정말 사람이 만든 듯한 느낌을 준다[3]. 이렇게 신경망은 빅데이터 속에 담긴 공통적인 특징들을 찾아내고 학습하여 유사한 것을 만들어내는 것이 가능해졌다.

그렇다면 감정은 어떨까? 사람들은 무언가를 경험하고 그것에 대해 동일한 감정을 느끼더라도 어떤 이는 음악으로, 또 어떤 이는 그림으로 표현한다. 실제로 이미 몇몇 연구자들은 그림의 색체정보를 바탕으로 그 안에 담긴 인간의 감성을 분석하고, 더 나아가 해당 정보를 기반으로 음악을 생성하는 알고리즘을 만들었다[4]. 인공지능이 작품 깊은 곳에 내재된특징을 찾아낼 수 있고 이것을 다른 예술 영역으로 표현할 수 있다면, 이는 작품에 담긴 인간의 감정을 이해하고 적용했다고 말할 수 있을 것이다.

본 논문에서는 단순한 알고리즘 기반 자동작곡의 한계를 넘어, 인공지능 스스로가 그림의 컨텐츠를 분석하여 음악을 생성하는 Humming이라는 이름의 신경망 구조를 새롭게 고안했다.Humming이라는 작명은 사람들이 종종 예술 작품을 보고 느낀 감정을 콧노래로 흥얼거리는 것에서 따왔다. 이 모델을 통하면 어떠한 이미지의 종류 혹은 그 안의 컨텐츠의 특징을 파악하여 그에 맞는 특정 작곡가나 장르의 자동작곡이 가능하다. 본 논문에서는 사진 속에 등장하는 풍경을 분류하여 각각을 클래식 음악사조에 대응시켰다. 모델에서 이미지를 입력받으면 해당 이미지를합성곱층(convolution layer)을 통과시켜서 고수 준 특징 벡터로 바꾼다. 그리고 이것을 음악 생성의 시드 (seed)벡터를 사용하여 작곡을 진행하게 된다. 작곡을 맡는 모듈은 DeepJ[5]의 신경망 모델을 차용하였다. 이후 kaggle의 intel image데이터셋과 maestro midi데이터셋을 사용하여 학습을 진행하였으나, 아쉽게도 원하던 결과를 얻지 못하였다.다른 분류의 이미지를 시드로 사용하였음에도, 유사한 특징을 가진 멜로디가 생성되거나, 오히려 같은 분류의 이미지임에도 전혀 다른 멜로디가 나오는 등 원하던 목표 수준에는 도달하지 못하였다.그렇지만 데이터셋을소규모로 직접 전처리하여 만든 프로토타입 버전에서는 나름 유의미한 결과를 도출한 점에서 차후 데이터의 전처리, 신경망의 개선 등의 작업을 거친다면 만족할만한 수준의 결과가 나올 것이라고 생각한다.

비록 최종 결과가 썩 좋지는 못하였지만, 이러한 연구가 갖는 가장 큰 의의는 ‘하나의 예술을 다른 예술로 전환하는 것이 인공지능에게도 가능한가?’에 대한 답을 찾는 과정 중 하나라는 점에 있다. 현재생성모델링 연구들은 ‘음악-음악’ 혹은 ‘그림-그림 ‘과 같이 동일한 영역 간의 변환이 연구되어 왔지만 이 논문을 통해서 서로 다른 예술영역 간의 특징 전이가 가능함이 알려진다면 차후 더 많은 분야에서 활용될 수 있을 것이다. 예를 들어 인스타그램에 사람들이 멋진 풍경을 배경 삼아 사진을 찍었을 때, 그에 어울리는 음악을 자동으로 작곡하여 주거나, ‘이미지-음악’에서 벗어나 자신이 작성한 가사에 맞춰서 멜로디를 만들어주는 등의 방향으로 얼마든지 확장될 수 있을 것이다.

2. 배경 기술

컴퓨터를 사용한 최초의 자동 작곡은 1957년 벨연구소에서 만들어진 ‘TheSilverScale’이라는 17초짜리 멜로디이다[6]. 이후 같은 해에 컴퓨터에 의해 작곡된 최초의 악보가 만들어졌고 이 일들은 컴퓨터로 음악을 만들 수 있음을 시사했다.이후 알고리즘 면에서 방대한 데이터를 기반으로 하는 머신러닝을 사용한 방법들이 연구가 되었고, 현재는 대부분의 기술이 이러한 신경망 관련 알고리즘에 기반하여 개발되고 있다.

자동 작곡 분야에서는 다양한 종류의 신경망 모델이 사용되고 있는데, 초창기 모델 중 하나는 시계열 데이터를 잘 처리할 수 있던 RNN과 그것을 개선한 LSTM[7]을 활용한 모델이다. 이 모델은 문장과 같은 시계열데이터를 처리할 때 사용되었는데, 음악 역시도 시계열 데이터이기에, 연구자들이 자동 작곡 분야에 가져와서 활용하기 시작했다.DouglasEck의 논문에서[8]LSTM모델은 블루스 스타일의 음악을 성공적으로 학습하여 해당 스타일의 멜로디를 잘 작곡하였음을 보여주었다.LSTM이 블루스의 정확한 박자와 운율의 구성을 제대로 만들어내어 자동 작곡 분야에 가능성을 제시해주었다. 이후 지속적으로 ‘어떻게 하면 음악을 잘 학습하고 만들어낼 수 있을까?’ 에 대한 여러 고민과 그것들을 해결한 다양한 신경망 모델들이 제시되었다. 시간이 지나면서 연구자들은 단순히 자연스러운 곡을 작곡하는 것에 그치는 것에서 한발 나아가 ‘어떻게 하면 음악의 특징을 통제 (control)할 수 있을까?’에 대한 질문으로 발전하게 된다.

2.1 조건 추가를 통한 출력 통제

2017년에 Dimos Markis의 Combining LSTM andFeedForwardNeuralNetworksforConditio- nalRhythmComposition[9]논문에서는 베이스라인을 조건(condition)으로 추가하여 그에 맞는 드럼 시퀀스(drum sequence)를 생성할 수 있음을 보여주었다. 이 논문에서 제시한 신경망은 직전 드럼비트와, 운율의 정보를 담은 베이스라인을 각각 입력 받아 다음 연주할 드럼비트를 출력한다. Fig.1신경망의아키텍쳐는 크게 두 모듈로 구성된다.첫번째는 LSTM 으로 직전 비트 정보를 입력받아 다음 비트의 확률정보를 출력한다. 두번째 모듈은 완전연결계층으로 베이스라인과 운율데이터를 가진 추가 데이터를 받는다. 이 두 모듈에서의 출력은 병합 계층(merge layer)에 의해 합쳐지고 최종적으로 소프트맥스 활성 함수(softmaxactivationfunction)를 통해 다음 드럼 비트의 확률 분포로 출력된다.이는 완전연결계층에 입력한 베이스와 운율정보라는 조건을 통해서 다음 드럼 비트에 영향을 줄 수 있음을 보여주었다.즉 조건이라는 추가적인 입력을 통해서 신경망의 출력을 조정하거나 제약을 가할 수 있다는 것이다.

Fig. 1. Combining LSTM and Feed Forward Network.

2.2 DeepJ

DeepJ [4] 는 2018년에 발표된 논문으로 훨씬 더 진보된 방식을 선보였다. 이 논문은 단순한 추가 정보가 아닌 스타일(style)을 조건(condition)혹은 제약(constraint)으로서 동작시켜 신경망의 출력을 제어하는 것에 초점을 맞추고 있다.Fig.2는 DeepJ의구조로 이전에 존재했던 Bi-axial[10]이라는 신경망아키텍쳐를 사용하되, 스타일 정보(style informa- tion)역할을 맡을 원-핫(one-hot)입력을 추가하여 특정 스타일의 음악을 만들도록 유도하였다. 추가적으로 DeepJ는 원-핫 인코딩된 스타일 벡터를 바로 입력하는 것이 아닌 완전연결계층을 통과시켜 128차원 벡터로 임 베딩(embedding) 하였다.논문의 결과에 따르면, 각 작곡가의 스타일을 의미하는 원-핫 벡터들을 임베딩 층(embeddinglayer)을 통과시킨 뒤, t-SNE알고리즘을 통해 만든 산포도에서 스타일이 유사한 작곡가들의 벡터들이 서로 가까운 곳에 모여 군집(cluster)을 이룬 것이 확인되었다. 또한 각사람들이 각 음악 샘플들을 평가했을 때 대체적으로 음악사조별 특징들을 잘 잡아내어 표현하는데 성공하였다고 한다.

Fig. 2. DeepJ Architecture.

3. Humming 구조

본 논문에서 제시하는 Humming모델은 DeepJ[4] 를 베이스로 삼는다.DeepJ아키텍쳐가 선보인 자동작곡의 성능은 작곡가의 스타일을 유지하면서도 상당한 성능을 보였기에 전체적인 뼈대를 차용하여 사용하였으나, 작곡의 시드(seed)가 되는 스타일 입력부(style input)를 변형시켰다.

DeepJ는 작곡가 개개인을 하나의 스타일로 대응하고 이를 원-핫 벡터로 표기하였다.이렇게 입력한 원-핫 벡터는 임 베딩 층을 거쳐 작곡의 시드 역할을 하는 벡터로 변환된다. 그리고 작곡을 담당하는 두 개의 LSTM모듈 내에서 작곡가의 스타일을 유지하도록 LSTM의 은닉층(hiddenstate)과 병합(concat- enate)된다.

Humming은 이미지로부터 음악을 만들어야 하므로 이미지는 작곡 스타일의 정보를 담고 있어야 한다. 그래야만 유사한 컨텐츠 혹은 스타일이 그려진 이미지를 사용할 때 비슷한 무드(mood)의 음악이 만들어질 것이며, 이는 같은 분류의 이미지라면 동일한 군집에 포함된 벡터로 대응되어야 함을 의미한다. 가공되지 않은 원본 이미지(rawimage)는 값을 갖는 3 차원 벡터이므로 1차원으로 변환하면 벡터의 크기가 매우 커지게 된다. 그러므로 신경망 내에서 스타일 벡터로 사용될 수 있는 수준의 크기로 압축하되 이미지에 담겨있는 특징들의 손실을 최소화하여 변환해야 한다. 이렇게 각 이미지를 하나의 벡터로 대응하기 위해 '전처리용 신경망'을 만들었는데 이를 프리모델(pre-model)로 명명한다. 프리모델이 이미지 안의 컨텐츠와 특성을 잘 찾아내려면 데이터셋을 통해 미리 학습되어야 하지만, 이미 이미지 분류 문제는 연구가 많이 진행된 부분이다. 따라서 학습이 완료되어 파라미터가 공개된 신경망 중에서 Image Net 챌린지에서 높은 성능을 보였던 VGG16[11]의 합성곱층의 학습이 끝난 모듈을 사용하여 프리모델을 구성하였다. 합성곱층을 통과한 이미지 데이터는 3차원 벡터로 바뀌는데 원본보다 크기가 작아졌지만 시드 벡터로 사용하기에는 여전히 크기가 큰 편이다. 따라서 임베딩 역할을 할 완전연결계층을 추가하여 더 낮은 차원의 벡터로 압축한다. 최종적으로 Fig.3과 같이 렐루함수(ReLUactivationfunction)를 지닌 완전연결계층 2개와 활성 함수 없이 임베딩을 담당할 완전연결계층 1개, 마지막으로 소프트맥스(softmax) 출력층을 추가하여 프리모델을 완성했다. 임베딩층을 제외한 완전연결계층 2개와 소프트맥스 출력층은프리모델이 이미지 분류 문제를 학습시키기 위함으로 VGG논문에서 사용한 완전연결계층의 개수를 동일하게 하되, 완전연결계층의 크기는 이미지 데이터셋이 소규모임을 고려하여 1024로 축소 선택하였다. 임베딩층의 출력값은 DeepJ의 스타일 시드 벡터로 사용되어야 하고, 또한 이미지 컨텐츠 정보 손실이 최소화되어야 하므로 128사이즈의 완전연결계층으로 선택하였다.

Fig. 3. Humming’s pre-model architecture. Fig. 4. Humming Architecture.

학습이 끝난 프리모델은 동일한 분류의 이미지들을 공간 상에서 서로 가까운 벡터로 대응하며 벡터의 차원 수를 압축한다. 실제 음악 생성을 위한 모델 학습 과정에서는 분류문제 학습을 위해 사용된 소프트맥스 출력층을 제외하고 이미지를 벡터로 변환하는 임 베딩 층까지 만 사용한다.

메인 몸체에 해당하는 음악 생성 구조는 DeepJ아키텍쳐를 대부분 그대로 사용했다. 다른 점은 작곡가들의 분류가 포함된 원-핫 벡터를 사용한 스타일 입력부 대신에 프리모델을 거쳐 임 베딩 된 이미지 데이터를 입력한 것이다.DeepJ에서는 입력된 원-핫 벡터는 완전연결계층을 통과한 다음 LSTM모듈에 병합되었지만, Fig.4의 모습처럼 Humming에서는 입력된 이미지들이 프리모델의 임베딩층까지 통과한 뒤에 LSTM모듈로 병합한다. 즉 이미지의 특성과컨텐츠들을 압축하여 가지고 있는 임 베딩 벡터가 음악 생성 내의 스타일 정보 역할을 맡는 것이며, 이는 이미지의 유사성이 음악 장르의 유사성을 이끌어내도록 한다.

Fig. 4. Humming Architecture.

4. 실험

본격적인 실험에 앞서 프로토타입 신경망은 ‘이미지 특징(feature)을 어떻게 찾을 것이며, 찾았다면 이것을 어떻게 해야 자동 작곡의 시드로써 기능하게 할 수 있는가?’라는 질문의 답을 찾기 위해 진행했다. 앞서 언급한 바와 같이 이미지 데이터를 합성곱 신경망(convolution network)에 통과시키면 이미지의 핵심 특징을 간직한 3차원 벡터 데이터가 만들어진다. 이 벡터를 별다른 조작 없이 곧바로 자동작곡 시드로 사용한다면 위 질문의 답의 실마리를 찾을 수 있을 것이라 생각했다. 그래서 Fig.5에서처럼 합성곱 연산을 거친 3차원 벡터를 평탄화한(flatten)벡터를 별도의 추가 조작 없이 스타일 입력으로 사용하여 학습시켜보았다.

Fig. 5. Humming prototype architecture.

해당 기능이 잘 동작하는지 파악하기 위해 먼저 직접 수집하여 만든 간단한 데이터셋에서 테스트를 진행했다.경음악 계열의 작곡가인 Sereno, July 두 사람의 곡을 각각 3개씩 midi 파일로 준비하였고, 조 변환을 통해 모두 C장조로 통일하고 연주 속도도 서로 동일하게 맞추었다. 사진은 이미지의 특징이 확실하게 차이 나는 상상도들로 선정하였고, 각 midi 파일 하나당 사진 하나씩 일대일대응 관계로 쌍을 지어 학습데이터로 만들었다. 그리고 이후 스타일 입력부와 임베딩을 담당하는 완전연결계층의 활성 함수를 튜닝하여 최적의 결과를 찾아냈다.

Fig.6(b) 는 학습에 사용된 작곡가 sereno의 spiral moon이라는 곡의 주요 파트이며 Fig.6(a)는 이와 짝지어져 시드 역할의 이미지이다. 그리고 악보 Fig. 6(d)는 이미지 Fig.6(c) 를 시드로 사용한 자동작곡의결과물로 양쪽 악보의 박스 친 영역 멜로디가 거의 완벽히 일치하도록 생성되었음을 관찰할 수 있다.

Fig. 6. Comparison midi score from train set and generated sample. (a) Train Seed Image, (b) Train Midi Score, (c) Generation Seed Image, and (d) Generation Result Midi Score.

이를 통해 처음에 제시한 ‘이미지의 특징을 시드로 사용한 자동작곡’이 충분히 가능성이 있음이 확인되었다. 이후 신경망의 구조는 그대로 유지한 채 데이터양을 늘려 오버피팅(overfitting)을 피하고 좀더 다양한 이미지에 대응할 수 있도록 시도했다.Kaggle 의 ‘intel imageclassification’이미지셋과 ‘maestro datasetv3’midi셋을 준비하였고 동일한 방법으로 학습을 진행하였으나, 이전의 작은 데이터셋에서는발생하지 않은 메모리 용량 부족의 문제가 발생하였다. 따라서 차원수가 큰 vgg16의 출력 벡터를 그대로 사용하는 것이 아닌, DeepJ의 스타일 임베딩층을 프리모델쪽으로 이동시켰다. 이를 통해 Fig.3과 같이프리모델의 구조를 바꾸고 이미지 셋의 분류 문제를 풀도록 별도의 학습을 진행하여, 결과적으로 프리모델의 임베딩층에서 합성곱층을 통과한 결과 벡터를 차원 축소시키는 기능을 수행하게 했다. 차원이 각축소되면서 각 이미지 분류별 특징을 내포하므로 임 베딩 층의 출력 벡터를 시드로 사용하여 자동작곡을 수행하면 동일 분류의 이미지들이 유사한 장르의 음악을 생성하도록 유도할 수 있다.

방법을 개선한 후에 C장조로의 조 변환, 연주 속도통일, 곡 길이 제한 등을 통해 데이터셋을 가공하였다. 사용한 작곡가 리스트는 Table1과 같으며 해당 작곡가들의 곡 중에서 메모리의 한계를 고려하여 길이가 5분 이내의 곡들로 선정하여 midi데이터셋을 완성했다.

Table 1. Composer list used for training.

그리고 kaggle의 이미지셋의 경우에는 의미 없는 노이즈 샘플 제거 및 분류에 부합하지 않거나 모호한 샘플들을 직접 수작업으로 제거하여 데이터를 정제하였다. 사용하는 midi셋의 음악사조가 크게 세 가지:바로크, 낭만주의, 고전주의이므로 이미지 셋에서도 차이가 가장 크게 구분되는 빙하, 산, 바다를 활용했다. 메모리 크기를 고려하여 각 음악사조별로 midi 파일을 10개씩 뽑아 쌍으로 만들어 학습데이터를 완성했다. 신경망은 이미지의 임 베딩을 담당할 프리모델과 자동작곡을 담당하는 메인 모델로 구분되며, 프리모델은 학습된 vgg16의 합성곱층과 완전연결계층으로만 이루어진다. 메인 모델은 DeepJ의 전체 구조를 차용하되 스타일 입력부의 스타일 임베딩층이 삭제되어 있으며, 스타일 입력부에는 프리모델 임 베딩 층의 출력 벡터를 사용한다.

maestromidi셋과 kaggle의 intel이미지셋의 학습 결과는 만족스럽지 않았다. 일단 곡 자체의 퀄리티가 떨어지는 것도 있지만 가장 큰 문제는 기존에 목표했던 ‘동일 분류의 이미지를 시드로 사용하면 유사 장르의 멜로디 생성’이라는 영역에서 나타났다. 같은 분류의 이미지임에도 전혀 다른 느낌의 음악이 만들어지거나, 다른 클래스임에도 오히려 유사한 느낌의 음악이 생성되었다. 문제의 원인을 찾기 위해 서 이미지 셋이 프리모델 내에서 제대로 임 베딩 되고 있는지를 분석했다.

이미지가 프리모델의 임 베딩 층을 통과한 후의 결과 벡터들은 동일 분류의 샘플이라면 같은 영역에 속해 있어야 한다.Fig.7에서 빨간색은 바다, 초록색은 산, 파란색은 빙하 분류의 이미지 샘플들을 의미하는데 대체적으로 이미지의 임 베딩이 잘 이루어지긴 했으나, 조금씩 서로의 영역을 침범하고 있는 것이 보인다. 이러한 점을 보아 임 베딩 된 벡터가 자동작곡의 시드로 사용되어 생성 과정에서 노이즈로 작용된 점이 영향을 준 것으로 판단된다.또한 동일 한 분류의 샘플들이더라도 군집의 모양이 원이 아닌 길게 늘어진 띠 형태를 보이는데, 이는 같은 분류에 속하더라도 상대되는 극점에 위치한 벡터들의 값은 서로 그 차이가 매우 클 것이라는 유추도 가능하다.

Fig. 7. Image embedding vectors through t-SNE vis- ualization. (a) sea, (b) mountain, and (c) glacier.

5. 결론

데이터양이 적은 초기 실험 단계에서는 이미지에 있는 특징들을 인지하여 유사한 멜로디가 나타났다. 이후 데이터 양을 늘려도 대부분이 유사한 특징을 보이는 빙하의 이미지 셋에서는 대체로 유사한 스타일과 느낌을 지닌 음악들이 생성되었다.그러나 질적인 면과 타 분류의 이미지에 대해서는 아쉬운 결과들이 나타났다.

그에 대한 이유로는 크게 두 가지로 추측된다. 첫째, 추가적인 midi데이터셋의 정제와 보정이다. 각장르 간의 샘플들의 재생 시간에 차이가 있는데 이것들은 결국 전체 데이터셋에서 각 장르의 샘플들이 가지게 되는 비율의 차이를 불러올 것이다.결국 데이터셋에서 동일한 개수의 샘플들을 사용하더라도 거시적 관점에서는 각 장르의 데이터 비율 차이가 생기게 된다. 그리고 실제 샘플들을 들어보면 흔히 말하는 클라이맥스라는 지점이 존재하며 이는 보통 각 작곡가의 스타일을 가장 잘 담아내는 부분이다. 즉 클라이맥스를 제외한 부분들이 가지는 각 장르들이 가지는 대표적인 특징들을 담아내기에 부족한 면이 있을 가능성이 존재한다. 이런 사소한 노이즈들도 쌓이게 되면서 샘플들이 해당 장르에 대한 대표성을 잃게 만들 수도 있을 것이다.

둘째, 이미지 데이터 간의 이질감이다. t-SNE을통해 시각화한 산포도에서 알 수 있는 것처럼 분 명동 일한 분류에 속함에도 각 분류의 분포가 길게 늘어진 형태를 띈다. 이는 양극단에서는 동일 클래스이지만 전혀 다른 콘텐츠를 담고 있는 이미지가 존재할 수 있음을 시사한다.

그렇기에 위의 문제들을 해결하기 위해서 이미지의 분류를 좀 더 세분화하거나, 이미지 내에 존재하는 콘텐츠들의 유사성을 분류의 기준에 포함하여 군집이 잘 이루어지도록 하면 임 베딩 된 스타일 벡터 가곡 생성의 시드의 역할이 개선될 것으로 판단된다.

이후 연구에서는 이미지셋의 개선과 midi 파일들의 정밀한 정제와 가공이 이루어진다면, 충분히 예술영역 간의 변환이 절대 불가능한 일이 아님을 본 논문에서 증명했다고 생각한다. 이는 인공지능이 정말 사람처럼 무언가를 보거나 경험한 것을 자신만의 예술 분야로 표현하는 것이 가까운 시일 내에 가능하다는 점을 시사한다.

References

D.P. Kingma and M. Welling, "Auto-Encoding Variational Bayes," arXiv preprint, arXiv:1312.6114, 2013.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, et al., "Generative Adversarial Nets," Proceedings of the 27th International Conference on Neural Information Processing Systems, Vol. 2, pp. 2672-2680, 2014.
S. Dieleman, A.V.D. Oord, and K. Simonyan, "The Challenge of Realistic Music Generation: Modelling Raw Audio at Scale," arXiv P reprint, arXiv:1806.10474, 2018.
H.J. Choi, J.-H. Hwang, S. Ryu, and S. Kim, "Music Generation Algorithm based on the Color-Emotional Effect of a Painting," Journal of Korea Multimedia Society, Vol. 23, No. 6, pp. 765-771, 2020. https://doi.org/10.9717/KMMS.2020.23.6.765
H.H. Mao, T. Shin, and G. Cottrell, "DeepJ: Style-Specific Music Generation," IEEE 12th International Conference on Semantic Computing (ICSC), pp. 377-382, 2018.
J.P. Briot, G. Hadjeres, and F.D. Pachet, "Deep Learning Techniques for Music Generation--A Survey," arXiv preprint, arXiv:1709.01620, 2017.
S. Hochreiter, and J. Schmidhuber, "Long Short-Term Memory," Neural Computation, Vol. 9, No. 8, pp. 1735-1780, 1997. https://doi.org/10.1162/neco.1997.9.8.1735
D. Eck and J. Schmidhuber, "A First Look at Music Composition using LSTM Recurrent Neural Networks," Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale, Vol. 103, pp. 48, 2002.
D. Makris, M. Kaliakatsos-Papakostas, I. Karydis, and K.L. Kermanidis, "Combining LSTM and Feed Forward Neural Networks for Conditional Rhythm Composition," InterNational Conference on Engineering Applications of Neural Networks, Springer, Cham, pp. 570-582, 2017.
D.D Johnson, "Generating Polyphonic Music using Tied Parallel Networks," International Conference on Evolutionary and Biologically Inspired Music and Art, Springer, Cham, pp. 128-143, 2017.
K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv preprint, arXiv:1409.1556, 2014.

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

Humming: Image Based Automatic Music Composition Using DeepJ Architecture

허밍: DeepJ 구조를 이용한 이미지 기반 자동 작곡 기법 연구

Abstract

Keywords

1. 서론

2. 배경 기술

2.1 조건 추가를 통한 출력 통제

2.2 DeepJ

3. Humming 구조

4. 실험

5. 결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)