A Research of Optimized Metadata Extraction and Classification of in Audio

미디어에서의 오디오 메타데이터 최적화 추출 및 분류 방안에 대한 연구

  • Published : 2021.05.03

Abstract

Recently, the rapid growth of the media market and the expectations of users have been increasing. In this research, tags are extracted through media-derived audio and classified into specific categories using artificial intelligence. This category is a type of emotion including joy, anger, sadness, love, hatred, desire, etc. We use JupyterNotebook to conduct the corresponding study, analyze voice data using the LiBROSA library within JupyterNotebook, and use Neural Network using keras and layer models.

최근 미디어의 시장의 급격한 성장과 그에 따른 사용자들의 기대감이 증가하고 있다. 이 연구에서는 미디어에서 추출한 오디오를 통하여 다양한 태그를 추출하고 인공지능을 활용하여 특정 카테고리로 분류한다. 이 카테고리는 감정에 대한 종류이며 기쁨, 분노, 슬픔, 즐거움, 사랑, 증오, 욕망 등이 있을 수 있다. 해당 연구를 수행하기 위하여 Jupyter Notebook 프로그램을 사용하며, Jupyter Notebook 내에서 LiBROSA 라이브러리를 이용하여 음성데이터를 분석하고 Keras와 계층 모델을 이용하여 Neural Network를 학습한다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업(No. 2018R1D1A3B07049722) 과제 지원에 의하여 연구되었음.