• Title/Summary/Keyword: 오디오 분류

Search Result 107, Processing Time 0.029 seconds

Video genre classification using Multimodal features (멀티모달 특징을 이용한 비디오 장르 분류)

  • Jin Sung Ho;Bea Tea Meon;Choo Jin Ho;Ro Yong Man;Kang Kyeongok
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2003.11a
    • /
    • pp.219-222
    • /
    • 2003
  • 본 논문에서는 멀티모달(multimodal) 특징을 이용한 비디오 장르 식별 방법을 제안한다. 비디오 장르 식별 기술은 방대한 양의 방송 컨텐츠를 보다 효율적으로 분류할 뿐 아니라 자동적인 비디오 요약을 위한 전처리 과정으로 활용될 수 있는 기술이다. 따라서, 그 필요성 및 중요성이 부각되고 있다. 본 논문에서 제안하고 있는 방법은 MPEG-7의 오디오 및 비주얼 서술자들을 적용하여 멀티모달 특징을 추출하고 여러 가지 방송 비디오 장르(genre)들로 구성된 데이터베이스에서 장르 분류를 위해 설계된 인식기(classifier)를 통한 성능을 평가한다.

  • PDF

Deep learning based environmental sound classification for selective noise canceling (선택적 노이즈 캔슬링을 위한 딥 러닝 기반의 환경 인지 기술)

  • Choi, Hyunkook;Kim, Sangmin;Han, Seokhyeon;Shin, Seong-Hyeon;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.343-345
    • /
    • 2020
  • 본 논문에서는 선택적 노이즈 캔슬링을 위한 환경 인지 기술을 제안한다. 기존의 노이즈 캔슬링은 모든 소리를 구분 없이 차단하여 여러 가지 문제를 유발할 수 있으며 공통된 노이즈 캔슬링 동작으로 각 소음에 최적화된 성능을 보장할 수 없다. 이러한 문제를 해결하기 위해 제안하는 방법은 대표적 오디오 특성인 멜-스펙트로그램과 스펙트로그램 기반의 시간적 특성 벡터를 사용하여 환경 인지를 진행한다. 본 논문에서는 attack, rotation, sawing으로 구성된 3가지 소음과 speech, tonal로 구성된 2가지 비 소음으로 총 5가지 클래스를 분류한다. 제안하는 방법에서 특성 벡터로 멜-스펙트로그램만을 사용했을 때 87.5%의 분류 성능을 보였으며, 스펙트로그램 기반의 시간적 특성을 추가했을 때 분류 성능이 91.2%로 향상되었다.

  • PDF

Music Genre Classification using Time Delay Neural Network (시간 지연 신경망을 이용한 음악 장르 분류)

  • 이재원;조찬윤;김상균
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.5
    • /
    • pp.414-422
    • /
    • 2001
  • This paper proposes a classifier of music genre using time delay neural network(TDNN) fur an audio data retrieval systems. The classifier considers eight kinds of genres such as Blues, Country, Hard Core, Hard Rock, Jazz, R&B(Soul), Techno and Trash Metal. The comparative unit to classify the genres is a melody between bars. The melody pattern is extracted based un snare drum sound which represents the periodicity of rhythm effectively. The classifier is constructed with the TDNN and uses fourier transformed feature vector of the melody as input pattern. We experimented the classifier on eighty training data from ten musics for each genres and forty test data from five musics for each genres, and obtained correct classification rates of 92.5% and 60%, respectively.

  • PDF

Classification of General Sound with Non-negativity Constraints (비음수 제약을 통한 일반 소리 분류)

  • 조용춘;최승진;방승양
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.10
    • /
    • pp.1412-1417
    • /
    • 2004
  • Sparse coding or independent component analysis (ICA) which is a holistic representation, was successfully applied to elucidate early auditor${\gamma}$ processing and to the task of sound classification. In contrast, parts-based representation is an alternative way o) understanding object recognition in brain. In this thesis we employ the non-negative matrix factorization (NMF) which learns parts-based representation in the task of sound classification. Methods of feature extraction from the spectro-temporal sounds using the NMF in the absence or presence of noise, are explained. Experimental results show that NMF-based features improve the performance of sound classification over ICA-based features.

보안성 및 사용성 측면에서의 CAPTCHA 동향

  • Cho, Geumhwan;Choi, Jusop;Kim, Hyoungshick
    • Review of KIISC
    • /
    • v.27 no.1
    • /
    • pp.47-54
    • /
    • 2017
  • 웹 사이트에서 자동화 공격 도구를 이용한 다양한 종류의 공격을 방지하기 위한 보안 솔루션으로 CAPTCHA가 널리 이용되고 있다. 그러나 동시에 CAPTCHA를 해결하는 자동화 도구에 대한 연구가 진행되면서 CAPTCHA에 사용되는 텍스트 이미지(예: 숫자, 글자)를 더욱 어렵게 만들게 되었다. 그 결과 사용자도 CAPTCHA를 해결하는데 어려움을 겪게 되었고, 결론적으로 보안성을 높이기 위해 사용성을 감소시킨 결과를 초래 하였다. 본 논문에서는 텍스트, 오디오 및 이미지 기반 CAPTCHA로 분류하여 보안성과 사용성 측면에서 분석하고자 한다.

Implementation of Validation Scheme in SMIL Authoring Tool (SMIL 저작도구의 검증 스킴 구현)

  • 김경일;김태현;이승원;정병달;이영진;이규철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.441-444
    • /
    • 2000
  • Web의 등장은 텍스트위주의 단순한 미디어의 정보를 이미지, 오디오 , 비디오등의 멀티미디어 데이터로 변화시켰다. 여기에 한걸음 더 나아가 여러 종류의 미디어를 통합하여 표현하기 위한 요구가 확산되어 1998년에는 SMIL 이라는 멀티미디어 데이터를 통합하여 표현하기 위한 동기화 언어가 표준으로 채택되었다. 본 논문에서는 SMIL을 사용한 멀티미디어 동기화 문서를 기술함에 있어서 발생할 수 있는 다양한 오류에 대한 분류를 보여주며, 이러한 오류들을 검사하고, 제거할수 있는 SMIL 저작도구의 검증 스킴 개발에 대해서 기술하였다.

  • PDF

Research on Open Source Encoding Technology for MPEG Unified Speech and Audio Coding (MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구)

  • Song, Jeongook;Lee, Joonil;Kang, Hong-Goo
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.50 no.1
    • /
    • pp.86-96
    • /
    • 2013
  • Unified Speech and Audio Coding (USAC) is the speech/audio codec with the best quality, approved on Final Draft International Standard (FDIS) at MPEG meeting in 2011. Since MPEG conventionally standardizes only the decoder, it is not easy to study on the encoder technologies. Furthermore, Reference Model(RM) shows extremely poor performance. To solve these problems, the open source project(JAME) proposes the methods to make the improved performance of main encoder technologies in USAC. Especially, this paper introduces the encoder modules: the signal classifier for selective operation between two coders, the psychoacoustic model in frequency domain, and window transition technology. Finally, the results of verification test for FDIS and the performance of Common Encoder are appended.

Implementation of MP3 decoder with TMS320C541 DSP (TMS320C541 DSP를 이용한 MP3 디코더 구현)

  • 윤병우
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.4 no.3
    • /
    • pp.7-14
    • /
    • 2003
  • MPEG-1 audio standard is the algorithm for the compression of high-qualify digital audio signals. The standard dictates the functions of encoder and decoder pair, and includes three different layers as the complexity and the performance of the encoder and decoder. In this paper, we implemented the real-time system of MPEG-1 audio layer III decoder(MP3) with the TMS320C541 fixed point DSP chip. MP3 algorithm uses psycho-acoustic characteristic of human hearing system, and it reduces the amount of data with eliminating the signals hard to be heard to the hearing system of human being. It is difficult to implement MP3 decoder with fixed Point DSP because of it's broad dynamic range. We implemented realtime system with fixed DSP chip by using weighted look-up tables to reduce the amount of calculation and solve the problem of broad dynamic range.

  • PDF

Design and Implementation of Speech Music Discrimination System per Block Unit on FM Radio Broadcast (FM 방송 중 블록 단위 음성 음악 판별 시스템의 설계 및 구현)

  • Jang, Hyeon-Jong;Eom, Jeong-Gwon;Im, Jun-Sik
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.25-28
    • /
    • 2007
  • 본 논문은 FM 라디오 방송의 오디오 신호를 블록 단위로 음성 음악을 판별하는 시스템을 제안하는 논문이다. 본 논문에서는 음성 음악 판별 시스템을 구축하기 위해 다양한 특정 파라미터와 분류 알고리즘을 제안 한다. 특정 파라미터는 신호처리 분야(Centroid, Rolloff, Flux, ZCR, Low Energy), 음성 인식 분야(LPC, MFCC), 음악 분석 분야(MPitch, Beat)에서 각각 사용되는 파라미터를 사용하였으며 분류 알고리즘으로는 패턴인식 분야(GMM, KNN, BP)와 퍼지 신경망(ANFIS)을 사용하였고, 거리 구현은 Mahalanobis 거리를 사용하였다.

  • PDF

Smart TV Hybrid Media Service based on HTML5 (HTML5 기반 스마트TV 하이브리드 미디어서비스)

  • Lee, S.Y.;Joe, J.M.;You, J.J.;Park, S.T.;Hong, J.W.
    • Electronics and Telecommunications Trends
    • /
    • v.29 no.3
    • /
    • pp.11-16
    • /
    • 2014
  • 방송과 통신이 융합되면서 새로운 서비스들이 등장하고 있는데 서비스만 보고서는 방송서비스인지 통신서비스인지 분간이 힘든 기술들이 다수 등장하고 있다. 최근 스마트TV가 방송, 통신, 컴퓨팅의 대표적인 서비스로 부각되면서 멀티플랫폼 연동의 하이브리드 미디어서비스가 다양하게 개발되고 있다. 본 논문에서는 방송통신 융합서비스에 대해서 두 매체 간의 연관여부에 따라 2가지로 서비스를 분류하고 각 분류된 방식에 따른 다양한 하이브리드 미디어서비스의 실제 구현사례를 소개한다. 소개되는 서비스에는 개인형 홈스크린, 앱스토어, 콘텐츠 검색 및 추천, 패밀리톡, 대면 통신을 포함하는 스마트TV 홈스크린 기반 미디어 융합서비스와 하이브리드광고 서비스, 멀티앵글뷰 서비스, 멀티오디오 서비스를 포함하는 스마트TV 하이브리드 미디어서비스이다. 본 논문에서는 모든 서비스가 HTML5 기반의 웹브라우저에서 동작하도록 구현하였다.

  • PDF