• 제목/요약/키워드: Audio Analysis

검색결과 537건 처리시간 0.026초

오디오 신호 처리를 위한 초저전력 DSP 프로세서 (Ultra-low-power DSP for Audio Signal Processing)

  • 권기석;안민욱;조석환;이연복;이승원;박영환;김석진;김도형;김재현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.157-159
    • /
    • 2014
  • In this paper, we introduce SlimSRP, an ultra-low-power digital signal processor (DSP) solution for mobile audio and voice applications. So far, application processors (APs) have taken charge of all the tasks in mobile devices. However, they have suffered from short battery life problems to deal with complex usage scenarios, such as always-on voice trigger with continuous audio playback. From extensive analysis of audio and voice application characteristics, SlimSRP is designed to relive the performance and power burden of APs. It employs three-issue VLIW architecture, and the major low-power and high-performance techniques include: (1) an optimized register-file architecture friendly for constants generation, (2) a powerful instruction set to reduce the number of register file accesses and (3) a unique instruction compression scheme that contributes to saved memory size and reduced cache miss. An implementation of SlimSRP runs at up to 200MHz and the logic occupies 95K NAND2 gates in Samsung 28LPP process. The experimental results demonstrate that a MP3 decoder application with a 128kbps 44.1kHz input can run at 5.1MHz and the logic consumes only 22uW/MHz.

  • PDF

다채널 멀티미디어 전송용 임베디드 Audio Video Bridging 플랫폼 설계 및 구현 (Design and Implementation of an Embedded Audio Video Bridging Platform for Multichannel Multimedia Transmission)

  • 위정욱;박경원;권기원;송병철;강민구
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.1-6
    • /
    • 2015
  • 본 논문에서는 고품질 멀티미디어 데이터를 IEEE 802.1 Audio Video Bridging 기반의 네트워크를 통해 스마트 자동차와 스마트 홈 및 스마트 공연장에서 실시간으로 송수신할 수 있는 임베디드 플랫폼을 설계를 통해 정밀한 시간 동기화 표준인 IEEE 802.1AS와 QoS 보장을 위한 자원할당 표준인 IEEE 802.1Qat 프로토콜 분석을 통해 성능을 검증한다. 이를 위해 MRP(Multiple Registration Protocol), MMAP(Multicast Address Acquisition Protocol), IEEE 1722, 1722.1 등 AVB의 핵심 Layer-2 프로토콜을 리눅스 운영체제를 기반으로 구현한다. 아울러 상용 AVB 엔드포인트와 연동 실험을 통해 상호 호환성 및 멀티미디어 스트림의 실시간 송수신이 가능함을 보인다.

ARM926EJ-S 프로세서를 이용한 MPEG-4 BSAC 오디오 복호화기의 구현 (Implementation of MPEG-4 BSAC Audio Decoder using ARM926EJ-S Processors)

  • 전영택;박영철
    • 한국정보전자통신기술학회논문지
    • /
    • 제1권2호
    • /
    • pp.91-98
    • /
    • 2008
  • 국내 지상파 DMB방송 표준에서는 2003년 말 국제 표준으로 제정한 MPEG-4 BSAC(Bit Sliced Arithmetic Coding) 오디오 복호화 방식를 표준으로 채택하였다. 본 논문에서는 MPEG-4 BSAC 오디오 복호화기의 주요 도구 및 모듈에 대해 32비트 고정소수점 연산으로 구현하고 ARM926EJ-S 프로세서에 인라인 어셈블리(Inline Assembly)를 적용하여 최적화 한다. 최적화에 대해 본 논문에서는 RISC프로세서인 ARM926EJ-S의 Core Cycle을 가장 높게 발생시키는 곱셈 및 MAC(Multiply And Accumulation)연산에 집중한다. 그리고 각 모듈 및 도구에서 빈번히 발생하는 곱셈 연산과 MAC연산의 처리를 효율적으로 하기 위하여 대상 프로세서인 ARM926EJ-S에서 사용 가능한 ARMv5용 어셈블리 명령어를 분석하여 사용한다. 최적화된 결과는 MIPS(Million Instruction Per Second)를 기준으로 평가한다. 구현 결과는 96kbps BSAC bitstream을 65MHz CPU clock에서 실시간으로 디코딩할 수 있음을 보여준다.

  • PDF

합성곱 신경망과 장단기 메모리를 이용한 사격음 분석 기법 (Shooting sound analysis using convolutional neural networks and long short-term memory)

  • 강세혁;조지웅
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.312-318
    • /
    • 2022
  • 본 논문은 딥러닝기법 중 하나인 합성곱 신경망과 순환 신경망 중 하나인 장단기 메모리를 이용하여 사격시 발생하는 소음(이하 사격음)만으로 화기의 종류, 사격음 발생지점에 관한 정보(거리와 방향)을 추정하는 모델을 다루었다. 이를 위해 미국 법무부 산하 연구소의 지원하에 생성된 Gunshot Audio Forensic Dataset을 이용하였으며, 음향신호를 멜 스펙트로그램(Mel-Spectrogram)으로 변환한 후, 4종의 합성곱 신경망과 1종의 장단기 메모리 레이어로 구성된 딥러닝 모델에 학습 및 검증 데이터로 제공하였다. 제안 모델의 성능을 확인하기 위해 합성곱 신경망으로만 구성된 대조 모델과 비교·분석하였으며, 제안 모델의 정확도가 90 % 이상으로 대조모델보다 우수한 성능을 보였다.

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.

여기신호의 상관관계 기반 joint coding을 이용한 MPEG-4 audio lossless coding 인코더 복잡도 감소 방법 (A Complexity Reduction Method of MPEG-4 Audio Lossless Coding Encoder by Using the Joint Coding Based on Cross Correlation of Residual)

  • 조충상;김제우;최병호
    • 대한전자공학회논문지SP
    • /
    • 제47권3호
    • /
    • pp.87-95
    • /
    • 2010
  • 오디오 신호를 무손실 압축하여 휴대용 멀티미디어 기기에서 최고의 오디오 품질을 제공하는 기기들이 등장하고 있으며, 무손실 오디오 압축을 위한 기술에서는 2006년 MPEG-4 audio lessless coding(ALS)와 MPEG-4 scalable lossless coding(SLS)가 국제 표준으로 채택 되었다. 2009년에는 MPEG에서 최대 스테레오 음원까지만 지원하는 MPEG-4 ALS simple profile을 정의하였다. 표준화된 무손실 오디오 코덱이 휴대용 멀티미디어 기기에서 널리 이용되기 위해서는 휴대용 멀티미디어 기기에서 가장 널리 쓰이는 스테레오 조건에서 낮은 복잡도를 보여야 한다. 하지만 기존 연구에서는 MPEG-4 ALS의 압축률을 향상시키거나, 혹은 다채널 환경에서의 복잡도를 개선하기 위한 연구들이 주로 이루어졌다. 본 논문에서는 MPEG-4 ALS 인코더의 복잡도와 압축률을 분석하고, 이를 바탕으로 MPEG-4 ALS simple profile 조건에서 MPEG-4 ALS 인코더의 복잡도를 개선하기 위한 방법을 제안한다. 분석 결과 MPEG-4 ALS 인코더의 analysis 블록에서 전체 복잡도의 75% 발생하므로, 기존의 연구에서 개발된 저 복잡도 필터를 인코더에 적용하여 복잡도를 감소시키며, joint coding의 압축 효율과 여기 신호의 상호상관계수의 관계를 기반으로 joint coding 결정 방법을 제안한다. 제안된 방법과 저 복잡도 필터가 포함된 MPEG-4 ALS 인코더의 성능은 MPEG-4 conformance test 파일과 일반 음악 파일을 이용하여 복잡도 및 압축률로써 평가된다. 실험 결과 제안된 방법이 적용되었을 경우 압축률은 유사하면서 인코더 복잡도가 24% 감소한다. 이를 통해 본 논문에서 제안된 방법이 MPEG-4 ALS 인코더의 복잡도 감소에 탁월한 성능을 가짐을 보였다.

인공지능과 인간 전문가의 오디오 마스터링 비교 연구 (A Study on the Audio Mastering Results of Artificial Intelligence and Human Experts)

  • 허동혁;박재록
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권3호
    • /
    • pp.41-50
    • /
    • 2021
  • 인공지능에 의한 직업의 대체가 빠르게 진행되고 있지만, 창의성이 중요한 예술 분야에서는 예외로 여겨졌다. 예술과 기술의 경계에 있는 직업인 음악의 마스터링에서는 현재 여러 인공지능 마스터링 서비스가 운영 중이다. 일반적으로 인공지능의 마스터링은 전문 마스터링 엔지니어의 작업에 비해 품질이 낮다고 여겨진다. 본 논문에서는 인공지능 마스터링과 인간 마스터링을 음향 분석, 청취 실험, 전문가 인터뷰 과정을 통해 비교해 보았다. 음향 분석에서는 전문 마스터링 엔지니어의 결과물과 인공지능의 결과물에서 큰 차이는 관찰되지 않았다. 청취 실험의 경우 비음악인 그룹은 전문 마스터링 엔지니어의 결과물과 인공지능의 결과물의 음질 차이를 거의 구분하지 못했다. 음악인 그룹은 특정 음원에 대한 선호를 드러냈지만, 어느 특정 마스터링에 대한 일반적인 선호가 유의미하게 나타나지는 않았다. 전문가 심층인터뷰에서도 전문 마스터링 엔지니어와 인공지능 마스터링간의 음향적인 차이는 거의 없으며, 가장 큰 차이는 마스터링 서비스 제공자와 사용자 간의 소통 방식에 있다고 응답하였다. 또 향후 더 많은 데이터를 통한 훈련으로 인공지능 마스터링이 빠르게 품질 향상을 이룰 것이고 사용자와 인공지능 간의 소통 방식에서도 더 개선이 있을 것이라고 예상하였다.

내용기반 음악장르 검색에서 시계열 패턴 인덱스 화일의 성능 분석 (Performance Analysis of the Time-series Pattern Index File for Content-based Music Genre Retrieval)

  • 김영인;김선종
    • 한국산업정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.18-27
    • /
    • 2006
  • 음악 데이타의 양이 급속히 증가함에 따라 음악 데이타베이스의 오디오 특정을 이용한 내용기 반 음악 장르의 효율적인 유사도 검색 방법이 요구되고 있다. 이러한 시스템을 구현하기 위해서는 시계열 패턴인 오디오 특징을 인덱싱 할 수 있는 인덱싱 기법과 데이터마이닝 기술이 필요하다. 본 논문에서는 인덱싱 기법을 기반으로 하는 유사 장르 음악 검색 시스템의 개발에 대하여 논의한다. 먼저, 시계열 패턴 인덱싱 기법과 데이터마이닝을 이용한 내용기반 음악장르 검색 시스템의 구조를 제안한다. 또한, 오디오 특정을 이용한 유사 장르 검색의 성능을 보이기 위하여 시계열 패턴 인덱스 화일을 구축하고 성능 분석 을 제시한다. 실제 데이타의 특정값을 이용한 실험을 통하여 제안한 기법의 성능을 확인하였다.

  • PDF

유비쿼터스 센서 네트워크 환경을 위한 다중 생체인식 시스템 (Multi-Modal Biometries System for Ubiquitous Sensor Network Environment)

  • 노진수;이강현
    • 전자공학회논문지CI
    • /
    • 제44권4호통권316호
    • /
    • pp.36-44
    • /
    • 2007
  • 본 논문에서는 무선 오디오와 영상 인터페이스를 이용한 스위치 제어 및 인식 등의 다양한 유비쿼터스 센서 네트워크 응용 서비스를 지원하기 위한 음성과 얼굴인식 시스템을 구현하였다. 제안된 시스템은 하드웨어 부분으로 무선 오디오 및 이미지 센서, 심리응용모델을 이용한 음성인식과 주성분 분석법(PCA: Principal Components Analysis)을 이용한 얼굴이식 알고리즘, 그리고 LDPC(Low Density Parity Check)로 구성되어 있다. 제안된 음성과 얼굴인식 시스템은 센서의 효율적인 에너지 사용을 위하여 HOST PC에 삽입된다. 그리고 인식 시스템의 정확도를 개선하기 위하여 전방향 에러 정정 시스템을 구현하였다. 또한, 무선 채널 잡음의 효과적인 제거와 정정을 위하여 테스트환경과 시뮬레이션 계수를 최적화하였다. 결과적으로 사람 음성과 음성센서의 거리가 1.5m 이하일 경우에 FAR과 FRR을 각각 0.126%, 7.5%를 얻었고, 얼굴인식 알고리즘을 2회로 제한하였을 경우, GAR과 FAR을 각각 98.5%와 0.036%를 획득하였다.

지역주민(地域住民)의 중학교(中學校) 실(室) 이용(利用)에 관(關)한 모델 (A Model for the Use of Middle School Rooms by the Community)

  • 민창기
    • 교육시설
    • /
    • 제6권2호
    • /
    • pp.13-23
    • /
    • 1999
  • This paper seeks to find out the policies of management and layout of middle school rooms for the community people's use. This paper surveys community's needs with respect to both the use of school rooms before, during, and after classes and preferences of use of school rooms. This paper adopts two experimental case studies to find out the models. It uses t-test analysis of the statistics to find out community people's preferences for the use of school rooms between two communities in an urban area, and uses simple and multiple regression analyses to develop models concerning community people's uses of school rooms before, during, and after classes. It also uses cluster analysis to find out the cluster among community people's preference of school rooms. It found, first, that community people's use of school rooms after class can be influenced by the uses of a play ground, a music classroom, an audio visual classroom, and a gymnasium. The use during regular classes is related to the uses of the fine arts classroom, a general classroom, a home economics classroom, a gymnasium, and a playground. The use before class is affected by the uses of a fine arts classroom, a playground, and a library. It also found that, with respect to community people's preferential use of school rooms, the rooms can be clustered as a cluster of laboratories such as a general classroom, a music room, a fine arts classroom, a science classroom, a home economics classroom, and a technique classroom, a cluster of athletic areas such as a gymnasium and a playground, and a cluster of supporting facilities such as a library, an audio visual classroom, and a computer classroom. Those clusters can also be clustered in more detail, i. e., that both a general classroom and playground can be apart from a cluster of laboratories or a cluster of supporting facilities; that an audio visual classroom can be fostered into a cluster with a home economics affairs classroom and a technique classroom. Finally this paper suggests policies of management and layout of school rooms.

  • PDF