• 제목/요약/키워드: audio data

검색결과 887건 처리시간 0.024초

음원 데이터베이스의 효율적 확장을 지원하는 내용 기반 음원 검색 시스템 (A Content-based Audio Retrieval System Supporting Efficient Expansion of Audio Database)

  • 박지훈;강현철
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권5호
    • /
    • pp.811-820
    • /
    • 2017
  • 음원 서비스의 주요 기능 중 하나인 내용 기반 검색을 위해 음원의 지문을 채취하여 데이타베이스에 저장하고 색인하여 검색에 활용하는 기법이 널리 사용되고 있다. 그런데 지속적으로 추가되는 신규 음원의 지문이 기존의 데이타베이스에 계속 삽입되면 공간 효율 및 음원 검색 성능의 저하가 점차 초래되는 문제점이 있다. 따라서 시스템 운용 비용의 증가를 가져오는 주기적인 데이터 베이스 재구성 없이 효율적인 음원 데이타베이스의 확장을 지원하는 기법이 요구된다. 본 논문에서는 샤잠의 지문 채취 알고리즘을 기반으로 클러스터 컴퓨팅 환경에서 맵리듀스 및 NoSQL 데이타베이스를 사용하여 이러한 문제를 해결하는 내용 기반 음원 검색 시스템의 설계를 제시하고 실제 음원 데이터를 이용한 다양한 실험을 통해 그 성능을 평가한다.

가우시안의 차를 이용하여 검색속도를 향상한 최소 오디오 핑거프린팅 (Search speed improved minimum audio fingerprinting using the difference of Gaussian)

  • 권진만;고일주;장대식
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권12호
    • /
    • pp.75-87
    • /
    • 2009
  • 본 논문은 오디오 핑거프린트 데이터 생성 방법과 이를 이용한 오디오 데이터 비교 방법에 관한 것으로서, 오디오 데이터의 특징을 이용하여 음악을 식별하는 방법을 제시한다. 일반적으로 영상인식을 위해 많이 사용되는 가우시안의 차(Difference of Gaussian, DoG)를 오디오 데이터에 적용하여 음악이 급진적으로 변하는 부분을 추출하고, 해당 위치를 핑거프린트로 정의하는 방식이다. 이렇게 만들어진 핑거프린트는 음질의 변화에 민감하지 않으며, 음악 데이터의 일정 부분만으로도 원본과 동일 위치의 핑거프린트 추출이 가능하다. 이 시스템은 기존의 주파수 영역을 이용한 시스템 보다 오디오 핑거프린트의 데이터량과 계산량을 줄여줌으로써 검색을 할 때 보다 효율적인 성능을 나타낸다. 이를 응용하여 인터넷에 유통되는 복사된 음악의 저작권 보호, 또는 음악의 메타정보 등을 사용자에게 나타낼 수 있다.

미디어 오디오에서의 DNN 기반 음성 검출 (DNN based Speech Detection for the Media Audio)

  • 장인선;안충현;서정일;장윤선
    • 방송공학회논문지
    • /
    • 제22권5호
    • /
    • pp.632-642
    • /
    • 2017
  • 본 논문에서는 미디어 오디오의 음향 특성 및 문맥 정보를 활용한 DNN 기반 음성 검출 시스템을 제안한다. 미디어 오디오 내에 포함되어 있는 음성과 비음성을 구분하기 위한 음성 검출 기법은 효과적인 음성 처리를 위해 필수적인 전처리 기술이지만 미디어 오디오 신호에는 다양한 형태의 음원이 복합적으로 포함되어 있으므로 기존의 신호처리 기법으로는 높은 성능을 얻기에는 어려움이 있었다. 제안하는 기술은 미디어 오디오의 고조파와 퍼커시브 성분을 분리하고, 오디오 콘텐츠에 포함된 문맥 정보를 반영하여 DNN 입력 벡터를 구성함으로써 음성 검출 성능을 개선할 수 있다. 제안하는 시스템의 성능을 검증하기 위하여 20시간 이상 분량의 드라마를 활용하여 음성 검출용 데이터 세트를 제작하였으며 범용으로 공개된 8시간 분량의 헐리우드 영화 데이터 세트를 추가로 확보하여 실험에 활용하였다. 실험에서는 두 데이터 세트에 대한 교차 검증을 통하여 제안하는 시스템이 기존 방법에 비해 우수한 성능을 보임을 확인하였다.

인터넷에서 고품질 오디오 스트리밍 서비스를 위한 복합적 QoS 보장 기법 (A Hybrid QoS Guarantee Scheme for High-Quality Audio Streaming Services on the Internet)

  • 손주영;유성일
    • 한국멀티미디어학회논문지
    • /
    • 제7권1호
    • /
    • pp.54-63
    • /
    • 2004
  • 인터넷을 기반으로 한 오디오 데이터 전송 시 발생되는 품질의 열화를 극복하여 고품질의 오디오 재생이 가능한, 고품질 오디오 스트리밍 서비스를 위한 복합적 QoS 보장 기법을 제안한다. 오디오 데이터는 연속성과 시간제약성을 가지고 있기 때문에 전송시 통신망의 상황에 따라 그 재생 품질이 결정된다. 이때 필요한 QoS 보장 기법으로, 인터넷의 상황에 따라 동적으로 전송률을 가변 시키면서 손실된 패킷의 재전송과 동적 버퍼 제어 기법을 복합적으로 적용하는 기법을 적용하였다. 클라이언트 내의 버퍼를 현재 망 상황에 따라 제어함으로써 재전송에 필요한 시간을 확보하고, 전송률도 함께 연동 조정하여 재전송에 따른 전송률 저하 현상을 방지한다. 실제 인터넷 환경에서 복합적 QoS 보장기법을 적용하여 고품질로 재생되는 오디오 스트리밍 서비스의 성능을 확인하였다.

  • PDF

시청각(사진/동영상) 기록물 관리를 위한 시스템 구축과 운영 사례 연구 (A Case Study of the Audio-Visual Archives System Development and Management)

  • 신동헌;정세영;김선현
    • 한국기록관리학회지
    • /
    • 제9권1호
    • /
    • pp.33-50
    • /
    • 2009
  • 국방과학연구소에서는 보유하고 있는 아날로그 형태 시청각 기록물을 디지털 변환을 통하여 이용자의 접근 용이성을 확보하고 시스템을 통한 보다 체계적인 관리를 위해 "영상기록관리시스템"을 구축하고 운영 중에 있다. 본 연구는 이에 대한 전체 구축 과정과 실제 운영 사항에 관한 내용을 담고 있는 것으로, 시청각 기록물의 디지털 변환을 통한 DB 구축과 이용자의 직접적인 검색 활용을 통하여 기록물에 대한 보존과 활용에 대한 실제 사례를 기술하고 있다. 구체적으로는 이미지와 동영상 데이터를 관리하고 활용하기 위한 시스템 개발요구사항 분석에서부터 아날로그형 자료의 디지털 변환을 통한 DB 구축 시 표준 업무절차 구현, 품질 기준 설정, 메타데이터 항목 설정 등에 관한 내용을 포함하고 있다. 또한, 실제로 시청각 기록물 관리를 위한 시스템을 운영함으로써 얻을 수 있는 시스템 효과 분석을 통하여 시청각 기록물 관리 시스템 구축의 필요성에 대해서도 언급하고 있다.

오디오 특징계수를 이용한 시계열 패턴 인덱스 화일의 뮤지션 검색 기법 (Musician Search in Time-Series Pattern Index Files using Features of Audio)

  • 김영인
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.69-74
    • /
    • 2006
  • 최근 멀티미디어 내용기반 검색 기술의 발달로 음악 정보 검색 기술 중 하나인 오디오 특징을 이용한 뮤지션 검색에 대한 관심이 증대되고 있다. 그러나 이와 관련한 음악 데이타베이스의 인덱싱 기법에 대한 연구는 부족한 실정이다. 본 논문에서는 시계열 패턴 인덱스 화일의 공간 분할 방법을 이용하여 오디오 특징 데이터를 사용한 뮤지션 검색 기법을 제시한다. 뮤지션 탐색을 위하여 오디오의 특징을 사용하며, 유사한 후보 뮤지션의 곡을 탐색하기 위한 인덱싱 기법으로 시계열 패턴 인덱스 화일을 사용한다. 실험 결과, 윤번 공간 분할 방법을 사용한 시계열 패턴 인덱스 화일이 뮤지션 검색에 있어서 효율적임을 보였다.

  • PDF

Audio Steganography Method Using Least Significant Bit (LSB) Encoding Technique

  • Alarood, Alaa Abdulsalm;Alghamdi, Ahmed Mohammed;Alzahrani, Ahmed Omar;Alzahrani, Abdulrahman;Alsolami, Eesa
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.427-442
    • /
    • 2022
  • MP3 is one of the most widely used file formats for encoding and representing audio data. One of the reasons for this popularity is their significant ability to reduce audio file sizes in comparison to other encoding techniques. Additionally, other reasons also include ease of implementation, its availability and good technical support. Steganography is the art of shielding the communication between two parties from the eyes of attackers. In steganography, a secret message in the form of a copyright mark, concealed communication, or serial number can be embedded in an innocuous file (e.g., computer code, video film, or audio recording), making it impossible for the wrong party to access the hidden message during the exchange of data. This paper describes a new steganography algorithm for encoding secret messages in MP3 audio files using an improved least significant bit (LSB) technique with high embedding capacity. Test results obtained shows that the efficiency of this technique is higher compared to other LSB techniques.

오디오 데이터 내 개인 신상 정보 검출과 마스킹을 위한 인공지능 API의 활용 및 음성 분할 방법의 연구 (A System of Audio Data Analysis and Masking Personal Information Using Audio Partitioning and Artificial Intelligence API)

  • 김태영;홍지원;김도희;김형종
    • 정보보호학회논문지
    • /
    • 제30권5호
    • /
    • pp.895-907
    • /
    • 2020
  • 최근 기존 텍스트 기반 콘텐츠 외 멀티미디어 콘텐츠의 영향력이 급증함에 따라 콘텐츠 내 정보들을 처리할 수 있도록 도와주는 서비스가 콘텐츠 이용에 큰 편리함을 주고 있다. 이러한 서비스의 대표적인 기능으로는 중요 정보에 대한 검색과 마스킹이 있다. 텍스트 데이터와 이미지 데이터의 검색 및 마스킹 기술을 제공해주는 솔루션들은 활발히 보급되고 있어 쉽게 접할 수 있다. 그러나 오디오 콘텐츠의 경우, 검색 및 마스킹의 필요성은 인식되지만 기술의 난이도로 인해 범용적으로 적용되는 솔루션을 찾는 것이 쉽지 않다. 본 논문은 음성 분할을 이용하여 오디오 데이터 내 정보 검색과 마스킹 기능을 제공하는 웹 애플리케이션을 제안한다. 추가적으로, 국내외 인공지능 기반 음성 인식 API에 대한 분석을 통해 적절한 API의 선택을 진행하였으며, 정규식을 이용한 개인 신상 정보의 검출 방법을 제시하였다. 마지막으로 구현결과의 정확도를 측정하여 성능을 검증하였다. 본 논문의 기여점은 오디오 데이터 내 특정 패턴의 검출 및 마스킹 기능을 설계하고 실험을 통해 검증한 것에 있다.

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

항공용 인터콤의 백업 모드 운용을 위한 디지털 방식의 이중화 설계 (The Digital Redundancy Design for Back-up Mode Operation of Aviation Intercom)

  • 정성재;조경학;김동혁;이성우
    • 한국항행학회논문지
    • /
    • 제26권5호
    • /
    • pp.358-364
    • /
    • 2022
  • 항공용 인터콤 시스템은 정/부조종사 간 내부 통화 및 조종사와 승무원 간 내부 통화, 초고주파 무전기(U/VHF)와 같은 통신 장비를 통한 외부 통화, 초단파전방향거리탐지기/계기착륙장치(VOR/ILS), 전술 항법 장치(TACAN)와 같은 항법 및 임무 장비 오디오 신호 모니터링, 비행 데이터기록장치(FDR) 및 자료전송 시스템(DTS)으로의 음성 녹음용 오디오 신호 출력, 항공기의 상태와 위협 등에 대한 오디오 경고음/경고 음성 발생 등 항공기 내의 모든 음성 신호에 대한 처리를 담당하는 장비이다. 이러한 항공용 인터콤은 아날로그 오디오 신호의 경우 노이즈에 민감하기 때문에 조종사 및 승무원의 임무 수행을 위해 항공기 내/외부의 전자파 노이즈로부터 오디오 신호를 보호할 수 있는 이중화 설계가 필요하다. 본 논문에서는 항공용 디지털 인터콤의 이중화를 위한 정상/백업 운용모드 및 디지털 방식의 이중화 설계 방안과 제작 및 검증 결과에 대하여 기술한다.