• 제목/요약/키워드: 음향효율

검색결과 600건 처리시간 0.029초

Adam Optimizer를 이용한 음향매질 탄성파 완전파형역산 (Acoustic Full-waveform Inversion using Adam Optimizer)

  • 김수윤;정우근;신성렬
    • 지구물리와물리탐사
    • /
    • 제22권4호
    • /
    • pp.202-209
    • /
    • 2019
  • 본 연구에서는 Adam 최적화 기법을 이용한 음향매질에서의 탄성파 파형역산 방법을 제안하였다. 탄성파 파형역산에서 최적화에 사용되는 기본적인 최대 경사법은 계산이 빠르고 적용이 간편하다는 장점이 있다. 하지만 속도 모델의 갱신에 일정한 갱신 크기를 사용함에 따라 오차가 정확하게 수렴하지 않는다. 이에 대한 대안으로 제시된 다양한 최적화 기법들의 경우 정확성은 높지만 많은 계산 시간을 필요로 한다는 한계가 있다. Adam 최적화 기법은 최근 딥 러닝 분야에서 학습 모델의 최적화를 위해 사용되는 기법으로 다양한 형태의 모델에 대한 최적화 문제에서 가장 효율적인 성능을 보이고 있다. 따라서 Adam 최적화 기법을 이용한 파형역산 방법을 개발하여 탄성파 파형역산에서의 오차가 빠르고 정확하게 수렴하도록 하였다. 제안된 역산 기법의 성능을 검증하기 위해, 일정한 갱신 크기를 가지는 최대 경사법을 이용하여 수행된 역산 결과와 제안된 Adam 최적화 기반 파형역산을 수행하여 갱신된 P파 속도 모델을 비교하였다. 그 결과 제안된 기법을 통해 빠른 오차 수렴 속도와 높은 정확도의 결과를 확인할 수 있었다.

음절핵의 위치정보를 이용한 우리말의 음소경계 추출 (Utilization of Syllabic Nuclei Location in Korean Speech Segmentation into Phonemic Units)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.13-19
    • /
    • 2000
  • 음성신호의 음소경계 추출방법 중 음소에 대한 사전지식 없이 음성 데이타, 혹은 특징벡터의 변화를 감지하여 음소경계를 추출해 내는 맹목 세그먼테이션은 연속음형 인식시스템이나 코퍼스 제작에 중요한 역할을 하며 많은 연구가 진행되어 왔다. 이러한 맹목 세그먼테이션 방법은 사전지식을 필요로 하지 않아 비교적 쉽게 접근할 수 있으나 음운학적인 지식, 또는 음소나 음소경계에 대한 지식과 경험 데이타 등을 이용하는 지식 기반 세그먼테이션 방법에 비해 성능이 좋지 못한 단점이 있다. 본고에서는 우리말의 연속 음성을 맹목 세그먼테이션해서 후보 경계를 추출한 다음, 음절핵의 위치정보를 이용하여 후보 경계를 후처리함으로써 세그먼테이션 효율을 높이는 방법을 제안한다. 제안하는 방법의 전처리과정에서는 확률적인 거리 모델을 이용한 클러스터링 방법을 이용하였으며, 후처리과정에서는 음절의 핵 사이에 위치할 수 있는 음소의 수는 제한된다는 선험적인 지식을 이용하였다. 실험결과, 제안하는 방법을 이용했을 때의 삽입오류는 맹목 세그먼테이션에 비해 약 25% 감소하였다.

  • PDF

음성 인식을 위한 sequence-to-sequence 심층 신경망의 이중 attention 기법 (Double-attention mechanism of sequence-to-sequence deep neural networks for automatic speech recognition)

  • 육동석;임단;유인철
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.476-482
    • /
    • 2020
  • 입력열과 출력열의 길이가 다른 경우 attention 기법을 이용한 sequence-to-sequence 심층 신경망이 우수한 성능을 보인다. 그러나, 출력열의 길이에 비해서 입력열의 길이가 너무 긴 경우, 그리고 하나의 출력값에 해당하는 입력열의 특성이 변화하는 경우, 하나의 문맥 벡터(context vector)를 사용하는 기존의 attention 방법은 적당하지 않을 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해서 입력열의 왼쪽 부분과 오른쪽 부분을 각각 개별적으로 처리할 수 있는 두 개의 문맥 벡터를 사용하는 이중 attention 기법을 제안한다. 제안한 방법의 효율성은 TIMIT 데이터를 사용한 음성 인식 실험을 통하여 검증하였다.

DSP 기반 초소형 수중 음향통신 모뎀 (DSP-Based Micro-Modem for Underwater Acoustic Communications)

  • 이동수;이상민;박성준
    • 한국통신학회논문지
    • /
    • 제39C권3호
    • /
    • pp.275-281
    • /
    • 2014
  • 최근 들어 연근해와 내수면에서 수중 자원의 효과적 개발과 보존을 위해 다양한 수중 응용 시스템 발굴 및 활용의 필요성이 증대되고 있다. 이에 본 논문에서는 근거리 수중 이동통신 시스템, 수중 센서네트워크 시스템 등의 핵심 기술 중의 하나인 초소형 수중 음향통신 모뎀의 디지털 모듈을 연구한다. 고속 연산처리가 가능한 디지털 신호처리 프로세서를 탑재한 수중 모뎀의 디지털 모듈을 설계하고 제작하며, 개발된 하드웨어에 프레임 형성 기능과 채널부호 알고리듬들을 구현하고 실험함으로써 회로의 기능과 성능을 검증한다. 실험 결과에 따르면, 개발된 DSP 기반 디지털 모듈에서 전송속도 1 kbps의 길쌈부호 처리를 위해 필요로 하는 연산량이 DSP의 가용 연산 능력의 1% 이내에 불과하므로 개발된 하드웨어 플랫폼에 다양한 고효율 기저대역 알고리듬을 탑재함으로써 수중 모뎀의 성능 개선을 모색할 수 있다.

MLT 여기신호를 이용한 광대역 음성 부호화기 설계 (Design of Wideband Speech Coder Using the MLT Residual Signal)

  • 오연선;신재현;이인성
    • 한국음향학회지
    • /
    • 제24권5호
    • /
    • pp.248-254
    • /
    • 2005
  • 본 논문에서는 대역분할 광대역 음성 부호화기의 구조와 음질 향상을 위한 새로운 고대역 구조를 제안한다. 대역분할 방식에 의해 광대역 음성은 저대역 ($O\~4kHz$) 음성과 고대역 ($4\~8kHz$) 음성으로 나뉘어 지고 각각 G.729E와 MLT(Modulated Lapped Transform) 여기모델을 적용하여 서로 독립된 방식으로 부호화한다. 4kbps의 낮은 전송률로 부호화되는 고대역에서는 MLT 여기모델을 효율적으로 이용하기 위하여 유 무성음을 구별하였고 유성음에 대해서는 저대역 피치주기를 이용한 MLT peak picking 방법을 적용하였다. 즉, MLT 변환된 여기신호는 주기적인 피크를 갖는 주기신호로 나타나며 이때의 피크값을 추출하여 양자화하여 전송한다. 무성음에 대해서는 에너지 값에 따라 비트를 달리 적용하고, 선형예측 스펙트럴 응답이 가중된 MLT 벡터 양자화 방법을 적용하였다. 제안된 15.8kbps 광대역 음성 부호화기의 성능평가는 주관적인 음질평가로 선호도 테스트를 수행하였다.

IMT-2000 비동기식 단말기용 ASIC을 위한 적응형 다중 비트율 (AMR) 보코더의 구현 (Implementation of Adaptive Multi Rate (AMR) Vocoder for the Asynchronous IMT-2000 Mobile ASIC)

  • 변경진;최민석;한민수;김경수
    • 한국음향학회지
    • /
    • 제20권1호
    • /
    • pp.56-61
    • /
    • 2001
  • 본 논문은 비동기 방식의 IMT-2000 단말기용 ASIC (주문형 집적회로)에 포함되는 음성부호화기 알고리즘인 AMR(Adaptive Multi Rate) 보코더의 실시간 구현에 관한 것이다. 구현된 AMR 보코더는 12.2kbps에서 4.75kbps까지 8가지의 다중 비트율을 가지고 있으며, 인코더와 디코더 기능 외에 VAD (Voice Activity Detection) 블록과 SCR (Source Controlled Rate operation) 블록 등의 부가기능 및 시스템과의 접속 처리를 위한 프레임 구성 기능도 구현되어 있다. AMR 보코더를 구현하기 위하여 설계된 DSP (디지털 신호처리기)는 TeakLite 코어를 기반으로 하여 메모리 블록, 직렬접속 블록, CPU와의 접속을 위한 레지스터 파일 블록, 인터럽트 제어회로 등으로 구성된 16비트 고정 소수점형 DSP이다. 실시간 구현 방법에서는 메모리의 효율적인 관리를 통하여 계산량을 최적화하여 최대 동작 계산량을 약 24MIPS로 줄였으며, 구현된 AMR 보코더는 3GPP의 표준 시험 벡터를 모두 통과하여 검증을 완료하고, 실시간 보드 시험에서도 안정적으로 동작하는 것이 확인되었다.

  • PDF

정질적 기준을 이용한 다층신경망 기반 화자증명 시스템의 등록속도 단축방법 (Improving Speaker Enrolling Speed for Speaker Verification Systems Based on Multilayer Perceptrons by Using a Qualitative Background Speaker Selection)

  • 이태승;황병원
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.360-366
    • /
    • 2003
  • 다층신경망 (multilayer perceptron)이 다른 패턴인식 방법에 비해 여러 가지 이점을 제공하지만 다층신경망에 기반한 화자증명 시스템은 낮은 증명오류를 달성하기 위한 대규모 배경화자로 인한 느린 등록속도의 문제를 안는다. 이 문제를 해결하기 위해 QnDCS(quantitative discriminative cohort speakers) 방법에서 화자군집 방법을 다층신경망 기반화자증명 시스템에 도입하여 화자등록에 필요한 배경화자의 수를 줄이려는 시도가 있었다. QnDCS 방법이 목적을 어느 정도 달성하긴 했지만 등록속도의 향상률이 만족할만한 수준이지 못했다. 본 논문에서는 보다 높은 등록속도 향상률을 달성하기 위한 방법으로서, 선택되는 배경화자의 수를 더욱 낮추는 정질에 기반한 기준을 도입한 QlDCS (qualitative discriminative cohort speakers) 방법을 제안한다. 두 방법에 대한 성능평가를 위해 다층신경망과 지속음에 기반한 화자증명 시스템과 음성 데이터베이스를 사용한 실험을 실시한다 그 결과 제안한 방법이 QlDCS에 비해 온라인 방식의 EBP (error backpropagation)에 대한 학습속도 향상률 면에서 2배 이상 더 짧은 시간 내에 화자를 등록하는 것으로 나타나 보다 높은 효율을 지녔음을 증명한다.

음악 정보검색 시스템을 위한 효율적인 특징 벡터 추출에 관한 연구 (A Study on the Efficient Feature Vector Extraction for Music Information Retrieval System)

  • 윤원중;이강규;박규식
    • 한국음향학회지
    • /
    • 제23권7호
    • /
    • pp.532-539
    • /
    • 2004
  • 본 논문에서는 Classic, Hiphop, Jazz, Rock 4개의 장르로 곡을 구분하여 각 장르별 60곡씩 총 240곡의 음악 DB를 대상으로 예제 질의 (QBE) 방식의 음악 정보 검색 시스템을 제안하였다. 제안된 시스템은 입력 질의로부터 spectral centroid, rolloff, flux등 STFT기반의 특징들과 MFCC, LPC, Beat 정보 등의 총 60차의 특징 벡터들을 추출한후 Euclidean 유사도를 측정해서 DB내의 해당 음악을 검색한다. 실제 검색에 사용되는 특징 벡터는 SFS (Sequential Forward Selection) 기법을 사용하여 10차 특징 벡터로 최적화 되며 검색 실험결과 평균 84% Hit Rate 와 0.63 MRR의 성공률을 보이고 있어 기존의 연구 결과보다 약 10%이상의 성능 향상을 보였다. 한편 본 논문에서는 실제 시스템 사용 환경을 고려하여 임의 질의 구간과 임의 질의 길이에 대한 시스템 성능 평가를 수행하였으며 실험 결과 이러한 임의성에 기인한 검색 성능의 불안정성을 지적하였다.

화자분할을 위한 지역적 특성 기반 밀도 클러스터링 (Local Distribution Based Density Clustering for Speaker Diarization)

  • 노진상;손수원;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.303-309
    • /
    • 2015
  • 화자 분할은 사전에 분류되지 않은 데이터를 각각의 화자로 분류하는 연구이며 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 간결함과 계산의 효율성으로 인해 화자분할 분야에 널리 사용되어 왔다. 그러나 클러스터의 데이터들이 공간적이지 않으며 서로 다른 클러스터가 근접하여 경계를 공유할 때 오버클러스터링 문제가 발생하여 DBSCAN의 성능이 하락한다. 본 논문에서는 DBSCAN과 문제점을 설명하고, 개체의 지역적 특성에 기반한 밀도 기반 클러스터링 알고리즘을 제안한다. 제안하는 알고리즘은 개체의 지역적 밀도와 분산의 정도에 따라 가변적인 판단 기준을 탐색에 이용한다. DBSCAN과 제안 기법의 실험을 통해 성능을 비교하고 제안 기법의 효용을 보인다. 실험 결과 제안한 방법은 오버클러스터링이 발생하지 않으며 DBSCAN에 비해 보다 높은 정확도를 보여 지역적 특성을 이용한 접근 방법이 효과적임을 증명한다.

국가기록원 음성 기록물의 복원과 분석 (Restoration for Speech Records Managed by the National Archives of Korea)

  • 오세진;강홍구
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.269-278
    • /
    • 2013
  • 국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라 손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 4가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에 맞는 복원 알고리즘을 적용하였다. 그 결과 음량은 음성 존재구간에 대해서 -26 dBov로 조정했고 SNR은 10 dB이상 상승하였다. 특히 기존에는 음성이 훼손된 부분을 순차적으로 청취하여 개별적으로 문제를 해결해야 했기 때문에 방대한 자료를 복원하기는 불가능 했지만 자동 복원 알고리즘을 도입하여 보다 효율적인 방식으로 복원할 수 있게 되었다.