• 제목/요약/키워드: Speech signal processing

검색결과 331건 처리시간 0.023초

모호성을 포함하고 있는 시계열 패턴인식을 위한 새로운 모델 RFAM과 그 응용 (A Novel Model, Recurrent Fuzzy Associative Memory, for Recognizing Time-Series Patterns Contained Ambiguity and Its Application)

  • 김원;이중재;김계영;최형일
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.449-456
    • /
    • 2004
  • 본 논문에서는 모호성을 포함하고 있는 시계열 패턴인식을 위한 새로운 인식모델인 순환퍼지기억장치를 제안한다. 순환퍼지기억장치는 기존의 퍼지기억장치에 순차적인 입력패턴를 처리하고 시간적 관련성을 표현할 수 있는 순환층을 추가함으로써 확장된 모델이다. 본 논문에서 제안하는 순환퍼지기억장치는 입력과 출력사이의 관련정도를 설정하기 위해 헤비안 방식의 학습알고리즘을 사용한다. 그리고 순환퍼지기억장치의 순환층에 필요한 가중치를 학습하기 위해서 오류역전파 알고리즘을 이용한다. 본 논문에서는 제안하는 모델을 음성신호의 경계를 추출하는 문제에 적용하여 성능을 평가한다.

임펄스응답을 이용한 실내음향 측정 시스템 (Room Acoustic Measurement System Using Impulse Response)

    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.63-67
    • /
    • 1999
  • 최근 들어 실내음향 특성의 측정과 평가를 위해 백색잡음을 이용한 잔향시간 측정법 대신에 임펄스응답을 이용한 측정법이 널리 이용되고 있다. 이 방법은 재현성이 우수하고 다양한 실내음향 특성치들을 한꺼번에 산출할 수 있어 전통적인 잔향시간 측정법에 비해 여러 가지 장점을 가지고 있다. 본 연구에서는 MLS(Maximum Length Sequence) 신호를 이용하여 실내에서의 임펄스 응답을 측정하고 이를 후처리(post-processing) 하여 잔향시간(EDT, RT), 명료도 지수(C50, C80, D, U50, U80, AI), 음의 크기 지수(G) 등, 주로 실의 음성음향 성능을 측정하는 시스템을 구축하였다. 본 연구에서는 측정시스템과 후처리 프로그램의 구성, 몇몇 실내공간에 대한 시험 측정의 결과 및 고찰 등에 대해 소개하고자 한다.

  • PDF

HEEAS: 감정표현 애니메이션 알고리즘과 구현에 관한 연구 (HEEAS: On the Implementation and an Animation Algorithm of an Emotional Expression)

  • 김상길;민용식
    • 한국콘텐츠학회논문지
    • /
    • 제6권3호
    • /
    • pp.125-134
    • /
    • 2006
  • 본 논문은 음성이 인간에게 전달되어 나타나는 여러 가지 감정 표현 중에서 단지 4가지 감정 즉 두려움, 싫증, 놀람 그리고 중성에 대한 감정 표현이 얼굴과 몸동작에 동시에 나타내는 애니메이션 시스템인 HEEAS(Human Emotional Expression Animation System)를 구현하는데 그 주된 목적이 있다. 이를 위해서 본 논문에서는 감정 표현이 풍부한 한국인 20대 청년을 모델로 설정하였다. 또한 입력되어진 음성 신호를 통해서 추출된 감정표현에 대한 데이터를 얼굴코드와 몸동작코드를 부여하고 이를 데이터 베이스화 하여 실제 애니메이션 구현을 하기 위한 처리의 시간을 최소화하였다. 즉, 입력되어진 음성 신호를 이용해서 원하는 결과인 얼굴, 몸동작에 대한 자료를 이진 검색을 이용해서 데이터베이스에서 찾으므로 검색 시간을 최소화하였다. 실제 감정 표현에 대한문제들을 실험을 통해서 얻은 결과가 99.9%의 정확도임을 알 수가 있었다.

  • PDF

가우시안 입력신호에 대한 Signed Regressor 최소 평균자승 적응 방식의 동작 특성 (On the Behavior of the Signed Regressor Least Mean Squares Adaptation with Gaussian Inputs)

  • 조성호
    • 한국통신학회논문지
    • /
    • 제18권7호
    • /
    • pp.1028-1035
    • /
    • 1993
  • Signed Regressor 적응 알고리즘은 한 비트 양자화를 이용하여 탭 입력이 +1또는 -1이 되도록 양자화한다. 따라서 이미 널리 사용되고 있는 Least Mean Square (LMS) 알고리즘에 비하여 계산량 측면에서 효율적이다. 그러나 SR 알고리즘의 동작특성은 입력신호의 특성에 매우 종속적이며, 효율성을 위하여 성능을 약간 희생한다. 본 논문에서는 이 SR 알고리즘의 동작특성에 대하여 통계적 분석을 하였다. 이를 위해, 사용되는 신호가 평균이 제로인 가우시안 신호라는 가정과 이러한 분석에 이미 널리 통용되어 사용되는 독립가정을 이용하여, SR 알고리즘의 평균 및 평균자승 특성을 나타내는 일련의 비선형 관계식을 유도하였다. 그리고 유도된 이론적 결과가 실험적 결과와 매우 일치함을 보였다.

  • PDF

고성능 DSP를 이용한 G.723.1 Annex A 구현 (Implementation of a G,723.1 Annex A Using a High Performance DSP)

  • 최용수;강태익
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.648-655
    • /
    • 2002
  • 본 논문에서는 고성능 범용 DSP (Digital Signal Processor)를 이용하여 멀티미디어 통신 등에 널리 사용되고 있는 G.723.1 Annex A (G.723.1A)의 다채널 구현에 관해 기술한다. 다채널 구현을 위해서 G.723.1의 알고리듬과 ITU-T(International Telecommunication Union-Telecommunication)에서 제공된 정수 연산 C 코드의 모듈별 계산량을 분석한 후, 이를 기준으로 C코드를 최적화한다. 각 모듈의 최적화 과정은 ITU-T에서 제공되는 시험벡터를 이용한 검증과 병행한다. 최적화 된 코드의 성능을 측정한 결과, 200㎒ TMS320C62x에서 내부 메모리만을 사용하여 5.3/6.3 kbps 두 가지 전송률에 대해서 부호화기와 복화화기를 동시에 17 채널을 수용하였다. 또한 비트-호환 버전의 경우에는 고속 코드북 검색 알고리듬을 도입하여 음질을 유지하면서 22 채널을 수용하였다.

GAN으로 합성한 음성의 충실도 향상 (Improving Fidelity of Synthesized Voices Generated by Using GANs)

  • 백문기;윤승원;이상백;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.9-18
    • /
    • 2021
  • 생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Fréchet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).

MAV 환경에서의 CNN 기반 듀얼 채널 음향 향상 기법 (CNN based dual-channel sound enhancement in the MAV environment)

  • 김영진;김은경
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1506-1513
    • /
    • 2019
  • 최근 드론과 같은 멀티로터 UAV(Unmanned Aerial Vehicle, 무인항공기)의 산업 범위가 크게 확대됨에 따라, UAV를 활용한 데이터의 수집 및 처리, 분석에 대한 요구도 함께 증가하고 있다. 그러나 UAV를 이용해서 수집된 음향 데이터는 UAV의 모터 소음과 바람 소리 등으로 크게 손상되어, 음향 데이터의 처리 및 분석이 어렵다는 단점이 있다. 따라서 본 논문에서는 UAV에 연결된 마이크를 통해 수신된 음향 신호로부터 목표 음향 신호의 품질을 향상시킬 수 있는 방법에 대해 연구하였다. 본 논문에서는 기존의 단일 채널 음향 향상 기술 중 하나인 densely connected dilated convolutional network를 음향 신호의 채널 간 특성을 반영할 수 있도록 확장하였으며, 그 결과 SDR, PESQ, STOI과 같은 평가 지표에서 기존 연구 대비 좋은 성능을 보였다.

Masking Level Difference: Performance of School Children Aged 7-12 Years

  • de Carvalho, Nadia Giulian;do Amaral, Maria Isabel Ramos;de Barros, Vinicius Zuffo;dos Santos, Maria Francisca Colella
    • Journal of Audiology & Otology
    • /
    • 제25권2호
    • /
    • pp.65-71
    • /
    • 2021
  • Background and Objectives: In masking level difference (MLD), the masked detection threshold for a signal is determined as a function of the relative interaural differences between the signal and the masker. Study 1 analyzed the results of school-aged children with good school performance in the MLD test, and study 2 compared their results with those of a group of children with poor academic performance. Subjects and Methods: Study 1 was conducted with 47 school-aged children with good academic performance (GI) and study 2 was carried out with 32 school-aged children with poor academic performance (GII). The inclusion criteria adopted for both studies were hearing thresholds within normal limits in basic audiological evaluation. Study 1 also considered normal performance in the central auditory processing test battery and absence of auditory complaints and/or of attention, language or speech issues. The MLD test was administered with a pure pulsatile tone of 500 Hz, in a binaural mode and intensity of 50 dBSL, using a CD player and audiometer. Results: In study 1, no significant correlation was observed, considering the influence of the variables age and sex in relation to the results obtained in homophase (SoNo), antiphase (SπNo) and MLD threshold conditions. The final mean MLD threshold was 13.66 dB. In study 2, the variables did not influence the test performance either. There was a significant difference between test results in SπNo conditions of the two groups, while no differences were found both in SoNo conditions and the final result of MLD. Conclusions: In study 1, the cut-off criterion of school-aged children in the MLD test was 9.3 dB. The variables (sex and age) did not interfere with the MLD results. In study 2, school performance did not differ in the MLD results. GII group showed inferior results than GI group, only in SπNo condition.

Masking Level Difference: Performance of School Children Aged 7-12 Years

  • de Carvalho, Nadia Giulian;do Amaral, Maria Isabel Ramos;de Barros, Vinicius Zuffo;dos Santos, Maria Francisca Colella
    • 대한청각학회지
    • /
    • 제25권2호
    • /
    • pp.65-71
    • /
    • 2021
  • Background and Objectives: In masking level difference (MLD), the masked detection threshold for a signal is determined as a function of the relative interaural differences between the signal and the masker. Study 1 analyzed the results of school-aged children with good school performance in the MLD test, and study 2 compared their results with those of a group of children with poor academic performance. Subjects and Methods: Study 1 was conducted with 47 school-aged children with good academic performance (GI) and study 2 was carried out with 32 school-aged children with poor academic performance (GII). The inclusion criteria adopted for both studies were hearing thresholds within normal limits in basic audiological evaluation. Study 1 also considered normal performance in the central auditory processing test battery and absence of auditory complaints and/or of attention, language or speech issues. The MLD test was administered with a pure pulsatile tone of 500 Hz, in a binaural mode and intensity of 50 dBSL, using a CD player and audiometer. Results: In study 1, no significant correlation was observed, considering the influence of the variables age and sex in relation to the results obtained in homophase (SoNo), antiphase (SπNo) and MLD threshold conditions. The final mean MLD threshold was 13.66 dB. In study 2, the variables did not influence the test performance either. There was a significant difference between test results in SπNo conditions of the two groups, while no differences were found both in SoNo conditions and the final result of MLD. Conclusions: In study 1, the cut-off criterion of school-aged children in the MLD test was 9.3 dB. The variables (sex and age) did not interfere with the MLD results. In study 2, school performance did not differ in the MLD results. GII group showed inferior results than GI group, only in SπNo condition.

중추 청각 처리 기능 평가에서 hearing in noise test의 임상적 유용성과 개선점 고찰 (A study on the clinical usefulness and improvement of hearing in noise test in evaluating central auditory processing)

  • 한수희
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.108-113
    • /
    • 2022
  • 소음상황에서의 어음 이해 능력은 효과적인 의사소통을 위한 중요한 기술이다. 이러한 능력을 평가하는 방법으로 Hearing In Noise Test(HINT) 도구가 제안되어 사용되고 있다. 하지만 국내에서 이 유용한 도구가 초기의 기대와 달리 임상에서 적극적으로 활용되지 못하고 있다. 연령이 높아질수록 정상 청력을 가지고 있을지라도 양이에서 들어오는 신호들을 처리하는데 어려움을 겪게 되고, 특히 배경 소음이 있는 상황에서 듣기는 더욱 어려워진다. 하지만, 어음이해에 상당한 문제점을 갖고 있는 노인 인구들을 임상적으로 평가하는 도구들이 많지 않다. 본 연구에서는 이러한 검사법이 근거하고 있는 기전에 있는 인지적 특성과 임상에서의 문제점을 분 석하여 개선점을 제안하고자 한다. 기본 임상 사례로 정상 청력을 가진 20대와 70대의 대표적 HINT점수를 비교하고, 소음이 어떤 조건에서 제시되는가에 따른 문장 인지 특징을 조명하였다. 대상자의 HINT score는 Quiet(Q), Noise Front(NF), Noise Right(NR), Noise Left(NF)조건에서 분석되었다. 여러 임상적 관점에서 유용한 점은 배경 소음이 있을 때 노인의 경우 청년보다 더 많은 신호대잡음비를 필요함을 나타내는 정량적 변수를 보여주고, 양이차폐감소차이(Binaural Masking Level Difference, BMLD)효과도 보여주고 있다는 점이다. 효과적 임상적 적용에는 세부 연령대별 비교 가능한 표준 자료가 극히 부족한 실정이다. 이러한 유용성 확인과 함께 임상 관련 개선점을 제시하였다.