• 제목/요약/키워드: 음질 개선

검색결과 235건 처리시간 0.024초

새로운 스펙트럼 완만화에 의한 합성 음질 개선 (Improvement of Synthetic Speech Quality using a New Spectral Smoothing Technique)

  • 장효종;최형일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1037-1043
    • /
    • 2003
  • 본 논문에서는 단위음소로 다이폰을 사용하여 음성을 합성하는 방법에 관하여 기술한다. 음성 합성은 기본적으로 단위음소들의 연결을 통하여 이루어지는데, 이때 발생하는 가장 큰 문제점은 두 단위음소 사이의 연결부분에서 불연속이 발생하는 것이다. 이 문제를 해결하기 위하여 본 논문에서는 포만트 궤적뿐 아니라 스펙트럼의 분포특성과 인간의 청각적인 특성을 반영하여 스펙트럼을 완만화하는 방법을 제안한다. 즉, 제안하는 방법은 단위음소의 연결 구간에서 인간의 청각신경 특성을 고려하여 완만화의 양과 범위를 결정한 다음, 두 다이폰 경계의 스펙트럼 분포를 시간에 따라 가중치를 다르게 주어 스펙트럼 완만화를 수행한다. 이 방법은 불연속을 제거하며 완만화로 인하여 발생할 수 있는 음성의 왜곡을 최소화한다. 제안하는 방법의 성능을 평가하기 위하여 ETRI 음성 DB 샘플과 개인별로 자체 녹음한 총 20여개의 문장에서 추출한 약 500여 개의 다이폰에 대하여 실험을 수행하였다.

냉장고 동작부품의 소음특성 분석을 통한 감성품질 개선 (Evaluation of Sound Quality for Ergonomic Design of Movable Parts in a Refrigerator)

  • 강성엽;소새롬;김건우;김지훈;박상후
    • 한국기계가공학회지
    • /
    • 제17권6호
    • /
    • pp.7-15
    • /
    • 2018
  • We propose a method for evaluating sound quality quantitatively to develop high-level home appliances (HA). Generally, a refrigerator has diverse movable parts such as slider, drawer, and folding shelf. Therefore, an engineering treatment to control the noise quality is considered as one of key technologies for a higher level refrigerator. Among the movable parts, we have selected a folding shelf as an example, which is commonly setup inside of a home refrigerator for increasing space convenience, to control the noise quality. However, it is known that its noise level is very high comparing to other movable parts when folding or unfolding actions. In order to evaluate and compare the noise quality, we have tested different eighteen models, and have suggested an impact sound quality index (ISQI) based on subjective evaluation data obtained experimentally by thirty two evaluators. The ISQI was formulated using three sound quality elements (noise peak, raising time, impact duration) to determine psycho-acoustic properties. Through this work, we developed an evaluating process and ISQI that was verified the usefulness by comparing the test results of personal perceptions given by evaluators with the prediction value of ISQI. We showed a good relations between them, so we believe that the proposed method and ISQI can be utilized to control of the noise quality of HA effectively.

원단 잡음 환경에서 Soft Decision에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on Soft Decision Under Far-End Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제27권7호
    • /
    • pp.379-385
    • /
    • 2008
  • 본 논문에서는 근단 (Hear-End)및 원단 (Far-End) 잡음 환경에서 효과적인 음성 강화 기법을 제시한다. 일반적으로 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 구체적으로, 추정된 근단 화자의 배경 잡음 전력을 기반으로 원단 화자의 음성 전력을 강화시키는데, 특별히 근단 환경에서도 잡음이 존재하는 일반적인 경우를 고려하여, 잡음에 오염된 원단 음성 신호중 잡음을 제외한 실제 음성 신호만 강화하는 개선된 알고리즘을 제안한다 제안된 음성 강과 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 음성 강화기법과 비교해서 우수한 성능을 보여주었다.

고품질 스테레오 음악을 위한 오디오 워터마크 정보 삽입/추출 기술 (An Embedding /Extracting Method of Audio Watermark Information for High Quality Stereo Music)

  • 배경율
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.21-35
    • /
    • 2018
  • 본 논문에서는 스테레오 음악에 오디오 워터마크를 삽입하기 위한 알고리즘을 제안하였다. 스테레오 음악은 2개의 채널을 갖고 있기 때문에 기존 워터마킹 기술은 일반적으로 각 채널을 독립적으로 생각하고 처리하는 경우가 많다. 그러나 스테레오를 모노로 변환하는 과정에서 워터마크의 손실이 발생하는 경우가 많이 발생할 수 있다. 제안한 알고리즘은 스테레오를 모노로 변환하더라도 워터마크의 손실이 발생하지 않도록 워터마크를 삽입할 때 스테레오와 모노변환의 특성을 이용하였다. 제안된 알고리즘에 사용된 오디오 워터마크는 "Copyright"와 "Copy_free"라는 두 가지 정보를 터보코드를 이용하여 생성하였다. 두 워터마크는 9바이트(72비트)로 이루어져 있으며, 오류정정을 위하여 터보코드를 적용하면 222비트로 삽입해야 하는 정보량이 늘어난다. 222비트의 워터마크는 추가적인 오류에 강인하도록 1024비트로 확장하여 최종적으로 스테레오 음악에 삽입할 워터마크로 사용하였다. 평균적으로 SNR은 40dB를 넘어서서 전통적인 양자화 방식보다 10dB 이상의 음질 개선을 가져왔다. 이는 상대적으로 10배의 음질 개선도를 의미하는 것으로 매우 유의미한 결과이다. 또한 워터마크의 추출에 필요한 샘플길이는 1초 이내의 길이면 충분히 추출이 가능하고, 128Kbps의 비트레이트를 갖는 MP3 압축에 대해서도 모두 1초 이내 길이의 음악 샘플로부터 워터마크의 완전한 추출이 가능하였다. 전통적인 양자화 방식이 10초 길이의 샘플을 이용해도 대부분 워터마크의 추출에 실패한 것에 비하면 1/10에 불과한 길이로 워터마크의 추출이 가능하다.

서브밴드 가중치를 적용한 스펙트럼 최소값 추적을 이용하는 수정된 IMCRA 기반의 음성 향상 기법 (Speech Enhancement Based on Modified IMCRA Using Spectral Minima Tracking with Weighted Subband Selection)

  • 박윤식;박규석;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.89-97
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 음성 향상 (speech enhancement)을 위한 새로운 잡음전력 추정 방법을 제안한다. 음성 향상 알고리즘에 널리 적용되고 있는 IMCRA (improved minima controlled recursive averaging) 기법은 오염된 음성신호로부터 추정된 최소 전력 스펙트럼에 기반하여 잡음전력을 추정하는 기존의 방법을 개선하기 위해 간단한 음성 검출 알고리즘을 이용하여 대략적으로 음성 성분이 제거된 전력 스펙트럼에서 최소값을 추정함으로써 음성구간에서 발생할 수 있는 음성왜곡 문제점을 개선하였다. 하지만 비정상 잡음이나 신호 대 잡음 비 (SNR signal-to-noise ratio)가 낮은 환경에서는 음성 검출 성능이 저하되어 음성구간에서 음성왜곡이 발생되는 기존의 문제점이 여전히 발생된다. 따라서 제안된 방법에서는 향상된 잡음전력 추정을 위하여 기존의 IMCRA에서 추정된 최소 전력 스펙트럼에 대하여 스펙트럼 최소값 추적 (SMT, spectral minima tracking) 기법을 적용하고 IMCRA에 의한 최소값과 SMT에 의해 추정된 최소값을 서브밴드 (subband)에 따라 가중치를 적용하여 결합한다. 제안된 알고리즘은 기존의 방법과 주관적 및 객관적 음질평가 테스트를 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

무전기 음성통신에서 최적음성채널 선택을 위한 개선방안에 관한 연구 (Study on Improvement for selecting the optimum voice channels in the radio voice communication)

  • 류창국;이배호
    • 한국전자통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.171-178
    • /
    • 2016
  • 지상 관제소에 근무하는 항공관제사와 비행중인 항공기는 무전기를 이용하여 음성통신을 한다. 항공기에서 송신하는 음성신호는 전국에 있는 다수의 지상사이트에 동시에 수신된다. 이때 항공관제사는 항공기와의 거리, 속도, 기상상태, 안테나와 무전기 조정상태 등에 따라 다양한 품질의 음성신호를 수신하게 된다. 항공관제사는 매 순간 최적의 음성신호를 찾아 항공기와 최적의 상황에서 음성통신을 수행한다. 그러나, 현재는 입력된 음성의 음량(Gain)을 기준으로 CD(: Carrier Dectect)값이 우수하다고 판단되는 신호를 최적채널로 선택하지만, 이는 잡음이 통화품질에 미치는 영향을 고려하지 않기에 최적채널을 선택한다고 볼 수 없다. 본 논문을 통해 수신된 음성신호에서 잡음을 제거한 후 사용자가 최적채널을 선택할 수 있도록 수치화된 정보 및 개선된 음질의 음성신호를 제공할 수 있었다. 이를 이용하여 항공기 관제 또는 훈련감청시스템 운용 시 향상된 품질의 채널을 선택하여 안전사고 예방, 훈련 능력향상 등을 기대할 수 있다.

자가음성 모니터링을 응용한 가창 프로그램이 인공와우이식 아동의 억양과 음고 변화에 미치는 영향 (Effects of a singing program using self-voice monitoring on the intonation and pitch production change for children with cochlear implants)

  • 김성경;김수지
    • 말소리와 음성과학
    • /
    • 제12권1호
    • /
    • pp.75-83
    • /
    • 2020
  • 본 연구는 인공와우아동을 대상으로 자가음성 모니터링(self-voice monitoring)을 응용한 가창 프로그램을 시행하여 억양의 개선과 음고 산출의 변화에 미치는 영향을 알아보기 위함이다. 연구대상자는 모집된 19명의 아동 중 참여기준을 충족하고 본인 및 보호자가 자발적인 참여 의사를 표현한 7명이 최종으로 선정되었다. 연구자는 CI 집단과 비교하기 위하여 같은 연령의 건청 아동 6명을 모집하였다. 자가음성 모니터링을 응용한 가창은 노래를 녹음하여 들어보고(listen), 음성의 음고 진행방향과 숨쉬기 구간 및 음질을 확인한(explore) 다음, 목소리를 수정하여 의도한 대로 재산출하는(reproduce) 세 단계로 구성되어 있다. 데이터는 문장과 노래로 나누어 측정하였다. 문장은 발화시간과 억양 기울기 및 산출 음고의 주파수 변화, 노래는 프레이즈(phrase) 구간 내 평균 음고의 주파수의 데이터를 수집하여 선율윤곽과 산출 주파수 범위를 측정한 후 건청집단과 비교하였다. 연구 결과 문장 분석에서 인공와우 아동 집단의 사후검사 시 의문문의 문미 2음절의 억양 기울기 및 패턴이 건청 아동과 같이 상행하는 윤곽으로 변화되었으며, 노래 데이터에서는 음고의 도약 및 산출 음고의 주파수 범위가 증가하였다. 이러한 결과는 인공와우 아동을 대상으로 한 자가음성 모니터링을 응용한 가창 프로그램이 억양의 개선과 음고 산출 정확도의 효과적인 중재방안이 될 수 있으며 이를 위한 지속적인 연구가 필요하다는 것을 시사한다.

A Study on the Perception of Foreign Undergraduates on Online Lecture

  • Kim, Yoon-Hee;Lim, Eun-jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권9호
    • /
    • pp.203-212
    • /
    • 2020
  • 본 연구는 외국인 학습자들이 경험한 비대면 온라인 학부 강의에 대한 인식을 분석하여 온라인 강의의 문제점을 파악하고 개선안을 제안하는 데 목적이 있다. 연구를 위해 A 대학과 B 대학에서 온라인 강의를 수강한 외국인 학부생들을 대상으로 온라인 강의에 대한 인식을 조사하여 분석하였다. 이를 통해 앞으로 한국 대학에서 진행될 온라인 강의의 설계 방향과 보완책, 그리고 나아갈 방향 등을 탐색해 보았다. 본 연구의 결과, E 캠퍼스를 통한 비실시간 강의는 강의를 반복해서 학습할 수 있고 집에서 강의를 들을 수 있는 점을 장점으로 인식하고 있었다. Zoom을 활용한 실시간 강의는 교수-학습자간 소통이 가능함을 장점으로 인식하고 있었다. 두 가지 유형의 강의 모두 과제가 많고 강의가 끝날 때까지 지속적으로 집중하기 어려움을 단점으로 인식하고 있었다. 또한 앞으로의 고려할 점으로 강의 내용의 양과 과제의 양, 그리고 강의 영상의 음질과 상태임을 알수 있었다. 평가 방식으로는 오프라인 평가보다는 온라인 평가를 선호하였으며 절대 평가보다는 상대 평가를 선호하는 것으로 나타났다. 본 연구의 결과가 각 대학의 온라인 강의의 설계 방향과 온라인 콘텐츠 개발에 작은 보탬이 되기를 바란다.

LSP 파라미터의 분포특성을 이용한 EVRC의 음질개선에 관한 연구 (A Study on the Improvements of the Speech Quality by using Distribution Characteristics of LSP parameters in the EVRC(Enhanced Variable Rate Codec))

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제12권12호
    • /
    • pp.5843-5848
    • /
    • 2011
  • EVRC에서는 채널 스펙트럼의 효율을 높이고 시스템의 소비 전력을 줄이기 위하여, 통화시간 중에서 사용자가 말을 할 때만 음성신호를 압축하여 전달하고, 말을 하지 않을 때는 음성신호를 전달하지 않는다. 또한, EVRC에서는 음성 프레임을 1, 1/2, 1/8의 세 가지 전송률로 구분하여 다르게 처리 하고 있으며, 예를 들어, 1/8 전송률은 입력 신호가 묵음구간인 것을 의미한다. 본 연구에서는 LSP 파라미터의 분포특성을 이용한 유성음 구간, 무성음 구간, 묵음 구간을 구분하는 방법을 사용하여, 유성음인 경우에 대해 1 rate으로 부호화하고, 무성음 구간의 경우는 1/2 rate, 묵음의 경우에는 1/8 rate으로 전송하는 방법에 대하여 제안하였다. 즉, EVRC에서 full rate으로 보내는 부분에 대해서는 기존의 방식을 그대로 적용하며, half rate은 유성음, 무성음을 구분하여 유성음일 경우 full rate으로 바꾸어 전송하였고, 묵음에 대해서는 EVRC 기본 rate을 적용하였다. 실험과정에서는, SNR, ASDM, 전송률을 측정하였으며, 제안한 알고리즘을 사용하는 경우 EVRC에 비해 음성품질이 향상됨을 증명하였다.

일측 성대마비 환자에서 성대내전술 후 성대접촉율의 증가가 음질 개선에 미치는 영향 (The Effect of An Increase of Closed Quotient on Improvement of Voice Quality after Type I Thyroplasty in Patients with Unilateral Vocal Cord Paralysis)

  • 김한수;최성희;임재열;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제15권1호
    • /
    • pp.16-20
    • /
    • 2004
  • Purpose : To assess perceptual, acoustic and aerodynamic measure of voice quality in patients with unilateral vocal cord paralysis before and after type I thyroplasty. Methods : The clinical records of patients operated type I thyroplasty in the Departement of otorhinoalryngolgy, Yongdong Severance hospital from November 2001 to November 2003 were reviewed. All patients uderwent a vocal function evaluation including perceptual, acoustic and aerodynamic measures of voice preoperative and on $60^{th}$ postoperative day. The perceptual and acoustic measures were obtained from recording of patients' reading a 'Sanchak' passage. The perceptual evaluation was performed by 2 speech pathologist using a 4-point rating scale. Acoustic parameters(voice range profile low(RAL), voice range profile high(RAH), average fundamental frequency(AFX), closed quotient, harmonic to noise ratio, jitter and shimmer) were investigated by Lx speech studio. Mean flow rate(MFR), subglottic pressure(Psub) and intensity were measured using the Phonatory function analyzer. The maximum phonation time was also measured. The data were statistically analyzed. A paired t-test (p<0.1) was used to compare preoperative and postoperative results. And multiple regression test was used to find which parameter was most correlated to improvement of postoperative voice quality. Results : Among aerodynamic parameters, Psub $(88.11mmH_2O{\rightarrow}58.7mmH_2O)$, MPT(7.87sec${\rightarrow}$12.53sec), MFR (359.8ml/sec${\rightarrow}$161.06ml/sec) were statistically improved. AFx(205.5Hz${\rightarrow}$163.27Hz), AQx(23.9%${\rightarrow}$48.3%), RAL, RAH. Jotter and shimmer were improved. In multiple regression test, AFx and AQx was noted as the two meost correlated parameters to improvement of postoperative breathiness. But general grade of voice quality was more correlated to Psub and shimmer. Conclusion : Vocal fold medialization procedures effectively reduce glottic gap. Increasing of contact area of both vocal folds induced improvement in aerodynamic parameters and leaded stabilizing of vocal fold vibration. That effect results in improvement in acoustic parameters (shimmer, jitter, signal-to-noise ratio, voice range profile) and voice quality.

  • PDF