통합 검색 | Korea Science

심리 음향 기준을 이용한 새로운 음질 개선 방법 (New Speech Enhancement Method using Psychoacoustic Criteria)

김대경;박장식;손경식
- 한국멀티미디어학회논문지
- /
- 제4권1호
- /
- pp.56-66
- /
- 2001
최근에 심리 음향 기준을 이용한 스펙트럼 차감법이 제안되었다. Virag의 알고리즘에서는 기존의 방법보다 청취자가 더 편안한 음성을 들을 수 있지만 잡음에 강인한 음성활동 검출기가 필요하다. 음성활동 검출기를 필요로 하지 않는 확장 스펙트럼 차감법에서는 신호 대 잡음비가 감소함에 따라 잔여 잡음이 더욱 잘 들리게 된다. 본 논문에서는 심리 음향 기준을 이용한 스펙트럼 차감법에 Wiener 필터를 결합한 새로운 음질 개선 방법을 제안한다. 제안한 방법에서는 Wiener 필터를 사용하여 음성 구간에 서도 잡음의 추정치가 계속 갱신되므로 음성 검출기가 필요 없고 마스킹 임계값에 따라 차감 파라미터를 조정하기 때문에 잔여 잡음이 거의 들리지 않게 된다. 제안된 방법에 대하여 시뮬레이션을 통하여 기존의 스펙트럼 차감법과 성능을 비교한 결과, 제안한 방법을 사용하여 개선된 음성이 기존의 방법에 비하여 청취하기에 더 편한 음질을 제공하였다.
PDF

Foveated Contrast Sensitivity를 이용한 인지품질 기반 비디오 코딩 (Perceptual Quality-based Video Coding with Foveated Contrast Sensitivity)

유지우;심동규
- 방송공학회논문지
- /
- 제19권4호
- /
- pp.468-477
- /
- 2014
본 논문은 FCS(foveated contrast sensitivity)를 이용한 인지품질 기반 비디오 코딩 방법을 제안한다. CS(contrast sensitivity)를 이용한 기존의 인지품질 기반 비디오 코딩 방법은 공간주파수에 따라 시각적 인지능력이 달라지는 인간시각체계(HVS, human visual system)의 특징을 이용하여 비디오 압축 시 인지품질의 손상을 최소화하며, FM(foveated masking)을 이용한 방법에서는 HVS의 중심시(central vision) 와 주변시(peripheral vision)의 차를 이용한다. 본 연구에서는, 정신물리학 실험을 통하여 기존의 DCT(discrete cosine transform)기반 JND(Just-noticeable difference) 모델과 FM이 서로 의존성을 갖고 동시에 고려된 새로운 FCS 모델을 제안하였고, 이를 HM10.0 부호화기에 적용하여 인지품질기반 부호화를 수행하였다. 제안된 방법으로 부호화된 영상은 인지품질 관점에서 동일한 화질을 유지하면서 평균 10%의 비트율 감소를 보였다.
https://doi.org/10.5909/JBE.2014.19.4.468 인용 PDF KSCI KPUBS

시간-주파수 영역에서 음성/잡음 우세 결정에 의한 새로운 잡음처리 (A Novel Speech Enhancement Based on Speech/Noise-dominant Decision in Time-frequency Domain)

윤석현;유창동
- 한국음향학회지
- /
- 제20권3호
- /
- pp.48-55
- /
- 2001
가산적이고 비정상적인 잡음을 줄이는 새로운 방법이 제안되었다. 본 방법은 잡음에 대한 정보나 묵음구간에서의 잡음추정을 필요로 하지 않는다. 잡음처리는 각 시간 프레임에서 주파수대역을 기본으로 하여 수행된다. 어떤 프레임에서 특정한 주파수대역이 음성이 우세한지 혹은 잡음이 우세한지에 대한 결정과 인간청각기의 매스킹 성질을 기반으로 하여, 적절한 양의 잡음을 주파수 차감법을 이용하여 제거한다. 제안된 방법은 다양한 환경에서 (자동차 잡음, Fl6 잡음, 백색 잡음, 핑크 잡음, 탱크 잡음, 혼선잡음) 성능평가가 이루어졌다. 그리고 일반적인 주파수차감법과 비교하여 세그멘탈 신호대 잡음비 (SNR)를 구하고, 시각적 측정 척도인 스펙트로그램과 듣기평가를 통해, 음성왜곡은 줄이면서 효과적으로 잡음을 줄일 수 있음을 알 수 있다.
PDF

블록 DCT와 영상 정규화를 이용한 회전, 크기, 이동 변환에 견디는 강인한 로고 삽입방법 (A RST Resistant Logo Embedding Technique Using Block DCT and Image Normalization)

최윤희;최태선
- 정보보호학회논문지
- /
- 제15권5호
- /
- pp.93-103
- /
- 2005
본 논문에서는 멀티미디어 저작권 보호를 위한 회전, 크기, 이동 (RST: Rotation, Scale, Translation) 변환 공격에 견디는 강인한 로고 삽입 방법을 제안한다. 기하학적인 처리는 영상의 화질을 많이 훼손하지 않으면서 워터마크의 탐지 과정을 매우 복잡하고 어렵게 한다. 정규화된 영상 (Normalized image)에 워터마크를 삽입하는 방법은 영상의 정규화 과정에서 보간에 의해 평탄화 (Smoothing effect) 현상이 발생하는 단점이 있다. 이것은 워터마크를 정규화된 영상에 직접 삽입하는 대신, 영상 정규화를 변환 파라미터를 계산하는데 사용함으로써 해결할 수 있다. RST 변환에 대응하기 위한 기존의 방법은 주로 전체 영상에 대해 DFT 변환을 수행한다. 그러나 이 방법은 전체 영상에 변환을 취함으로써 효과적인 마스킹 방법의 적용이 어려운 단점이 있다. 따라서 본 논문에서는 $8\times8$ 블록 DCT (Discrete Cosine Transform)를 채용하고 $8\times8$ 블록 DCT 계수의 공간-주파수 국부화 특성을 이용한 마스킹 방법을 사용한다. 실험결과, 제안된 방법이 영상 압축과 기하학적 처리를 포함한 다양한 공격에 강인한 특성을 보였다.
https://doi.org/10.13089/JKIISC.2005.15.5.93 인용 PDF KSCI HTML

한국 정상 성인의 저주파수 임계 주파수 대역 특성에 관한 연구 (Low frequency critical bandwidths of Korean normal hearing adults)

문지현;전경언;임덕환
- 한국음향학회지
- /
- 제41권1호
- /
- pp.70-75
- /
- 2022
임계 주파수 대역은 복합음을 구성하는 주파수가 인접한 대역과 나타내는 인지 간섭 차폐 범위를 반영하는 심리음향적 지표이다. 현재는 서구권의 자료만 일부 존재하며, 한국인을 대상으로 한 임상적으로 중요한 저주파수에 대한 임계 주파수 대역 자료는 없는 실정이다. 본 연구에서는 정상 청력을 가진 한국 성인 남녀 20명의 저주파수 순음 500 Hz에 대한 임계 인지주파수 대역 특성을 회화음 강도인 60 dB HL에서 분석하였다. 자료 수집 과정에 기본 주파수 500 Hz 신호를 중심으로한 대역소거잡음과 두 대안 강제선택 방식을 적용하였다. 분석 결과에서 임계 주파수 대역폭은 기존 영어권 자료보다 넓은 상호간섭 인지 폭을 보였고(95 Hz), 피검자 성별이나 좌우 측 간의 유의한 차이는 없음이 확인되었다(p > 0.05). 이 결과는 효과적 이명 차폐 등 관련 임상 분야에 응용될 수 있을 것으로 판단된다.
https://doi.org/10.7776/ASK.2022.41.1.070 인용 PDF KSCI

Towards Low Complexity Model for Audio Event Detection

Saleem, Muhammad;Shah, Syed Muhammad Shehram;Saba, Erum;Pirzada, Nasrullah;Ahmed, Masood
- International Journal of Computer Science & Network Security
- /
- 제22권9호
- /
- pp.175-182
- /
- 2022
In our daily life, we come across different types of information, for example in the format of multimedia and text. We all need different types of information for our common routines as watching/reading the news, listening to the radio, and watching different types of videos. However, sometimes we could run into problems when a certain type of information is required. For example, someone is listening to the radio and wants to listen to jazz, and unfortunately, all the radio channels play pop music mixed with advertisements. The listener gets stuck with pop music and gives up searching for jazz. So, the above example can be solved with an automatic audio classification system. Deep Learning (DL) models could make human life easy by using audio classifications, but it is expensive and difficult to deploy such models at edge devices like nano BLE sense raspberry pi, because these models require huge computational power like graphics processing unit (G.P.U), to solve the problem, we proposed DL model. In our proposed work, we had gone for a low complexity model for Audio Event Detection (AED), we extracted Mel-spectrograms of dimension 128×431×1 from audio signals and applied normalization. A total of 3 data augmentation methods were applied as follows: frequency masking, time masking, and mixup. In addition, we designed Convolutional Neural Network (CNN) with spatial dropout, batch normalization, and separable 2D inspired by VGGnet [1]. In addition, we reduced the model size by using model quantization of float16 to the trained model. Experiments were conducted on the updated dataset provided by the Detection and Classification of Acoustic Events and Scenes (DCASE) 2020 challenge. We confirm that our model achieved a val_loss of 0.33 and an accuracy of 90.34% within the 132.50KB model size.
https://doi.org/10.22937/IJCSNS.2022.22.9.26 인용 PDF KSCI

연안정치망 주요대상어종의 청각역치와 유집방음에 대한 행동반응(II) -방어(Seriola quinqueradiata)의 임계비 (The auditory thresholds and fish behaviors to the underwater sounds for luring of target secies at the set-net in the coast of Cheju(II) -Critical ratios of the yellow tail(Seriola quinqueradiata)-)

안장영
- 수산해양기술연구
- /
- 제35권1호
- /
- pp.19-24
- /
- 1999
This paper is second part on the auditory thresholds and fish behaviors to the underwater sounds for luring of target species at the set-net in the coast of Cheju. In order to obtain the critical ratio of yellow tails(Seriola quinqueradiata) and the emission level of underwater sound for luring of them, we make experiments to measure the auditory threshold of them using conditioning with electric shock. In state that the white noise with 10dB higher sound pressure level than ambient noise is emitted, the auditory thresholds of yellow tails are measured with 100~116.5dB and they are higher than those in state of no emission of white noise by the masking effects of it. Although sound pressure level of background noise go down, the auditory thresholds go up with frequency above than 300Hz.The critical ratio of yellow-tails in frequency of 80Hz, 100Hz, 200Hz, 500Hz, 800Hz are 46dB, 40dB, 50dB, 52dB, 60dB, 70dB respectively. The sound pressure level of which the signal sound is recognized by yellow tails under the ambient noise is above 100dB and the critical ratio of them is above 40dB.
PDF

신호 몽롱화 예측부호화의 잡음 천이 특성 (Noise Shaping effects of Signal-blurred DPCM)

황재정;이문호
- 한국통신학회논문지
- /
- 제16권10호
- /
- pp.964-971
- /
- 1991
평탄한 잡음 주파수 특성을 갖는 예측부호화에서 신호 압축을 목표로하여 적절한 잡음 감소 회로를 사용한다면 높은 주파수 성분으로 천이시킬 수 있다. 이 경우 직접 잡음을 제어하는 필터를 사용하는 방법이 있으나 본 논문에서는 신호를 몽롱화(blurring)하는 알고리즘의 특성을 정보령 압축과 잡음 처리면에서 연구하였다 전처리 필터의 몽롱화 과정에 균등 가중이 도입되었으며 이 몽롱화 후처리 필터에 의해 신호가 복원된다. 이처럼 주파수 영역에서 잡음 천이 범위는 필터 크기에 의존한다. 신호몽롱화에 의해 잡음이 증가하기는 하나 지역 통과 특성을 갖는 시각적 감도에 적합한 부호화에 효과적임을 보았다.
PDF

단일 주파수에서 선행음 및 후속음이 음원의 방향지각에 미치는 영향 (The effect of leading tone and following tone with single frequency on sound lateralization)

이채봉
- 한국전자통신학회논문지
- /
- 제5권3호
- /
- pp.251-255
- /
- 2010
본 연구에서는 단일 주파수에서의 선행음과 후속음이 음원의 방향지각에 미치는 영향을 조사하였다. 실험은 자극간격 시간과 레벨차를 가진 1kHz 순음을 사용하였으며 기준음의 제시시간은 10ms로 하였다. 좌우 귀에 도달하는 시간차는 0.5ms로 두었다. 하나의 자극간격 시간에 대하여 4종류의 레벨차를 두었으며 제시음이 제시된 후 음이 좌에서 들리는지 우에서 들리는지를 판단하도록 하였다. 그 결과 후속음보다는 선행음이 음상정위에 미치는 영향이 크다는 것을 알 수 있었다.
PDF KSCI

심리음향모델에 근거한 음성개선 (Speech Enhancement Based on Psychoacoustic Model)

이진걸
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
- /
- pp.337-338
- /
- 2000
The perceptual filter for speech enhancement was analytically derived where the frequency content of the input noisy signal was made the same as that of the estimated clean signal in auditory domain. However, the analytical derivation should rely on the deconvolution associated with the spreading function in the psychoacoustic model, which results in an ill-conditioned problem. In order to cope with the problem associated with the deconvolution, we propose a novel psychoacoustic model based speech enhancement filter whose principle is the same as the perceptual filter, however the filter is derived by a constrained optimization which provides solutions to the ill-conditioned problem.
PDF

검색결과 102건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)