• 제목/요약/키워드: digital sound source

검색결과 62건 처리시간 0.026초

자동차 환경에서 TDOA를 이용한 화자위치추정 방법 (On the speaker's position estimation using TDOA algorithm in vehicle environments)

  • 이상헌;최홍섭
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권2호
    • /
    • pp.71-79
    • /
    • 2016
  • 본 논문에서는 차량 내부 환경에서 음성인식 성능을 향상시켜 안정적인 차량 제어를 위한 방법으로 사용하는 음원 위치추정방법의 성능 비교와 개선 방법을 제안하였다. 일반적으로 음원 위치추정에는 TDOA알고리즘을 사용하는데 여기에는 시간영역에서 상호상관함수를 이용하는 방법과, 주파수 영역에서 계산하는 GCC-PHAT 방법이 있다. 이중 GCC-PHAT 방법은 상호상관함수보다 반향과 잡음에 강한 특성을 보인다고 알려져 있다. 본 연구에서는 반향과 잡음이 많은 차량 환경에서 위 두 방법의 성능을 비교하고 추가로 미디언 필터 사용을 제안하여 음원위치 추정 성능과 시스템의 안정성을 나타내는 지표로 사용하는 분산값이 모두 향상됨을 확인하였다. 실험결과에서 음성을 사용한 실험에서는 두 방법의 성능 차이가 거의 없지만, 노래신호를 사용한 음원위치 추정에서는 GCC-PHAT 방법이 상호상관함수에 비해 인식률이 10% 우수함을 확인하였다. 또한 미디언 필터를 추가한 경우에는 상호상관함수 방법의 인식률을 최고 11%까지 향상시킬 수 있었고 분산값에서도 두 방법 모두 안정적인 성능을 보여주었다.

영한 기계번역의 자연어 생성 연구 (A Study on the Natural Language Generation by Machine Translation)

  • 홍성룡
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권1호
    • /
    • pp.89-94
    • /
    • 2005
  • 기계번역에서 자연어 생성의 목적은 입력언어의 어구 분석을 이용하여 그 문장의 의미를 변환해주는 목적 언어를 생성하는 것이다. 그것은 언어적 구조 낱말 전사. 대화체 언어, 어휘적 정보 등을 포함해야 한다. 본 연구에서는 대화체 자동 기계번역 시스템 구현계획의 일부인 음성, 음운 분야에서 담당하게 될 음성인식과 음성합성 알고리듬을 확립하기 위한 한국어 특질에 대한 기초조사를 하고자 한다. 또한 기계번역의 단계를 분석하여 형태소 분석 단계와 구문 분석 단계, 의미 분석 단계로 구분한다. 형태소 분석은 입력 문장을 받아 분리된 형태소를 사전 내에서 검색하여·품사 정보를 얻고 이웃하는 단어와의 접속 관계가 문법적으로 올바르게 되었는지를 점검한다. 본 연구의 결과가 대화체 기계번역 시스템 구현계획의 종합적 입장에서는 단순한 기초조사일 수 있지만, 한국어의 교육 및 기계번역 이해의 측면에서는 그 자체로 가치를 지닌다고 할 수 있겠다. 따라서 교육적 측면에서의 직접적 활용을 여러 측면에서 고려할 수 있을 것이다.

  • PDF

유한 DTV 스트림의 반복 재생시 불연속 현상 제거 (Elimination of Discontinuity Phenomenon for Repeated Play of Finite DTV Stream)

  • 한찬호;송규익
    • 한국통신학회논문지
    • /
    • 제27권10A호
    • /
    • pp.951-961
    • /
    • 2002
  • 유한한 DTV 디지털 스트림(digital stream)을 반복 재생할 경우, 반복되는 시점에서 일반적으로 블랙화면이나 음의 끊어짐과 같은 불연속 현상이 발생한다. 본 논문에서는 스트림 반복 재생시의 불연속 현상의 원인을 소스(source) 및 스트림(stream)의 재생시간 분석을 통하여 규명한다. 또한 이 현상을 제거하기 위한 비디오 프레임율(frame rate)과 오디오 프레임율, 및 트랜스포트 스트림 (transport stream, TS) 전송율 사이의 관계를 구한다. 이 관계식을 이용하여 반복 재생시 불연속이 발생하지 않는 최소의 소스, 기초 스트림 (elementary stream, ES) 및 TS 제작 방법을 제안한다. 제안된 방법으로 구현된 ES와 TS를 방송시스템에 적용하여 실험한 결과 반복 재생시 불연속 현상이 발생하지 않음을 확인한다.

음향 보상 시스템에 관한 연구 (A Study on the Audio Compensation System)

  • 정병철;원충상
    • 한국음향학회지
    • /
    • 제32권6호
    • /
    • pp.509-517
    • /
    • 2013
  • 본 연구에서는 음성전기변환기로서 다이나믹 마이크로폰과 디지털 신호처리기를 사용하고 성능분석을 통해 좋은 음성신호를 출력하는 방법을 다루었다. 음성음향시스템의 성능이라 함은 음성신호를 왜곡하지 않고 얼마나 원음 특성을 충실하게 증폭하여 확성하는가를 뜻한다. 마이크로폰의 주파수 응답특성을 측정한 후, 신호처리방법으로 표준마이크로폰 주파수 응답특성과 비교하여 주파수대역 별 보정치를 구하였다. 본 논문에 사용된 마이크로폰과 스피커는 일반적으로 사용되는 제품으로, 주파수응답특성을 구하고 기준치와 비교하여 필요한 보정치를 구하였다. 이와 같이 구한 마이크로폰과 스피커의 보정치는 디지털신호처리방법으로 처리하여 원신호음에 가깝게 보상하였다. 그리고 음성음원과 수음마이크 사이의 거리변화에 의한 음향특성변화보상에 관한 측정 결과도 비교적 좋은 결과를 얻었다.

확장된 음향적 시차 모델을 이용한 음상 거리정위의 모델화 (Modeling of Distance Localization by Using an Extended Auditory Parallax Model)

  • 김해영
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.30-39
    • /
    • 2004
  • 본 연구는 3차원 공간상에 있어서의 음상정위를 제어하기 위한 디지털 신호처리 기술, 특히, 음상의 거리정위에 있어서의 머리전달함수 (HRTF)의 역할에 착안한 신호처리 기술을 확립하기 위한 것을 목적으로 한다. 이러한 목적을 달성하기 위하여 본 논문에서는 청각에 있어서의 거리 지각을 제어하기 위한 중요한 요소를 밝혀내기 위해 기존의 Hirsch-Tahara 모델과 음향적 시차 모델에 대해서 청각 실험을 행했다. 그 결과 이 두 모델에 있어서는 음상의 거리지각을 설명하기에는 한계와 전 방향에 있어서는 적용할 수 없는 문제점이 있었다. 이러한 문제점들을 고려해 본 논문에서는 음향적 시차 모델을 전 방향에 있어서 적용 가능하도록 확장된 음향적 시차 모델을 제안해 그 유효성에 대해 청취 실험을 통해 고찰했다. 그 결과, 본 논문에서 제안한 확장된 음향적 시차 모델을 이용하면 수평면 상의 전 방향에 있어서 약 2m 까지의 범위 내에서는 실제 음원에서 지각할수 있는 거리와 거의 같은 수준으로 음상의 거리를 제어함으로써 본 모델의 유효성을 인간을 대상으로한 청취실험을 통해 증명했다.

음악 표절 분석을 위한 디지털 음악 요소에 대한 연구 (A Study of Digital Music Element for Music Plagiarism Analysis)

  • 신미해;조진완;이혜승;김영철
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권8호
    • /
    • pp.43-52
    • /
    • 2013
  • 본 연구는 서로 다른 두 음원에 대한 표절 여부를 분석하기 위한 음악 요소에 대해서 연구한다. 따라서 본 연구에서는 먼저 음원 분석을 위해서 디지털 음악 요소에 대해서 알아보고, 이 음악 요소를 컴파일러 기법을 활용하여 어떻게 표절 분석에 이용할 것인지 살펴본다. 또한 복잡한 미디 음악 데이터를 간단하게 처리 할 수 있도록 지원하는 오픈소스 자바 API인 JFugue를 활용한다. 따라서 본 논문에서는 JFugue에서 지원하는 포맷인 뮤직스트링 (MusicString)을 이용하여 음악 표절 분석 시스템을 설계하고 음악 표절 분석을 효율적으로 처리하기 위하여 뮤직스트링 문법 처리 요소를 살펴보고 추상구문트리(AST)를 구축하는 하고자 한다. 따라서 본 논문은 지금까지 감성적이고 주관적으로 평가해왔던 두 음원의 표절 분석을 시스템적으로 구축하기 위한 첫걸음이 될 것이며, 이 연구가 잘 활용된다면 차후에 두 음원의 표절 여부를 시스템적으로 정형화할 수 있다는 점에 큰 의의를 둘 수 있다고 판단된다.

산업용 로봇의 기어소음 특성 고찰 (Identification of Gear Noise for Industrial Robots)

  • 김동해;이종문
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2002년도 추계학술대회논문집
    • /
    • pp.152-155
    • /
    • 2002
  • An industrial robot noise has various noise sources such as gears, motors, bearings, and controller fans. Among these, gears are the most dominant source for noise. The gear noise, caused by tooth profile, elastic deformation, machining error and wear, is directly correlated with the transmission error of mating gear. Due to the fact that has several axis and many gears, it is difficult to understand the characteristics of the vibration and noise of robots. In this study, some advanced analysis techniques based on digital signal processing such as power spectrum, time spectral map, RPM map, and etc., were applied for locating the dominant frequency components of the robot noises and identifying their sources. In addition, sound quality analysis was performed in order to evaluate the operator's annoyance. The noise and vibration measurements were carried out at several points during the operation of each axis considering the effect of load and posture of the robot. Eased on the results, proper countermeasures to reduce excessive noise level have been suggested considering the characteristics of sources.

  • PDF

Multi-band Approach to Deep Learning-Based Artificial Stereo Extension

  • Jeon, Kwang Myung;Park, Su Yeon;Chun, Chan Jun;Park, Nam In;Kim, Hong Kook
    • ETRI Journal
    • /
    • 제39권3호
    • /
    • pp.398-405
    • /
    • 2017
  • In this paper, an artificial stereo extension method that creates stereophonic sound from a mono sound source is proposed. The proposed method first trains deep neural networks (DNNs) that model the nonlinear relationship between the dominant and residual signals of the stereo channel. In the training stage, the band-wise log spectral magnitude and unwrapped phase of both the dominant and residual signals are utilized to model the nonlinearities of each sub-band through deep architecture. From that point, stereo extension is conducted by estimating the residual signal that corresponds to the input mono channel signal with the trained DNN model in a sub-band domain. The performance of the proposed method was evaluated using a log spectral distortion (LSD) measure and multiple stimuli with a hidden reference and anchor (MUSHRA) test. The results showed that the proposed method provided a lower LSD and higher MUSHRA score than conventional methods that use hidden Markov models and DNN with full-band processing.

확장폭주각 모델을 이용한 음상거리정위의 모델화 (Modeling of distance localization using by an extended auditory parallax model)

  • 김혜영;영목장일;고근소일;증근민부
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.141-146
    • /
    • 1999
  • This study aims at establishing an digital signal processing technique to control 3-D sound localization, especially focusing our eyes on the role of information provided by Head-Related Transfer Function(HRTF). In order to clarify the cues to control the auditory distance perception, two conventional models named Hirsch-Tahara model and auditory parallax model were examined. As a result, it was shown that both models have limitations to universally explain the auditory distance perception. Hence, the auditory parallax model was extended so as to apply in broader cases of auditory distance perception. The results of the experiment by simulating HRTFs based on the extented parallax model showed that the cues provided by the new model were almost sufficient to control the perception of auditory distance from an actual sound source located within about 2 m.

  • PDF

안드로이드 기반 자연과학 교육용 디지털 앱북 개발을 위한 사용자 상호작용 라이브러리 (User Interaction Library for Natural Science Education Digital App-Book on Android Platform)

  • 이강운;백아람;최해철
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.110-121
    • /
    • 2015
  • 디지털 앱북은 기존의 전자책에서 발전한 형태의 멀티미디어 콘텐츠로서 동영상, 소리뿐만 아니라 모바일 기기의 센서를 이용한 다양한 상호작용을 지원할 수 있는 장점이 있다. 모바일 기기의 발전으로 이러한 디지털 앱북의 수요는 폭발적으로 증가하고 있지만, 상호작용을 지원하기 위해서는 프로그래밍 제작 노력이 많이 필요하기 때문에 공급이 그 늘어난 수요를 따라가기 힘든 실정이다. 이러한 문제를 해결하고자, 본 논문은 자연과학 교육용 디지털 앱북의 흥미를 느끼게 해주는 핵심 요소인 사용자-기기간 상호작용 기능들을 라이브러리로 구현하고 검증하였다. 제안 라이브러리는 사용자 동작 인식부, 기기 동작부, 콘텐츠 동작부로 구성되며, 각 부의 명령을 조합하여 다양한 상호작용 함수를 제공한다. 이러한 설계는 코드의 재사용성, 개발자의 쉬운 이해와 활용성, 넓은 확장성을 지원할 수 있다. 구현된 라이브러리는 상용화를 위한 자연과학 교육용 디지털 앱북 콘텐츠 제작에 직접 이용되었으며, 그 결과 코드 사용량을 크게 줄이고 개발 시간을 단축함으로써 제작 효율을 높일 수 있었다.