• Title/Summary/Keyword: DTW(dynamic time warping)

Search Result 135, Processing Time 0.127 seconds

A Novel Query-by-Singing/Humming Method by Estimating Matching Positions Based on Multi-layered Perceptron

  • Pham, Tuyen Danh;Nam, Gi Pyo;Shin, Kwang Yong;Park, Kang Ryoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권7호
    • /
    • pp.1657-1670
    • /
    • 2013
  • The increase in the number of music files in smart phone and MP3 player makes it difficult to find the music files which people want. So, Query-by-Singing/Humming (QbSH) systems have been developed to retrieve music from a user's humming or singing without having to know detailed information about the title or singer of song. Most previous researches on QbSH have been conducted using musical instrument digital interface (MIDI) files as reference songs. However, the production of MIDI files is a time-consuming process. In addition, more and more music files are newly published with the development of music market. Consequently, the method of using the more common MPEG-1 audio layer 3 (MP3) files for reference songs is considered as an alternative. However, there is little previous research on QbSH with MP3 files because an MP3 file has a different waveform due to background music and multiple (polyphonic) melodies compared to the humming/singing query. To overcome these problems, we propose a new QbSH method using MP3 files on mobile device. This research is novel in four ways. First, this is the first research on QbSH using MP3 files as reference songs. Second, the start and end positions on the MP3 file to be matched are estimated by using multi-layered perceptron (MLP) prior to performing the matching with humming/singing query file. Third, for more accurate results, four MLPs are used, which produce the start and end positions for dynamic time warping (DTW) matching algorithm, and those for chroma-based DTW algorithm, respectively. Fourth, two matching scores by the DTW and chroma-based DTW algorithms are combined by using PRODUCT rule, through which a higher matching accuracy is obtained. Experimental results with AFA MP3 database show that the accuracy (Top 1 accuracy of 98%, with an MRR of 0.989) of the proposed method is much higher than that of other methods. We also showed the effectiveness of the proposed system on consumer mobile device.

Development of Audio Melody Extraction and Matching Engine for MIREX 2011 tasks

  • 송재종;장달원;이석필;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.164-166
    • /
    • 2012
  • In this paper, we proposed a method for extracting predominant melody of polyphonic music based on harmonic structure. Harmonic structure is an important feature parameter of monophonic signal that has spectral peaks at the integer multiples of its fundamental frequency. We extract all fundamental frequency candidates contained in the polyphonic signal by verifying the required condition of harmonic structure. Then, we combine those harmonic peaks corresponding to each extracted fundamental frequency and assign a rank to each after calculating its harmonic average energy. We run pitch tracking based on the rank of extracted fundamental frequency and continuity of fundamental frequency, and determine the predominant melody. For the query by singing/humming (QbSH) task, we proposed Dynamic Time Warping (DTW) based matching engine. Our system reduces false alarm by combining the distances of multiple DTW processes. To improve the performance, we introduced the asymmetric sense, pitch level compensation, and distance intransitiveness to DTW algorithm.

  • PDF

Exploring Environmental Factors Affecting Strawberry Yield Using Pattern Recognition Techniques

  • 조완현;박유하;나명환;최돈우
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.39-46
    • /
    • 2019
  • This paper investigates the importance of various environmental factors that have a strong influence on strawberry yields grown in greenhouse using the pattern recognition methods. The environmental factors influencing the production of strawberries were six factors such as average inside temperature, average inside humidity, average $CO_2$ level, average soil temperature, cumulative solar radiation, and average illumination. The results of analyzing the observed data using Dynamic Time Warping (DTW) showed that the most significant factor influencing the strawberry production was average soil temperature, average inside humidity, and cumulative solar radiation. Second, the results of analyzing the observed data using Multidimensional Scaling (MDS) showed that the most influential factors on the strawberry yields, such as average $CO_2$ level, average inside humidity, and average illumination were differently given for each farms. However, these results are based on the distance in 3D space and can be deduced from the fact that there is not a large difference between these distances. Therefore, in order to increase the harvest of strawberries cultivated in the farms, it is necessary to manage the environmental factors such as thoroughly controlling the humidity and maintaining the concentration of $CO_2$ constantly by ventilation of the greenhouse.

에스 브이 엠을 이용한 화자인증 알고리즘의 하드웨어 구현 연구 (A Hardware Implementation of Support Vector Machines for Speaker Verification System)

  • 최우용;황병희;이경희;반성범;정용화;정상화
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.175-182
    • /
    • 2004
  • 화자인증이란 생체인식 방법 중의 하나로 사람의 목소리를 이용하여 사용자를 인증하는 방법이다. 현재까지 가장 많이 사용되는 화자인증 알고리즘으로는 HMM(Hidden Markov Model)과 DTW(Dynamic Time Warping)를 들 수 있는데, 이들 알고리즘은 사용자의 등록 및 인증을 위해 많은 수의 특징벡터를 필요로 하므로 스마트 카드와 같은 메모리가 제한된 시스템에는 적용하기 어려운 단점이 있다. 본 논문에서는 SVM(Support vector Machine)을 이용함으로써 적은 양의 메모리와 적은 계산량으로 화자인증을 수행할 수 있는 방법을 제안하였으며, 이의 실시간 처리를 위해 하드웨어 구조를 제시하였다. 한국어 4연숫자 데이터베이스를 이용하여 제안한 알고리즘의 성능을 평가한 결과, 기존 알고리즘에 비해 약간의 에러율 증가가 있었으나 수행시간 및 모델크기에서는 상당한 감소를 나타내었다. SVM을 이용한 화자인증 알고리즘을 하드웨어로 구현한 결과, 소프트웨어로 구현한 경우에 비해서 훈련시간은 175분의 1, 인증시간에서는 6분의 1의 감소를 나타내었다.

슬관절음의 각도별 피치 변동에 대한 분석 (The Pitch Perturbation of Knee Joint Sounds according to Angle movement)

  • 김거식;윤대영;서정환;김경섭;송철규
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.307-309
    • /
    • 2004
  • In this study, we have evaluated and classified arthritic pathology using the auscultation of knee joint sound. Six normal persons and 11 patients with knee problem were enrolled. Six patients of Group 1 needed an orthopeadic surgery because of the ruptured wounds of meniscus or ACL(Anterior Cruciate Ligament) and 5 patients of Group 2 diagnosed as osteoarthritis. Subjects were taken knee flexion and extension being seated in a chair for 20 seconds which repeated 3 times. Also subjects stood up and sit down repeatedly in the same way. After the movement of knee was divided into 18 degrees, the pitch perturbation according to partial degrees was analyzed and the DTW(Dynamic Time Warping) method was applied for normalizing a time-axis and unpaired t-test was used for statistic results among groups. As a result, the amplitude and frequency perturbations of group 2 was higher than group 1(p<0.05) and showed a characteristic 'w-shape' in angle-amplitude graph. These results suggest that the analysis of knee joint sound might assist in early diagnosis of knee joint disease.

  • PDF

TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드웨어 모듈(VR32) 구현 (Real-Time Implementation of Speaker Dependent Speech Recognition Hardware Module Using the TMS320C32 DSP : VR32)

  • 정익주;정훈
    • 한국음향학회지
    • /
    • 제17권4호
    • /
    • pp.14-22
    • /
    • 1998
  • 본 연구에서는 Texas Instruments 사의 저가형 부동소수점 디지털 신호 처리기 (Digital Singnal Processor, DSP)인 TMS320C32를 이용하여 실시간 화자종속 음성인식 하 드웨어 모듈(VR32)을 개발하였다. 하드웨어 모듈의 구성은 40MHz의 TMS320C32 DSP, 14bit 코덱인 TLC32044(또는 8bit μ-law PCM 코덱), EPROM과 SRAM 등의 메모리와 호 스트 인터페이스를 위한 로직 회로로 이루어졌다. 뿐만 아니라 이 하드웨어 모듈을 PC사에 서 평가해보기 위한 PC 인터페이스용 보드 및 소프트웨어도 개발하였다. 음성인식 알고리 즘의 구성은 에너지와 ZCR을 기반으로 한 끝점검출(Endpoint Detection) 침 10차 가중 LPC 켑스터럼(Weighted LPC Cepstrum) 분석이 실시간으로 이루어지며 이후 Dynamic Time Warping(DTW)를 통하여 최고 유사 단어를 결정하고 다시 검증과정을 거쳐 최종 인식을 수행한다. 끝점검출의 경우 적응 문턱값(Adaptive threshold)을 이용하여 잡음에 강인한 끝 점검출이 가능하며 DTW 알고리즘의 경우 C 및 어셈블리를 이용한 최적화를 통하여 계산 속도를 대폭 개선하였다. 현재 인식률은 일반 사무실 환경에서 통상 단축다이얼 용도로 사 용할 수 있는 30 단어에 대하여 95% 이상으로 매우 높은 편이며, 특히 배경음악이나 자동 차 소음과 같은 잡음환경에서도 잘 동작한다.

  • PDF

하지 보행 불균형 상태에 따른 개인별 보행 특성 분석 (Analysis of Personal Gait Characteristics According to Legs Imbalance Gait)

  • 조우형;김연욱;권장우;이상민
    • 전자공학회논문지
    • /
    • 제54권5호
    • /
    • pp.109-119
    • /
    • 2017
  • 본 논문에서는 기존의 보행 분석의 제한점을 개선한 보행분석 방법으로 보행불균형을 판단하기 위해 자체 제작한 좌 우측 고관절, 슬관절의 각도 측정 장비 및 SI 지표를 활용한 판단 시스템과 개인별 보행 상태의 양상을 분석하기 위해 DTW 유사도 분석 알고리즘을 이용한 보행 분석 방법을 제한한다. 실험은 보행 장애가 없는 총 12명의 피험자를 대상으로 정상 보행 및 불균형 보행 실험을 진행하였다. 실험결과 좌 우측 고관절과 슬관절의 각도 측정을 통한 불균형 판단 SI 지수 산출을 통해 정상 보행과 불균형 보행 모두 판단을 할 수 있었다. 개인별 보행특성 분석에서는 실험에 참여한 12명의 피험자를 대상으로 정상보행과 불균형 보행 시 허리 중앙, 좌 우측 허벅지, 발등의 측정 부위에 대한 유사도를 각각 비교하였다. 피험자별 정상 보행 및 불균형 보행 시 측정한 값에 대한 유사도 분석을 통해 보행 동작을 수행하는 동안 항시 같은 패턴의 보행 동작을 유지하는 것이 아니라는 점을 분석 결과 판단할 수 있었다.

전기장 왜란을 이용한 비접촉 스마트 TV 제스처 인식 알고리즘 (Non-Contact Gesture Recognition Algorithm for Smart TV Using Electric Field Disturbance)

  • 조정재;김영철
    • 한국멀티미디어학회논문지
    • /
    • 제17권2호
    • /
    • pp.124-131
    • /
    • 2014
  • 본 논문에서는 4-채널 전위계 센서의 배열을 이용한 비접촉 제스처 인식 알고리즘을 제안한다. 주변의 전기장 변화에 민감한 전위계 센서를 스마트기기의 제스처인식에 활용하기 위해서 실내 환경에서 극저주파 대역 EMI(Electro Magnetic Interference) 및 PLN(Power Line Noise) 영향을 최소화하였다. AC 형태의 입력 데이터 값에 10Hz LPF(Low Pass Filter) 및 H/W 샘플링 속도를 고려한 최대 버퍼 값 추출 알고리즘을 적용하여 선형적인 DC 형태의 데이터로 변형한다. 추가적으로 칼만 필터를 적용함으로써 노이즈를 최소화하며, 센서간의 배열을 고려한 데이터 차분 과정을 통해 목표물의 2차원적 움직임 정보를 추출한다. 추출된 데이터 값과 peak 값의 시차정보를 이용하여 DTW(Dynamic Time Warping) 제스처 인식 및 보정 알고리즘을 구현하였으며, 다섯가지 동작 시나리오 테스트 결과 95% 이상의 높은 인식률을 보였다.

다중 시계열 패턴인식을 이용한 반도체 생산장치의 지능형 감시시스템 (An Intelligent Monitoring System of Semiconductor Processing Equipment using Multiple Time-Series Pattern Recognition)

  • 이중재;권오범;김계영
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.709-716
    • /
    • 2004
  • 본 논문에서는 다중 시계열 패턴인식 사용하여 생산장치의 상태자료부터 공정결과를 예측하여 정상 또는 비정상을 판정하는 지능형 감시시스템에 관하여 기술한다. 제안하는 감시스템은 초기화, 학습 그리고 인식의 세 단계로 구성된다. 초기화 단계에서는 감시대상의 생산장치가 가지는 인사들 각각의 가중치와 각 인자들이 가지는 시계열 자료 중에서 학습과 인식에 유효단계를 설정한다. 학습단계에서는 LBG알고리즘을 사용하여 이 생산장치에 의하여 생성되고 수집된 패턴들을 군집화 한다. 각 패턴은 시계열 형태의 자료와 처리 완료 후 계측기에 의하여 측정된 ACI로 구성된다. 인식단계에서는 DTW를 사용하여 실시간으로 입력된 패턴과 군집화된 패턴들 사이의 대응을 수행하여 가장 잘 정합되는 패턴을 찾는다. 다음은 이 패턴이 가지는 ACI, 차 그리고 가중치들의 조합으로 예측된 ACI 값을 산출한다. 최종적으로 예측된 ACI가 정상으로 수용할 수 있는 값 범위에 없는지 여부를 결정한다. 제안하는 시스템의 성능평가를 위하여 식각장치로부터 획득된 자료를 대상으로 실험하였다. 실험결과에서는 학습횟수가 증가함에 따라 예측 ACI값과 실측ACI값 사이의 오차가 현저히 감소함을 볼 수 있다

선형다변회귀모델과 LP-PSOLA 합성방식을 이용한 음성변환 (Voice Conversion Using Linear Multivariate Regression Model and LP-PSOLA Synthesis Method)

  • 권홍석;배건성
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.15-23
    • /
    • 2001
  • 본 논문에서는 임의의 사람이 발성한 음성을 마치 다른 사람이 발성한 것처럼 들리도록 하는 음성변환 기술에 대하여 설명하고, 화자간의 성도 특성과 여기신호 특성 파라미터 변환을 독립적으로 수행하기 위한 변환방법을 실험한다. 성도 특성 파라미터 변환은 입력되는 음성신호에서 LPC (Linear Predictive Cofficient)켑스트럼을 추출하여 선형다변회귀모델에 적용하여 수행하고, 여기신호 특성 파라미터 변환은 잔차신호를 추출하여 LP-PSOLA (Linear Predictive-Pitch Synchronous Overlap and Add) 합성방식을 이용한 화자간의 평균 피치주기 변환으로 수행된다. 실험결과는 선형다변회귀모델과 LP-PSOLA 합성방식을 이용하여 변환된 음성이 대상화자의 음성에 유사함을 보여준다

  • PDF