• 제목/요약/키워드: hidden Markov model

검색결과 639건 처리시간 0.033초

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

MLP-VQ와 가중 DHMM을 이용한 연결 숫자음 인식에 관한 연구 (A study on the connected-digit recognition using MLP-VQ and Weighted DHMM)

  • 정광우;홍광석
    • 전자공학회논문지S
    • /
    • 제35S권8호
    • /
    • pp.96-105
    • /
    • 1998
  • 본 논문에서는 화자 독립 연속 숫자음 인식 시스템의 성능향상을 위하여 MLP-VQ (Multi-Layer Perceptron-Vector Quantizer)를 이용한 가중 DHMM(WDHMM : Weighted Discrete Hidden Markov Models)을 제안한다. MLP 신경망의 출력분포는 입력 패턴과 학습 패턴들간의 비선형 매핑을 통해 각 패턴들간의 유사도를 나타내는 확률분포를 갖는다. 본 논문에서는 MLP 신경망의 출력분포중 가장 높은 출력 값을 갖는 MLP 신경망의 출력 노드를 인덱스를 이용하여 코드워드를 생성하는 MLP-VQ를 제안하였다. 제안된 MLP-VQ는 기존의 VQ에 비해 현재 입력패턴과 학습된 각 class 패턴들간의 유사성 정도를 인식모델을 반영할 수 있는 특징을 갖는다. 또한 MLP 신경망의 출력분포를 DHMM의 심벌 발생 확률의 가중치로 이용하는 가중 DHMM보다는 음소 클래스간의 관계를 인식모델에 반영할 수 있기 때문에 적은 계산양의 증가로 인식기의 성능을 14.71%개선할 수 있었다. 실험결과에 의하면, MLP-VQ와 WDHMM에 의한 화자독립 연결 숫자음 인식율은 84.22%이다.

  • PDF

PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현 (Design and Implementation of a Real-Time Lipreading System Using PCA & HMM)

  • 이지근;이은숙;정성태;이상설
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1597-1609
    • /
    • 2004
  • 립리딩은 잡음 환경에서 저하되는 음성 인식률의 보상과 음성을 청취하기 어려운 상황에서의 음성인식보조 수단으로 많은 연구가 시도되고 있다. 기존 립리딩 시스템은 인위적인 조명 환경이나 얼굴과 입술 추출을 위하여 미리 정해진 제한된 조건에서 실험되어 왔다. 본 논문에서는 화자의 움직임이 허용되고 컬러나 조명과 같은 환경 변화에 제한조건을 완화한 영상을 이용하여 실시간 립리딩 시스템을 구현하였다. 본 논문의 시스템은 범용으로 사용되는 PC 카메라를 통해 입력받은 영상에서 얼굴과 입술 영역을 실시간으로 검출한 후, 립리딩에 필요한 영상정보를 추출하고 이 입술 영상 정보를 이용하여 실시간으로 발성 단어를 인식할 수 있다. 얼굴과 입술 영역 검출을 위하여 조명환경에 독립성을 갖는 색도 히스토그램 모델을 이용하였고 움직이는 화자의 얼굴 추적을 위하여 평균 이동 알고리즘을 이용하였다. 검출된 입술 영역에서 학습과 인식에 필요한 영상 정보를 추출하기 위하여 PCA(Principal Component Analysis)를 사용하였고, 인식 알고리즘으로는 HMM을 이용하였다. 실험 결과 화자종속일 경우 90%의 인식률을 보였으며 잡음이 있는 음성과 합병하여 인식률 실험을 해 본 결과, 음성 잡음비에 따라서 음성 인식률을 약 40~85%까지 향상시킬 수 있었다.

  • PDF

초음파 도플러를 이용한 음성 인식 (Automatic speech recognition using acoustic doppler signal)

  • 이기승
    • 한국음향학회지
    • /
    • 제35권1호
    • /
    • pp.74-82
    • /
    • 2016
  • 본 논문에서는 음성 신호 대신 초음파 도플러 신호를 이용하여 음성을 인식하는 새로운 음성 인식 방법을 제안하였다. 제안된 방법은 주변 잡음에 대한 강인성과 무 접촉식 센서 사용에 따른 사용자의 불편함 감소를 포함하는 기존의 음성/무음성 인식 방법에 비해 몇 가지 장점을 갖는다. 제안된 방법에서는 40 kHz의 주파수를 갖는 초음파 신호를 입 주변에 방사하여, 반사된 신호를 취득하고, 취득된 신호의 도플러 주파수 변화를 이용하여 음성 인식을 구현하였다. 단일 채널 초음파 신호를 사용하는 기존의 연구와 달리, 다양한 위치에서의 취득된 초음파 신호를 음성 인식에 사용하기 위해 다채널 취득 장치를 고안하였다. PCA(Principal Component Analysis)특징 변수를 사용한 음성 인식에는 좌-우 모델을 갖는 은닉 마코프 모델을 사용하였다. 제안된 방법의 검증을 위해 60개의 한국어 고립어에 대해 6명의 화자로부터 취득된 초음파 도플러 신호를 인식에 사용하였으며, 기존 음성기반 음성인식 기법과 비교할 만한 수준의 인식율을 얻을 수 있었다. 또한 실험 결과 제안된 방법은 기존의 단일 채널 음성 인식 방법과 비교하여 우수한 성능을 나타내었으며, 특히 잡음 환경에서도 90 % 이상의 인식율을 얻을 수 있었다.

자율차량 안전을 위한 긴급상황 알림 및 운전자 반응 확인 시스템 설계 (A Design of the Emergency-notification and Driver-response Confirmation System(EDCS) for an autonomous vehicle safety)

  • 손수락;정이나
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.134-139
    • /
    • 2021
  • 현재 자율주행차량 시장은 3레벨 자율주행차량을 상용화하고 있으나, 여전히 운전자의 주의를 필요로 한다. 3레벨 자율주행 이후 4레벨 자율주행차량에서 가장 주목되는 부분은 차량의 안정성이다. 3레벨과 다르게 4레벨 이후의 자율주행차량은 운전자의 부주의까지 포함하여 자율주행을 실시해야 하기 때문이다. 따라서 본 논문에서는 운전자가 부주의한 상황에서 긴급상황을 알리고 운전자의 반응을 인식하는 자율차량 안전을 위한 긴급상황 알림 및 운전자 반응 확인 시스템을 제안한다. 긴급상황 알림 및 운전자 반응 확인 시스템은 긴급상황 전달 모듈을 사용하여 긴급상황을 텍스트화하여 운전자에게 음성으로 전달하며 운전자 반응 확인 모듈을 사용하여 긴급상황에 대한 운전자의 반응을 인식하고 운전 권한을 운전자에게 넘길지 결정한다. 실험 결과, 긴급상황 전달 모듈의 HMM은 RNN보다 25%, LSTM보다 42.86% 빠른 속도로 음성을 학습했다. 운전자 반응 확인 모듈의 Tacotron2는 deep voice보다 약 20ms, deep mind 보다 약 50ms 더 빨리 텍스트를 음성으로 변환했다. 따라서 긴급상황 알림 및 운전자 반응 확인 시스템은 효율적으로 신경망 모델을 학습시키고, 실시간으로 운전자의 반응을 확인할 수 있다.

다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중 (Estimation and Weighting of Sub-band Reliability for Multi-band Speech Recognition)

  • 조훈영;지상문;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.552-558
    • /
    • 2002
  • 최근에 Fletcher의 HSR (human speech recognition) 이론을 기초로 한 다중대역 (multi-band) 음성인식이 활발히 연구되고 있다. 다중대역 음성인식은 주파수 영역을 다수의 부대역으로 나누고 별도로 인식한 뒤 부대역들의 인식결과를 부대역 신뢰도로 가중 및 통합하여 최종 판단을 내리는 새로운 음성인식 방식으로서 잡음환경에 특히 강인하다고 알려졌다. 잡음이 정상적인 경우 무음구간의 잡음정보를 이용하여 부대역 신호대 잡음비(SNR)를 추정하고 이를 가중치로 사용하기도 하였으나, 비정상잡음은 시간에 따라 특성이 변하여 부대역 신호대 잡음비를 추정하기가 쉽지 않다. 본 논문에서는 깨끗한 음성으로 학습한 은닉 마코프 모델과 잡음음성의 통계적 정합에 의해 각 부대역에서 모델과 잡음음성 사이의 거리를 추정하고, 이 거리의 역을 부대역 가중치로 사용하는 ISD (inverse sub-band distance) 가중을 제안한다. 1500∼1800㎐로 대역이 제한된 백색잡음 및 클래식 기타음에 대한 인식 실험 결과, 제안한 방법은 정상 및 비정상대역제한잡음에 대하여 부대역의 신뢰도를 효과적으로 표현하며 인식 성능을 향상시켰다.

Genome-wide survey and expression analysis of F-box genes in wheat

  • Kim, Dae Yeon;Hong, Min Jeong;Seo, Yong Weon
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2017년도 9th Asian Crop Science Association conference
    • /
    • pp.141-141
    • /
    • 2017
  • The ubiquitin-proteasome pathway is the major regulatory mechanism in a number of cellular processes for selective degradation of proteins and involves three steps: (1) ATP dependent activation of ubiquitin by E1 enzyme, (2) transfer of activated ubiquitin to E2 and (3) transfer of ubiquitin to the protein to be degraded by E3 complex. F-box proteins are subunit of SCF complex and involved in specificity for a target substrate to be degraded. F-box proteins regulate many important biological processes such as embryogenesis, floral development, plant growth and development, biotic and abiotic stress, hormonal responses and senescence. However, little is known about the F-box genes in wheat. The draft genome sequence of wheat (IWGSC Reference Sequence v1.0 assembly) used to analysis a genome-wide survey of the F-box gene family in wheat. The Hidden Markov Model (HMM) profiles of F-box (PF00646), F-box-like (PF12937), F-box-like 2 (PF13013), FBA (PF04300), FBA_1 (PF07734), FBA_2 (PF07735), FBA_3 (PF08268) and FBD (PF08387) domains were downloaded from Pfam database were searched against IWGSC Reference Sequence v1.0 assembly. RNA-seq paired-end libraries from different stages of wheat, such as stages of seedling, tillering, booting, day after flowering (DAF) 1, DAF 10, DAF 20, and DAF 30 were conducted and sequenced by Illumina HiSeq2000 for expression analysis of F-box protein genes. Basic analysis including Hisat, HTseq, DEseq, gene ontology analysis and KEGG mapping were conducted for differentially expressed gene analysis and their annotation mappings of DEGs from various stages. About 950 F-box domain proteins identified by Pfam were mapped to wheat reference genome sequence by blastX (e-value < 0.05). Among them, more than 140 putative F-box protein genes were selected by fold changes cut-offs of > 2, significance p-value < 0.01, and FDR<0.01. Expression profiling of selected F-box protein genes were shown by heatmap analysis, and average linkage and squared Euclidean distance of putative 144 F-box protein genes by expression patterns were calculated for clustering analysis. This work may provide valuable and basic information for further investigation of protein degradation mechanism by ubiquitin proteasome system using F-box proteins during wheat development stages.

  • PDF

신체 부분 포즈를 이용한 깊이 영상 포즈렛과 제스처 인식 (Depth Image Poselets via Body Part-based Pose and Gesture Recognition)

  • 박재완;이칠우
    • 스마트미디어저널
    • /
    • 제5권2호
    • /
    • pp.15-23
    • /
    • 2016
  • 본 논문에서는 신체 부분 포즈를 이용한 깊이 영상 포즈렛과 제스처를 인식하는 방법을 제안한다. 제스처는 순차적인 포즈로 구성되어 있기 때문에, 제스처를 인식하기 위해서는 시계열 포즈를 획득하는 것에 중점을 두고 있어야 한다. 하지만 인간의 포즈는 자유도가 높고 왜곡이 많기 때문에 포즈를 정확히 인식하는 것은 쉽지 않은 일이다. 그래서 본 논문에서는 신체의 전신 포즈를 사용하지 않고 포즈 특징을 정확히 얻기 위해 부분 포즈를 사용하였다. 본 논문에서는 16개의 제스처를 정의하였으며, 학습 영상으로 사용하는 깊이 영상 포즈렛은 정의된 제스처를 바탕으로 생성하였다. 본 논문에서 제안하는 깊이 영상 포즈렛은 신체 부분의 깊이 영상과 해당 깊이 영상의 주요 3차원 좌표로 구성하였다. 학습과정에서는 제스처를 학습하기 위하여 깊이 카메라를 이용하여 정의된 제스처를 입력받은 후, 3차원 관절 좌표를 획득하여 깊이 영상 포즈렛이 생성되었다. 그리고 깊이 영상 포즈렛을 이용하여 부분 제스처 HMM을 구성하였다. 실험과정에서는 실험을 위해 깊이 카메라를 이용하여 실험 영상을 입력받은 후, 전경을 추출하고 학습된 제스처에 해당하는 깊이 영상 포즈렛을 비교하여 입력 영상의 신체 부분을 추출한다. 그리고 HMM을 적용하여 얻은 결과를 이용하여 제스처 인식에 필요한 부분 제스처를 확인한다. 부분 제스처를 이용한 HMM을 이용하여 효과적으로 제스처를 인식할 수 있으며, 관절 벡터를 이용한 인식률은 약 89%를 확인할 수 있었다.

기계학습을 활용한 주식 가격의 이동 방향 예측 (Prediction of the direction of stock prices by machine learning techniques)

  • 김용환;송성주
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.745-760
    • /
    • 2021
  • 금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다. 이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.