• Title/Summary/Keyword: 음성추출

Search Result 987, Processing Time 0.031 seconds

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

음성합성시 에너지 정규화가 음질에 미치는 영향 (Effect of Energy Normalization on the Quality of Synthetic Speech)

  • 정은석;최의선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.95-98
    • /
    • 1998
  • 본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.

  • PDF

한국어 숫자음을 이용한 화자식별 (Speaker Identification Using Korean Digits)

  • 정의붕
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권10호
    • /
    • pp.1245-1252
    • /
    • 2001
  • 본 연구에서는 한국어의 숫자음을 대상 어휘로 이용하여 화자 식별을 하였다. 화자 식별을 위해서는 음성파에 포함된 여러 가지 정보로부터 화자 개개인이 갖는 개인적 특정 정보를 추출하여 화자 식별을 위한 특징 파라메타로 이용한다. 실험에서 사용한 특징 파라메타로는 음성파의 피치주기 사이에 존재하는 멀티펄스가 화자에 의존하는 개인의 특정 정보를 포함하고 있음에 착안하여 개개인의 음성파로부터 멀티펄스를 추출하고 추출된 멀티펄스로부터 화자별 특징 파라메타를 탐색하여 화자 식별 실험을 하였다.

  • PDF

문장음성 이해를 위한 확률모델에 관한 연구 (A study on the Stochastic Model for Sentence Speech Understanding)

  • 노용완;홍광석
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.829-836
    • /
    • 2003
  • 본 논문에서는 사전과 시소러스를 이용하여 문장음성 이해를 위한 확률모델을 제안한다. 제안한 확률모델은 입력되는 음성과 텍스트 문장에서 단어를 추출한다. 컴퓨터가 선택한 카테고리의 사전 DB와 입력된 문장에서 추출된 단어와 비교하고 확률모델로부터 확률값을 얻는다. 이때 컴퓨터로부터 상위어 정보를 알아내고 상위어 사전을 검색하여 단어를 추출하고 입력된 단어와 확률 모델을 비교하여 결과값을 얻는다. 사전과 상위어 사전으로부터 얻은 두개의 확률값을 더하고 그 값을 미리 정해진 임계값과 비교하여 문장의 이해도를 측정한다. 이와 같은 이해 시스템을 스무고개 게임에 적용시켜 그 성능을 평가 하였다. 상위어 확률 값($\alpha$)이 0.9이고 임계값 ($\beta$)은 0.38일 때 문장음성 이해의 정확도는 79.8%였다.

발화 속도와 휴지 구간 길이를 사용한 방언 분류 (Dialect classification based on the speed and the pause of speech utterances)

  • 나종환;이보원
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.43-51
    • /
    • 2023
  • 본 논문에서는 음성의 발화 속도와 휴지 구간의 길이 그리고 화자의 연령과 성별에 기반한 방언 분류 접근 방법을 제안한다. 방언 분류는 음성 분석을 위한 중요한 기술 중 하나이다. 예를 들어 정확한 방언 분류 모델은 화자 인식 또는 음성 인식의 성능을 향상시킬 수 있는 잠재력을 가질 수 있다. 선행 연구에 따르면, Mel-Frequency Cepstral Coefficients(MFCC) 특징을 사용한 딥러닝 기반의 연구가 주류를 이루었다. 우리는 지역 간의 음향적 차이에 주목하여 그 차이를 바탕으로 추출한 특징을 사용하여 방언 분류를 진행하였다. 본 논문에서는 음성의 발화 속도, 휴지 구간의 길이 특성을 추출하여 사용하며 이와 함께 화자의 연령과 성별과 같은 메타데이터를 추가로 사용하는 새로운 접근 방법을 제안한다. 실험 결과 제안된 접근 방법이 더 높은 정확도를 보이는 것을 확인하였으며 특히 음성의 발화 속도 특성을 사용하는 것이 기존 MFCC만을 사용하는 방법보다 향상된 성능을 보여준다는 것을 확인할 수 있었다. MFCC 특성만을 사용한 방법과 비교했을 때 본 논문에서 제안한 특성들을 모두 사용하였을 때의 정확도는 91.02%에서 97.02%로 향상되었다.

펜 입력정보를 기반으로 한 온라인 서명의 생체정보 추출 및 ICA를 이용한 특징 추출 (Bio- Information Extraction of On-line Signature Based on Pen-Input Informations and Feature Extraction with Independent Component Analysis)

  • 성한호;윤성수;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.577-579
    • /
    • 2002
  • 향후 보안시장을 이끌어갈 생체인식 기술은 현재까지 많은 발전을 거듭하고 있다. 이미 알려진 바와 같이 생체인식은 신체의 여러 부분들과 신체적 특징, 개인의 습관들이 이용되는데 전자의 경우 지문, 얼굴, 홍채, 망막, 음성, 필체, 정맥 등의 인식이 있고 후자의 경우 타이핑 습관, 걸음걸이 습관, 필기 습관 등이 해당된다. 본 연구에서는 서명인식을 필체 자체의 특징에 관련된 정보를 추출하여 인식하는 방법과는 달리 개개인의 필기 습관에 주목하여 서명을 할 때 펜을 눌러쓴 정도, 펜을 사용하는 위치 및 펜을 얼마나 뉘어 쓰는지 세워 쓰는지, 왼손잡이인지 오른손잡이인지 등의 동적 정보에 따른 특성을 알 수 있는 펜의 방위각과 기울임 정도에 대한 생체정보를 추출하고 현재 음성인식 등 여러 분야에서 사용되는 ICA를 사용하여 추출한 서명데이터의 생체정보를 분리.추출하여 이를 개개인의 검증데이터로 활용하는 방법을 제안한다.

  • PDF

청크 기반 시계열 음성의 감정 인식 연구 (A Study on Emotion Recognition of Chunk-Based Time Series Speech)

  • 신현삼;홍준기;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.11-18
    • /
    • 2023
  • 최근 음성 감정 인식(Speech Emotion Recognition, SER)분야는 음성 특징과 모델링을 활용하여 인식률을 개선하기 위한 많은 연구가 진행되고 있다. 기존 음성 감정 인식의 정확도를 높이기 위한 모델링 연구 이외에도 음성 특징을 다양한 방법으로 활용하는 연구들이 진행되고 있다. 본 논문에서는 음성 감정이 시간 흐름과 연관이 있음을 착안하여 시계열 방식으로 음성파일을 시간 구간별로 분리한다. 파일 분리 이후, 음성 특징인 Mel, Chroma, zero-crossing rate (ZCR), root mean square (RMS), mel-frequency cepastral coefficients (MFCC)를 추출하여서 순차적 데이터 처리에 사용하는 순환형 신경망 모델에 적용하여 음성 데이터에서 감정을 분류하는 모델을 제안한다. 제안한 모델은 librosa를 사용하여 음성 특징들을 모든 파일에서 추출하여, 신경망 모델에 적용하였다. 시뮬레이션은 영어 데이터 셋인 Interactive Emotional Dyadic Motion Capture (IEMOCAP)을 이용하여 recurrent neural network (RNN), long short-term memory (LSTM) and gated recurrent unit(GRU)의 모델들의 성능을 비교 및 분석하였다.

화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system)

  • 배아라;윤기무;정재희;정보경;김우일
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.461-467
    • /
    • 2020
  • 잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 -5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

천연 생약재 열수 및 알코올 추출물의 어병 세균에 대한 항균력 (Antibacterial Activities of hot-water and ethyl alcohol Extracts of Medicinal Herbs on Fish Pathogenic Bacteria)

  • 최혜승;김이청;이주석;조미라;서창호;박수일
    • 한국어병학회지
    • /
    • 제17권1호
    • /
    • pp.39-55
    • /
    • 2004
  • 감초외 48종의 천연 생약재로 부터 열수 및 알콜 추출액을 제작하여 19 균주 어병 세균을 대상으로 항균력을 조사한 결과, 알콜 추출액은 22종, 열수 추출액은 16종이 어병 세균에 대하여 항균력을 나타내며 이 중 13종의 생약재는 알콜 및 열수 추출액 모두 8 mm이상의 저지대를 나타내어 항균력이 있는 것으로 나타났다. 열수 추출물에서 항균력을 나타내는 약재 중 그람 음성균에 감수성이 양호한 약재는 저지대 8 mm 이상을 나타내는 애엽, 개옻나무, 연교, 지유, 파엽, 대황 및 황금이었으며, 그람 양성균에 항균력이 양호한 약재는 삼지구엽초, 육계 및 보골지 등 이었다. 그리고 오매, 황련, 계혈등, 상백피, 오배자 및 오미자는 저지대가 8mm 이상으로 그람 음성, 양성균 모두에 항균력이 있었다. 알콜 추출물중에서 그람 음성균에 항균력을 나타내는 것은 백작약, 오매, 선모 및 황금 등으로 저지대가 8mm 이상으로 측정되었으며, 그람 양성균에 항균력을 나타내는 것은 감초, 계혈등, 단삼, 상백피, 육계 및 보골지 등으로 저지대가 8mm이상이었다. 또한 그람 음성, 양성균에 모두 8mm 이상의 저지대를 나타내는 것은 애엽, 개옻나무, 황련, 지유, 오배자 및 오미자 등이었다. 그러나 이 중에서 오배자 열수 추출물의 어병 세균에 대한 발육 저지대가 32 mm로 그람 음성, 양성균 모두에 가장 뛰어난 항균력을 나타내어 다른 생약재와는 다른 광범위 생약재인 것으로 나타났다. 애엽, 황금, 지유, 오매, 황련 및 오배자 열수․알콜 추출물은 tetracycline(30$\mu{g}$)에 내성을 나타내는 균주에 감수성을 나타내었다.

2형 당뇨 마우스에서 솔잎 추출용액의 경구투여가 혈당조절에 미치는 영향 (Effects of Pine Needle Extract Oil on Blood Glucose and Serum Insulin Levels in db/db Mice)

  • 김미정;안진홍;최강호;이윤학;우경진;홍은경;정영신
    • 한국식품영양과학회지
    • /
    • 제35권3호
    • /
    • pp.321-327
    • /
    • 2006
  • 본 연구는 솔잎을 수증기 증류법으로 생산한 솔잎 추출용액을 2형 당뇨 마우스인 db/db mice에게 투여하여 솔잎 추출용액의 혈당강하 효과를 조사하고자 하였다. 이를 위해서 $30{\sim}40g$정도의 6주령 수컷 C57BL/Ksj(BL/Ls) homozygous diabetic(db/db) mice(SPF)를 음성대조군(corn oil), 솔잎 추출용액 저용량군(112.5 mg/kg), 고용량군(450 mg/kg) 및 양성대조군(metformin 150 mg/kg)의 4군으로 나누어 6주간 시험물질을 경구 투여하였다. 6주 사육기간 동안 혈당의 변화를 측정하기 위해 매주 1회씩 6시간 공복 시 미정맥으로부터 혈당을 측정하였으며, 6주 실험종료 후 모든 동물은 희생시킨 후 복대정맥에서 혈액을 채취하여 당화혈색소(HbAlc), 혈청 인슐린, C-peptide 및 leptin 농도 등을 측정하였다. 그 결과 다음과 같은 결론을 얻었다. 식이섭취량은 솔잎 추출용액 투여군에서 감소하는 경향을 보였으며, 양성대조군은 섭취량의 변화가 없었고, 1일 1마리당 평균섭취량은 고용량군이 음성대조군 및 양성대조군에 비하여 유의적으로 낮은 섭취량을 보였다. 체중은 군 간의 차이가 나타나지 않았으며, 간 무게와 상대적 간 무게는 음성대조군에 비하여 솔잎 추출용액 고용량군에서 유의적으로 높게 나타났다. 혈당은 솔잎 추출용액 고용량군에서 실험개시 3주부터 음성대조군에 비하여 유의적으로 감소하였으며, 최종 혈당은 저용량과 고용량군 모두 음성 대조군에 비해 유의적으로 낮아졌고, 용량 의존적인 경향성을 나타내었다. 당화혈색소의 함량 역시 솔잎 추출용액 고용량군에서 음성대조군에 비해 유의적이지는 않지만 낮은 경향을 보였다. 혈청 인슐린과 C-peptide농도는 솔잎 추출용액의 투여에 따른 차이가 나타나지 않아 솔잎 추출용액이 인슐린의 생성에 영향을 미치지는 않는 것으로 사료된다. 혈청 leptin 농도는 유의적이지는 않지만 음성대조군에 비해 솔잎 추출용액 투여군에서 높은 경향을 나타냈으며, 혈당과 음의 상관관계를 나타내고 있어 솔잎 추출용액의 혈당강하 효과의 작용기전으로 leptin과 관련된 인슐린 감수성에 영향을 미첬을 가능성이 있는 것으로 기대된다. 그러므로 본 연구에 사용한 112.5 mg/kg 및 450 mg/kg의 솔잎 추출용액은 6주 경구투여 시 혈당강하 효과를 나타냈으며, 인슐린의 농도에는 영향을 미치지는 않았다. 이러한 결과는 솔잎 추출용액의 혈당강하 효과의 작용기전이 인슐린의 감수성이나 저항성에 영향을 미쳤을 가능성이 있는 것으로 기대되며, 본 연구가 앞으로 솔잎 추출용액에 대한 다양한 연구를 활성화하는데 기여할 것으로 사료된다.