• 제목/요약/키워드: Speech recognition model

검색결과 618건 처리시간 0.025초

차원별 Eigenvoice와 화자적응 모드 선택에 기반한 고속화자적응 성능 향상 (Performance Improvement of Fast Speaker Adaptation Based on Dimensional Eigenvoice and Adaptation Mode Selection)

  • 송화전;이윤근;김형순
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.48-53
    • /
    • 2003
  • Eigenvoice 방법은 고속화자적응에 적합하다고 알려져 있지만, 이 방법은 발화수가 증가하더라도 추가적인 인식성능향상이 이루어지지 않는 단점이 있다. 본 논문에서는 이 문제를 해결하기 위해 음성 특징벡터의 차원별로 eigenvoice의 가중치를 구하여 적응시키는 방법과 또한 적응 데이터 수에 따라 높은 인식률을 얻는 적응 방식을 선택하는 방식을 제안한다. 화자독립모델 및 eigenvoice들을 구성하기 위해 POW (Phonetically Optimized Words)데이터베이스를 사용하였으며, PBW(Phonetically Balanced Words) 452단어 중50개까지 발화 수를 변화시키면서 교사방식 (Supervised mode)로 적응에 사용하고 나머지 중 400개를 인식실험에 사용하였다. 차원별 eigenvoice 방법이 발화수가 증가함에 따라 기존의 eigenvoice 나 MLLR 방법보다 높은 성능을 보였으며, eigenvoice와 차원별 eigenvoice방법 사이의 적응 모드 선택을 통해 기존의 eigenvoice 방식에 비해 최고 26%의 단어 오인식률 감소를 얻었다.

사용자의 스마트 주거 기술 선호와 수용에 관한 연구 (Users' Preference and Acceptance of Smart Home Technologies)

  • 조명은;김미정
    • 대한건축학회논문집:계획계
    • /
    • 제34권11호
    • /
    • pp.75-84
    • /
    • 2018
  • This study analyzed users' acceptance and intention to use in addition to needs and preferences of smart home technologies, and identified the differences in technology preference and acceptance by different factors. The subjects were residents in the 40s and 60s residing in the Seoul or suburbs of Seoul, and questionnaires were conducted in the 40s while interviews with questionnaires were conducted in the 60s. A total of 105 questionnaires were used as data, and frequency, mean, crossover, independent sample t test, one-way ANOVA and multiple regression analysis were performaed using SPSS23. The results of this study are as follows. First, hypertension, hyperlipidemia and hypercholesterolemia were the most common diseases among respondents and if there was no discomfort, they would like to continue living in the homes of the current residence. Therefore, the direction of smart home development should support the daily living and health care so that residents can live a healthy life for a long time in their living space. Second, the technologies that residents most need were a control technology of residential environments and a monitoring technology of residents' health and physiological changes. The most preferred sensor types are motion sensors and speech recognition while video cameras have a very low preference. Third, technology anxiety was the most significant factor influencing intention to accept smart home technology. The greater the technology anxiety is, the weaker the acceptance of technology. Fourth, when applying smart residential technology in homes, various resident characteristics should be considered. Age and technology intimacy were the most influential variables, and accordingly there were differences in technology preference and acceptance. Therefore, a user-friendly smart home plan should be done in the consideration of the results.

SSAE 알고리즘을 통한 2003-2016년 남한 전역 쌀 생산량 추정 (Rice Yield Estimation of South Korea from Year 2003-2016 Using Stacked Sparse AutoEncoder)

  • 마종원;이경도;최기영;허준
    • 대한원격탐사학회지
    • /
    • 제33권5_2호
    • /
    • pp.631-640
    • /
    • 2017
  • 쌀 생산량 예측 및 조사는 농가 소득 보전 및 농업 분야 기관에 영향을 주고 수급 조절과 가격 예측 등 정부의 정책 수립과 관련하여 중요한 의미를 갖는다. 이에 따라 작황 추정 모델의 구축이 필요하며 과거로부터 기상 자료 및 위성 자료를 통해 경험적 통계 모델 또는 인공신경망 알고리즘을 기반으로 한 연구가 다수 진행되었다. 현재 인공신경망 모델을 기반으로 개발된 딥 러닝 알고리즘이 패턴 인식, 컴퓨터 비전, 음성 인식 등의 분야에서 폭넓게 사용되며 뛰어난 성능을 보이고 있다. 최근 다양한 딥 러닝 알고리즘 중 SSAE 알고리즘이 시계열 자료를 통한 예측 분야에서 적용 가능성이 확인되었으며 본 연구에서는 SSAE를 통해 남한 전역에 대한 쌀 생산량 추정 연구를 진행하였다. 입력 변수로 기상자료와 위성자료를 사용하였으며 남한 벼의 생육 기간을 고려하여 입력 자료를 기간별로 나누고 최적의 입력 자료롤 찾고자 하였다. 실험 결과, 5월부터 9월까지의 위성 자료와 16일 평균값을 사용한 기상 자료와의 조합을 사용하였을 경우 평균 연도별 %RMSE, 시군구 %RMSE 각각 7.43%, 7.16%로 가장 좋은 성능을 보였으며 이를 통해 쌀 생산량 추정 분야에 대한 SSAE 알고리즘의 적용 가능성을 확인할 수 있었다.

딥러닝의 모형과 응용사례 (Deep Learning Architectures and Applications)

  • 안성만
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.127-142
    • /
    • 2016
  • 딥러닝은 인공신경망(neural network)이라는 인공지능분야의 모형이 발전된 형태로서, 계층구조로 이루어진 인공신경망의 내부계층(hidden layer)이 여러 단계로 이루어진 구조이다. 딥러닝에서의 주요 모형은 합성곱신경망(convolutional neural network), 순환신경망(recurrent neural network), 그리고 심층신뢰신경망(deep belief network)의 세가지라고 할 수 있다. 그 중에서 현재 흥미로운 연구가 많이 발표되어서 관심이 집중되고 있는 모형은 지도학습(supervised learning)모형인 처음 두 개의 모형이다. 따라서 본 논문에서는 지도학습모형의 가중치를 최적화하는 기본적인 방법인 오류역전파 알고리즘을 살펴본 뒤에 합성곱신경망과 순환신경망의 구조와 응용사례 등을 살펴보고자 한다. 본문에서 다루지 않은 모형인 심층신뢰신경망은 아직까지는 합성곱신경망 이나 순환신경망보다는 상대적으로 주목을 덜 받고 있다. 그러나 심층신뢰신경망은 CNN이나 RNN과는 달리 비지도학습(unsupervised learning)모형이며, 사람이나 동물은 관찰을 통해서 스스로 학습한다는 점에서 궁극적으로는 비지도학습모형이 더 많이 연구되어야 할 주제가 될 것이다.

화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델 (RPCA-GMM for Speaker Identification)

  • 이윤정;서창우;강상기;이기용
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.519-527
    • /
    • 2003
  • 음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.

소셜미디어 및 면접 영상 분석 기반 온라인 채용지원시스템 프로토타입 설계 및 구현 (Prototype Design and Development of Online Recruitment System Based on Social Media and Video Interview Analysis)

  • 조진형;강환수;유우창;박규태
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.203-209
    • /
    • 2021
  • 본 연구에서는 구직자의 채용지원 서류에 대한 진정성 검증 및 잠재 직무역량과 성향에 대한 정보여과 기능을 기반으로 효과적인 원격 채용 및 적정한 업무배치 의사결정을 지원할 수 있는 온라인 채용지원시스템 프로토타입 설계 및 구현 사례를 제안하고자 하였다. 이를 위해 구직자의 공개된 소셜미디어 정보에 대해 다차원적으로 자동 크롤링 및 분석하는 기능을 접목하여 구직자의 성향과 직무역량 정보를 도출하고, 텍스트마이닝 기법을 적용하여 채용지원 서류에 표현된 텍스트 정보 및 면접 영상 정보에 대한 지능적인 분석기능이 포함된 시스템 모델을 제안하였다. 제안하는 채용지원시스템의 효용성 검증을 위하여 프로토타입을 기반으로 주요 성능지표인 텍스트마이닝 정확도 및 면접 음성문자변환 기능 인식률 등에 대한 성능평가 실험을 진행하고 결과를 분석하였다. 제안하는 시스템은 효율적인 맞춤형 채용지원 기능이 가능하도록 지능형 웹/앱 개발에 필요한 요소기술을 융합하여 설계하였으며, 도출된 설계 사양 및 프로토타입 개발 결과를 바탕으로 상용화 구현이 된다면 인재 채용시장에서 필요한 지능형 온라인 채용시스템 기술로 확대 활용이 기대될 수 있다.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

실데이터 기반 능동 소나 신호 합성 방법론 (Real data-based active sonar signal synthesis method)

  • 김윤수;김주호;석종원;홍정표
    • 한국음향학회지
    • /
    • 제43권1호
    • /
    • pp.9-18
    • /
    • 2024
  • 최근 수중표적의 저소음화와 해상교통량의 증가로 인한 주변 소음의 증가로 능동 소나 시스템의 중요성이 증대되고 있다. 하지만 신호의 다중 경로를 통한 전파, 다양한 클러터와 주변 소음 및 잔향 등으로 인한 반향신호의 낮은 신호대잡음비는 능동 소나를 통한 수중 표적 식별을 어렵게 만든다. 최근 수중 표적 식별 시스템의 성능을 향상 시키기 위해 머신러닝 혹은 딥러닝과 같은 데이터 기반의 방법을 적용시키려는 시도가 있지만, 소나 데이터셋의 특성 상 훈련에 충분한 데이터를 모으는 것이 어렵다. 부족한 능동 소나 데이터를 보완하기 위해 수학적 모델링에 기반한 방법이 주로 활용되어오고 있다. 그러나 수학적 모델링에 기반한 방법론은 복잡한 수중 현상을 정확하게 모의하는 데에는 한계가 있다. 따라서 본 논문에서는 심층 신경망 기반의 소나 신호 합성 기법을 제안한다. 제안하는 방법은 인공지능 모델을 소나 신호 합성 분야에 적용하기 위해, 음성 합성 분야에서 주로 사용되는 타코트론 모델의 주요 모듈인 주의도 기반의 인코더 및 디코더를 소나 신호에 적절하게 수정하였다. 실제 해상 환경에 모의 표적기를 배치해 수집한 데이터셋을 사용하여 제안하는 모델을 훈련시킴으로써 보다 실제 신호와 유사한 신호를 합성해낼 수 있게 된다. 제안된 방법의 성능을 검증하기 위해, 합성된 음파 신호의 스펙트럼을 직접 분석을 진행하여 비교하였으며, 이를 바탕으로 오디오 품질 인지적 평가(Perceptual Quality of Audio Quality, PEAQ)인지적 성능 검사를 실시하여 총 4개의 서로 다른 환경에서 생성된 반사 신호들에 대해 원본과 비교해 그 차이가 최소 -2.3이내의 높은 성적을 보여주었다. 이는 본 논문에서 제안한 방법으로 생성한 능동 소나 신호가 보다 실제 신호에 근사한다는 것을 입증한다.