• 제목/요약/키워드: voice extract

검색결과 70건 처리시간 0.025초

한국어 음성의 스펙트럼 변화에 관한 연구 (A Study on the Spectrum Variation of Korean Speech)

  • 이수길;송정영
    • 인터넷정보학회논문지
    • /
    • 제6권6호
    • /
    • pp.179-186
    • /
    • 2005
  • 음성학에서 음성이 가지고 있는 주파수 특성을 이용하여 스펙트럼을 추출할 수 있고 이를 이용하여 음성을 분석할 수 있다. 그러나 음성의 스펙트럼은 단모음의 경우 어느 정도 일정한 형태를 유지하지만 음절. 단어 등과 같이 자음과 모음이 서로 결합되었을 때는 상당한 변화가 발생된다. 이는 음소단위 음성인식에 있어서 가장 큰 장애가 되고 있다. 본 논문에서는 주파수 영역과 청각적 인상을 고려한 멜 대역 그리고 멜 켑스트럼을 이용하여 각 자음과 모음이 가지고 있는 스펙트럼을 분석하고, 청각적 특성을 반영한 음성의 변화를 체계화하여 음성을 음소단위로 분할할 수 있는 기반을 제공한다.

  • PDF

Emotion Recognition Based on Frequency Analysis of Speech Signal

  • Sim, Kwee-Bo;Park, Chang-Hyun;Lee, Dong-Wook;Joo, Young-Hoon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제2권2호
    • /
    • pp.122-126
    • /
    • 2002
  • In this study, we find features of 3 emotions (Happiness, Angry, Surprise) as the fundamental research of emotion recognition. Speech signal with emotion has several elements. That is, voice quality, pitch, formant, speech speed, etc. Until now, most researchers have used the change of pitch or Short-time average power envelope or Mel based speech power coefficients. Of course, pitch is very efficient and informative feature. Thus we used it in this study. As pitch is very sensitive to a delicate emotion, it changes easily whenever a man is at different emotional state. Therefore, we can find the pitch is changed steeply or changed with gentle slope or not changed. And, this paper extracts formant features from speech signal with emotion. Each vowels show that each formant has similar position without big difference. Based on this fact, in the pleasure case, we extract features of laughter. And, with that, we separate laughing for easy work. Also, we find those far the angry and surprise.

무선 송수신모듈용 실리콘 바이폴라 트랜지스터의 새로운 전류원 모델링 (A New Current Source Modeling of Silicon Bipolar Transistor for Wireless Transceiver Module)

  • 서영석
    • 조명전기설비학회논문지
    • /
    • 제19권3호
    • /
    • pp.93-98
    • /
    • 2005
  • 근거리에서의 무선설비제어, 구내음성통신과 같은 전파통신설비의 송수신 모듈에 실리콘 바이폴라 트랜지스터가 많이 사용되고 있다. 이러한 실리콘 바이폴라 트랜지스터의 내부 전류원에 대한 새로운 모델링 방법이 제시되었다. 제안된 방법은 Si-BJT의 새로운 열 저항 추출방법과 전류원 파라메터에 대한 새로운 해석적인 방정식에 기반을 두고 있다. 이 방법은 기존의 방법에서 채택된 반복적인 최적화 과정 없이 바로 파라메터를 구할 수 있다. 제안된 방법을 5개의 핑거를 가지는 $0.4\times20[{\mu}m^2]$ 의 Si-BJT에 이 방법을 적용시켰으며, 모델링된 데이터는 측정결과를 $3[\%]$ 이내의 오차로 잘 예측하였다.

안면 움직임 분석을 통한 단음절 음성인식 (Monosyllable Speech Recognition through Facial Movement Analysis)

  • 강동원;서정우;최진승;최재봉;탁계래
    • 전기학회논문지
    • /
    • 제63권6호
    • /
    • pp.813-819
    • /
    • 2014
  • The purpose of this study was to extract accurate parameters of facial movement features using 3-D motion capture system in speech recognition technology through lip-reading. Instead of using the features obtained through traditional camera image, the 3-D motion system was used to obtain quantitative data for actual facial movements, and to analyze 11 variables that exhibit particular patterns such as nose, lip, jaw and cheek movements in monosyllable vocalizations. Fourteen subjects, all in 20s of age, were asked to vocalize 11 types of Korean vowel monosyllables for three times with 36 reflective markers on their faces. The obtained facial movement data were then calculated into 11 parameters and presented as patterns for each monosyllable vocalization. The parameter patterns were performed through learning and recognizing process for each monosyllable with speech recognition algorithms with Hidden Markov Model (HMM) and Viterbi algorithm. The accuracy rate of 11 monosyllables recognition was 97.2%, which suggests the possibility of voice recognition of Korean language through quantitative facial movement analysis.

Structural live load surveys by deep learning

  • Li, Yang;Chen, Jun
    • Smart Structures and Systems
    • /
    • 제30권2호
    • /
    • pp.145-157
    • /
    • 2022
  • The design of safe and economical structures depends on the reliable live load from load survey. Live load surveys are traditionally conducted by randomly selecting rooms and weighing each item on-site, a method that has problems of low efficiency, high cost, and long cycle time. This paper proposes a deep learning-based method combined with Internet big data to perform live load surveys. The proposed survey method utilizes multi-source heterogeneous data, such as images, voice, and product identification, to obtain the live load without weighing each item through object detection, web crawler, and speech recognition. The indoor objects and face detection models are first developed based on fine-tuning the YOLOv3 algorithm to detect target objects and obtain the number of people in a room, respectively. Each detection model is evaluated using the independent testing set. Then web crawler frameworks with keyword and image retrieval are established to extract the weight information of detected objects from Internet big data. The live load in a room is derived by combining the weight and number of items and people. To verify the feasibility of the proposed survey method, a live load survey is carried out for a meeting room. The results show that, compared with the traditional method of sampling and weighing, the proposed method could perform efficient and convenient live load surveys and represents a new load research paradigm.

Prediction of Closed Quotient During Vocal Phonation using GRU-type Neural Network with Audio Signals

  • Hyeonbin Han;Keun Young Lee;Seong-Yoon Shin;Yoseup Kim;Gwanghyun Jo;Jihoon Park;Young-Min Kim
    • Journal of information and communication convergence engineering
    • /
    • 제22권2호
    • /
    • pp.145-152
    • /
    • 2024
  • Closed quotient (CQ) represents the time ratio for which the vocal folds remain in contact during voice production. Because analyzing CQ values serves as an important reference point in vocal training for professional singers, these values have been measured mechanically or electrically by either inverse filtering of airflows captured by a circumferentially vented mask or post-processing of electroglottography waveforms. In this study, we introduced a novel algorithm to predict the CQ values only from audio signals. This has eliminated the need for mechanical or electrical measurement techniques. Our algorithm is based on a gated recurrent unit (GRU)-type neural network. To enhance the efficiency, we pre-processed an audio signal using the pitch feature extraction algorithm. Then, GRU-type neural networks were employed to extract the features. This was followed by a dense layer for the final prediction. The Results section reports the mean square error between the predicted and real CQ. It shows the capability of the proposed algorithm to predict CQ values.

모바일 VoIP 수용에 영향을 미치는 요인 연구 : UTAUT 모형을 중심으로 (A Study of the Factors Influencing Adoption of Mobile VoIP: Applying the UTAUT Model)

  • 김수연;이상훈;황현석
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3238-3246
    • /
    • 2013
  • 정보기술 발달은 다양한 기기에서 인터넷 망을 통한 음성통화를 가능하게 하고 있다. 스마트 폰에서는 무료로 제공되는 모바일 VoIP 앱을 설치하고 이용하는 사용자가 늘고 있다. 본 연구에서는 모바일 기기에서 확산되고 있는 무료통화 앱의 수용에 영향을 주는 요인을 밝히고 이들 요인간의 구조적인 관계를 파악하고자 한다. 이를 위해 관련 모바일 VoIP 관련 연구들을 살펴본 후 영향 요인들을 도출하고 이들 간의 구조적인 영향에 대한 연구모형을 설정하였다. 연구모형의 검증을 위해 설문조사와 통계적인 분석을 통한 실증분석을 실시하였다. 탐색적 요인분석을 통해 설문에 사용된 변수 사이의 요인을 찾아내었고 요인들 간의 구조적인 영향 관계를 규명하기 위해 구조방정식모형을 이용한 분석을 실시하였다. 실증분석 결과 모바일 VoIP가 제공하는 유용한 혜택과 사회적인 영향이 이용의도와 실제 이용에 많은 영향을 미치는 것으로 나타났으며, 이는 사용자를 대상으로 유용성을 강조하고 사회적인 영향을 강화할 수 있는 기능이 필요함을 시사하고 있다.

인공지능 스피커와 아동들의 상호작용 :유형별 성공/실패 사례 도출을 위한 현장 연구 (Interactions between AI Speaker and Children : A Field Study on the Success/Failure Cases by Types of Interactions)

  • 홍정림;최보름
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.19-29
    • /
    • 2020
  • 최근 인공지능 스피커 시장이 급속도로 성장하는 가운데 관련 기업들의 주 사용자이자 미래 잠재 고객인 아동들을 선점하기 위한 경쟁이 매우 치열하다. 그러나 인공지능 스피커와 일반 성인 사용자와의 연구는 활발한 반면, 아동들과 인공지능 스피커 간의 상호작용 방식에 관한 실증적 연구는 매우 부족한 실정이다. 따라서 본 연구에서는 아동들과 인공지능 스피커의 상호작용을 관찰하여 주로 어떤 기능을 사용하며, 어떤 특징이 있는지 현장 연구를 통하여 살펴보고자 한다. 이를 위해 실시간으로 기록된 인공지능 스피커의 로그 데이터를 이용하여 799건의 대화 내용을 수집, 분석하였다. 연구 결과, 성인들에 비해 아동들은 동요와 동화 재생 이용, 감성 대화와 의인화 표현 빈도가 높았다. 또한, 세부 유형별 컨텐츠 분석을 통하여 아동과 인공지능 스피커의 상호작용 성공/실패 사례를 도출하였으며 실패 유형별 개선 방안을 제안하였다. 본 연구는 아동들의 인공지능 스피커 선호 기능과 콘텐츠 및 주요 대화 형태를 파악하고, 이를 바탕으로 아동의 눈높이에 맞는 서비스 개발에 가이드라인을 제공한다는 점에서 의의가 있다.

단일 음원 노래에서 음표의 조합 규칙을 이용한 마디 위치 찾기 (Finding Measure Position Using Combination Rules of Musical Notes in Monophonic Song)

  • 박은종;신송이;이준환
    • 한국콘텐츠학회논문지
    • /
    • 제9권10호
    • /
    • pp.1-12
    • /
    • 2009
  • 본 논문은 한 마디 내에서 나타나는 음표들을 조합했을 때 규칙적인 배수관계가 있음을 이용하여 단음으로 구성된 노래에서 정확하게 마디 위치를 찾는 방법을 제안한다. 제안된 방법에서는 먼저 노래의 개별음의 길이들을 찾아내고, 이들 개별음 길이들의 배수관계를 적용한 규칙들을 이용한다. 이렇게 찾아진 마디정보는 자동 음악 채보 시스템의 사전 정보로 활용될 수 있는 박자 및 빠르기 등을 위한 원천적인 정보를 추출하는데 활용될 수 있다. 남성 및 여성의 단음으로 구성된 12곡의 노래들에 대한 실험 결과 1곡을 제외한 11곡 노래들의 마디위치를 정확히 검출 했으며, 이렇게 찾은 마디 정보와 음악적 이론을 이용하여 곡의 박자 및 빠르기 정보 등을 추출할 수 있다.

심장 상태와 발음간의 연관성 분석을 위한 성대 진동의 변화율 추출 (Change Rate Extraction of Vocal Fold Vibration for Heart Conditional and Pronunciation of Correlative Analysis)

  • 김봉현;조동욱
    • 한국통신학회논문지
    • /
    • 제35권2B호
    • /
    • pp.191-196
    • /
    • 2010
  • 흡연, 당뇨, 비만 및 스트레스 등에 의한 심장 질환이 증가됨에 따라 이로 인한 사망률이 늘어나면서 심장 질환은 현대 사회에서 조기 진단의 필요성을 제시하고 있는 실정이다. 특히 심장 질환에 대한 사람들의 무지와 무관심 때문에 발병율이 급격히 증가하고 있다. 따라서 이와 같은 심장 질환에 대한 사회적 현상을 해결하기 위해 본 논문에서는 동의보감에서 제시하고 있는 심장 상태에 대한 진단 이론을 기반으로 심장 질환의 조기 진단에 필요한 객관적 출력 변수를 설계하였다. 특히 심장 질환에 따른 발음의 부정확성을 입증하기 위해 성대의 진동 변화율을 추출하여 실험 집단간의 비교, 분석을 수행하였다. 이를 위해 본 논문에서는 표준어를 구사하는 성인 남성 중에서 심장 질환을 앓고 있는 환자들과 심장에 이상이 없는 정상인들로 피실험자 집단을 구성하고 이들의 음성을 수집하여 성대 진동의 변화율에 대한 비교, 분석을 통해 심장 질환에 대한 조기 진단 방법을 제안하였다.