• 제목/요약/키워드: Image to Speech

검색결과 188건 처리시간 0.026초

다중 센서 융합 알고리즘을 이용한 감정인식 및 표현기법 (Emotion Recognition and Expression Method using Bi-Modal Sensor Fusion Algorithm)

  • 주종태;장인훈;양현창;심귀보
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.754-759
    • /
    • 2007
  • In this paper, we proposed the Bi-Modal Sensor Fusion Algorithm which is the emotional recognition method that be able to classify 4 emotions (Happy, Sad, Angry, Surprise) by using facial image and speech signal together. We extract the feature vectors from speech signal using acoustic feature without language feature and classify emotional pattern using Neural-Network. We also make the feature selection of mouth, eyes and eyebrows from facial image. and extracted feature vectors that apply to Principal Component Analysis(PCA) remakes low dimension feature vector. So we proposed method to fused into result value of emotion recognition by using facial image and speech.

영상정보 보완에 의한 음성인식 (Speech Recognition with Image Information)

  • 이천우;이상원;양근모;박인정
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.511-515
    • /
    • 1999
  • 음성의 인식율 저하는 주로 잡음에 의해 발생하고, 이러한 요인을 제거하기 위해 주로 필터뱅크를 사용하여 왔지만, 본 논문은 2 차원 선형예측이라는 영상 특징 추출 방법을 이용하여 잡음에 강인한 숫자 음 인식을 시도하였다. 먼저, 음성에 대한 인식결과를 도출하기 위해, 13 차 선형예측 계수를 이용하여 인식을 시도하였다. 이 때, 잡음을 추가한 음성을 이용하여 시험한 결과, 5 개의 숫자음, ‘영’, ‘사’, ‘오’, ‘육’, ‘구’에서 인식결과의 저하를 볼 수 있었다. 이러한 결과를 향상시키기 위해 2 차원 선형예측 계수를 추가한 인식기 입력 데이터를 구현하였다. 이 때, 선형예측 계수는 각 프레임별로 추출하였고, 음성데이터와 합한 영상 데이터를 가지고 인식 실험을 실시하였다. 이 때, 숫자음 ‘사’ 와 ‘구’ 에 대해서는 상당한 향상을 보였다.

  • PDF

영상 기반 음성합성에서 심도 영상의 유용성 (The usefulness of the depth images in image-based speech synthesis)

  • 이기승
    • 한국음향학회지
    • /
    • 제42권1호
    • /
    • pp.67-74
    • /
    • 2023
  • 발성하고 있는 입 주변에서 취득한 영상은 발성 음에 따라 특이적인 패턴을 나타낸다. 이를 이용하여 화자의 얼굴 하단에서 취득한 영상으로부터 발성 음을 인식하거나 합성하는 방법이 제안되고 있다. 본 연구에서는 심도 영상을 협력적으로 이용하는 영상 기반 음성합성 기법을 제안하였다. 심도 영상은 광학 영상에서는 관찰되지 않는 깊이 정보의 취득이 가능하기 때문에 평면적인 광학 영상을 보완하는 목적으로 사용이 가능하다. 본 논문에서는 음성 합성 관점에서 심도 영상의 유용성을 평가하고자 한다. 60개의 한국어 고립어 음성에 대해 검증 실험을 수행하였으며, 실험결과 객관적, 주관적 평가에서 광학적 영상과 근접한 성능을 얻는 것을 확인할 수 있었으며 두 영상을 조합하여 사용하는 경우 각 영상을 단독으로 사용하는 경우보다 향상된 성능을 나타내었다.

What You Hear is What You See\ulcorner

  • Moon, Seung-Jae
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권1E호
    • /
    • pp.31-41
    • /
    • 2002
  • This study aims at investigating the relationship between voice and the image information carried within the voice. Whenever we hear somebody talking, we form a mental image of the speaker. Is it accurate? Is there a relationship between the voice and the image triggered by the voice? To answer these questions, speech samples form 8 males and 8 females were recorded. Two photos were taken for each speaker: the whole body photo (W) with physical characteristics present, and the face close-ups (F) without much physical details revealed. 361 subjects were asked to match the voices with the corresponding photos. The results showed that 5 males and 5 f3males (with W) and 2 males and 4 females (with F) were correctly identified. More interestingly, however, even in the mismatches, there was a strong tendency for participants to agree on which voice should correspond to which photo. The participants also agreed much more readily on their favorite voice than on their favorite photo. It seems voice does carry certain information about the physical characteristics of the speaker in a consistent manner. These findings have some bearings on understanding the mechanism of speech production and perception as well as on improving speech technology.

음성과 인상의 관계규명을 위한 실험적 연구 (Voice and Image: A Pilot Study)

  • 문승재
    • 대한음성학회지:말소리
    • /
    • 제35_36호
    • /
    • pp.37-48
    • /
    • 1998
  • When we hear someone's voice, even without having met the person before, we usually make up a certain mental image of the person. This study aims at investigating the relationship between the voice and the image information carried within the voice. Does the mental picture created by the voice closely reflect the real image and if not, is it related with the real image at all\ulcorner To answer the first question, a perception experiment was carried out. Speech samples reading a short sentence from 8 males and 8 females were recorded and pictures of subjects were also taken. Ajou University students were asked to participate in the experiment to match the voice with the corresponding picture. Participants in the experiment correctly match 1 female voice and 4 male voices with their corresponding pictures. However, it is interesting to note that even in cases of mismatch, the results show that there is a very strong tendency. In other words, even though participants falsely match a certain voice with a certain picture, majority of them chose the same picture for the voice. It is the case for all mismatches. It seems that voice does give the listener a certain impression about physical characteristics even if it might not be always correct. By showing that there is a clear relationship between voice and image, this study provides a starting point for further research on voice characteristics: what characteristics of the voice carry the relevant information\ulcorner This kind of study will contribute toward the understanding of the affective domain of human voice and toward the speech technology.

  • PDF

뉴로모픽 구조 기반 IoT 통합 개발환경에서 SNN 모델을 지원하기 위한 인코더/디코더 구현 (Implementation of Encoder/Decoder to Support SNN Model in an IoT Integrated Development Environment based on Neuromorphic Architecture)

  • 김회남;윤영선
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권2호
    • /
    • pp.47-57
    • /
    • 2021
  • 뉴로모픽 기술은 인간의 뇌 구조와 연산과정을 하드웨어로 모방하는 기술로 기존 인공지능 기술의 단점을 보완하기 위하여 제안되었다. 뉴로모픽 하드웨어 기반의 IoT 응용을 개발하기 위해 NA-IDE가 제안되었으며, NA-IDE에서 SNN 모델을 구현하기 위하여 일반적으로 많이 사용되는 입력 데이터를 SNN모델에 사용할 수 있도록 변환이 필요하다. 본 논문에서는 이미지 데이터를 SNN 입력으로 사용하기 위하여 스파이크 시계열 패턴으로 변환하는 신경코딩 방식의 인코더 컴포넌트를 구현하였다. 디코더 컴포넌트는 SNN 모델이 스파이크 시계열 패턴을 생성하는 경우, 출력된 시계열 데이터를 다시 이미지 데이터로 변환하도록 구현하였다. 디코더 컴포넌트는 출력 데이터에 인코딩 과정과 동일한 매개변수를 사용한 경우, 원본 데이터와 유사한 정적 데이터를 얻을 수 있었다. 제안된 인코더와 디코더를 사용한다면 image-to-image나 speech-to-speech와 같이 입력 데이터를 변환하여 재생성하는 분야에 사용할 수 있을 것이다.

잡음 환경 하에서의 입술 정보와 PSO-NCM 최적화를 통한 거절 기능 성능 향상 (Improvement of Rejection Performance using the Lip Image and the PSO-NCM Optimization in Noisy Environment)

  • 김병돈;최승호
    • 말소리와 음성과학
    • /
    • 제3권2호
    • /
    • pp.65-70
    • /
    • 2011
  • Recently, audio-visual speech recognition (AVSR) has been studied to cope with noise problems in speech recognition. In this paper we propose a novel method of deciding weighting factors for audio-visual information fusion. We adopt the particle swarm optimization (PSO) to weighting factor determination. The AVSR experiments show that PSO-based normalized confidence measures (NCM) improve the rejection performance of mis-recognized words by 33%.

  • PDF

잔향 환경 음성인식을 위한 다중 해상도 DenseNet 기반 음향 모델 (Multi-resolution DenseNet based acoustic models for reverberant speech recognition)

  • 박순찬;정용원;김형순
    • 말소리와 음성과학
    • /
    • 제10권1호
    • /
    • pp.33-38
    • /
    • 2018
  • Although deep neural network-based acoustic models have greatly improved the performance of automatic speech recognition (ASR), reverberation still degrades the performance of distant speech recognition in indoor environments. In this paper, we adopt the DenseNet, which has shown great performance results in image classification tasks, to improve the performance of reverberant speech recognition. The DenseNet enables the deep convolutional neural network (CNN) to be effectively trained by concatenating feature maps in each convolutional layer. In addition, we extend the concept of multi-resolution CNN to multi-resolution DenseNet for robust speech recognition in reverberant environments. We evaluate the performance of reverberant speech recognition on the single-channel ASR task in reverberant voice enhancement and recognition benchmark (REVERB) challenge 2014. According to the experimental results, the DenseNet-based acoustic models show better performance than do the conventional CNN-based ones, and the multi-resolution DenseNet provides additional performance improvement.

잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구 (A Study on Numeral Speech Recognition Using Integration of Speech and Visual Parameters under Noisy Environments)

  • 이상원;박인정
    • 전자공학회논문지CI
    • /
    • 제38권3호
    • /
    • pp.61-67
    • /
    • 2001
  • 본 논문에서는 한국어 숫자음 인식을 위해 음성과 영상 정보를 사용하고, 음성에 사용하는 선형예측계수 알고리즘을 영상에 적용하는 방법을 제안한다. 입력으로 얻어지는 음성신호는 0.95의 매개변수를 통해 고역 신호가 강조되고, 해밍창과 자기상관 분석, Levinson-Durbin 알고리즘에 의해 13차 선형예측계수를 구한다. 마찬가지로, 그레이 영상신호도, 음성의 자기상관 분석, Levinson-Durbin 알고리즘을 사용하여 13차의 2차원 선형예측계수를 구한다, 이러한 음성/영상 신호에 대한 선형예측계수들은 다층 신경회로망에 적용하여 학습이 이루어졌고, 각 레벨의 잡음이 섞인 음성신호를 적용한 결과, 숫자음 '3', '5', '9' 에서 음성만으로 인식한 결과보다 훨씬 좋은 인식결과를 얻을 수 있었다. 결과적으로, 본 연구에서는 영상 신호의 2차원 선형 예측 계수들이 음성인식에 사용될 경우, 특징 추출에 따른 부가적인 알고리즘이 새로 고안될 필요가 없이, 음성특징 계수를 추출하는 방법을 그대로 사용할 수 있으며, 또한 데이터량과 인식율이 잡음 환경에서 보다 향상되는 효율적인 방법을 제시하고 있음을 알 수 있었다.

  • PDF

이미지 사전을 이용한 보완대체 의사소통 시스템의 구현 (Implementation of Augmentative and Alternative Communication System Using Image Dictionary)

  • 류제;김우성;한광록
    • 한국멀티미디어학회논문지
    • /
    • 제9권9호
    • /
    • pp.1208-1221
    • /
    • 2006
  • 본 논문에서는 언어장애인이 이미지를 사용하여 쉽게 의사를 전달할 수 있도록 하기 위하여 이미지 사전에 기반을 둔 보완대체 의사소통 도구를 구현하였다. 일반적으로 언어장애를 가지고 있는 사람들은 그들의 의사를 전달하기 위하여 몇 개의 제한된 언어를 사용한다. 또한 언어 장애인들에게는 말로서 의사를 전달하는 데에는 어려움이 있기 때문에 이미지를 사용하면 훨씬 효과적으로 의사소통을 할 수 있다. 따라서 대화자의 의사전달의 핵심을 이루는 동사와 형용사에 해당하는 단어에 대하여 이미지들을 제작하고, 이 이미지들과 결합할 수 있는 명사 이미지와의 의미관계를 패턴으로 정의하여, 이미지 사전을 구축하였다. 본 논문의 보완대체 의사소통 시스템은 사용자가 동사의 이미지를 클릭하고, 이 이미지의 의미관계를 기반으로 하는 결합 패턴의 구성요소인 명사의 이미지를 선택하여 문장을 생성한다. 구현된 시스템은 언어장애아들을 대상으로 그들이 얼마나 효율적으로 의사를 전달할 수 있는지에 대하여 평가되었으며, 약 70% 이상의 대화 성공률을 보였다.

  • PDF