• 제목/요약/키워드: Voice detecting

검색결과 47건 처리시간 0.034초

프라이빗 건물의 딥러닝을 활용한 언택트 기반 엘리베이터 운영시스템 설계 (Untact-based elevator operating system design using deep learning of private buildings)

  • 이민혜;강선경;신성윤;문형진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.161-163
    • /
    • 2021
  • 아파트나 프라이빗 건물에서 사용자가 양손에 짐을 들고 있거나 비슷한 상황에서 엘리베이터의 버튼을 조작하기는 어렵다. 코로나 19과 같은 전염성 높은 바이러스로 인해 사람 간의 접촉이 최소화되어야 하는 환경에서의 부득이하게 언택트 기반으로 엘리베이터 조작이 필요하다. 본 논문은 엘리베이터 버튼을 누르지 않고도 사용자의 얼굴을 통한 영상처리 및 사용자의 음성을 이용하여 엘리베이터의 조작이 가능한 운영 시스템을 제안한다. 엘리베이터 안에 설치된 카메라로부터 출입자의 얼굴을 감지하고, 사전에 등록된 정보와 매칭하여 버튼을 누르지 않아도 지정된 층으로 엘리베이터가 운영이 가능하다. 출입자의 얼굴 인식이 어려운 경우에는 2차적으로 마이크를 통해 사용자의 음성을 이용하여 엘리베이터의 층을 제어하고 출입 정보를 자동으로 기록하여 언택트 환경에서의 엘리베이터 사용의 편의성을 높이고자 한다.

  • PDF

Formant Frequency as a Measure of Physical Fatigue

  • Ha, Wook Hyun;Kim, Hong Tae;Park, Sung Ha
    • 대한인간공학회지
    • /
    • 제32권1호
    • /
    • pp.139-144
    • /
    • 2013
  • Objective: The current study investigated a non-obtrusive measure for detecting physical fatigue based on the analysis of formant frequencies of human voice. Background: Fatigue has been considered as a main cause in industrial and traffic accidents. Therefore, it is critical to detect worker's fatigue for accident prevention. Method: After running exercises on a treadmill, participants were instructed to read a sentence and their voices were recorded under four different physical fatigue levels. Korean vowels of "아", "어", "오", "우", and "이" from the voice recorded were then used to collect formant 1 frequencies. Results: Results of separate ANOVAs showed a significant main effect of physical fatigue on formant 1 frequency of "아", "어", and "이". Furthermore, post-hoc comparisons revealed that formant 1 frequency of "아" was most sensitive to physical fatigue level employed in this experiment. Conclusion: Formant 1 frequencies of some vowels significantly decrease as the physical fatigue level increases. Application: Potential application of this study includes the development of a measure of physical fatigue state that is free from sensor attachment and requires little preparation.

이산 HM을 이용한 실시간 음성인식 다이얼링 시스템 개발 (Development of a Read-time Voice Dialing System Using Discrete Hidden Markov Models)

  • 이세웅;최승호;이미숙;김홍국;오광철;김기철;이황수
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.89-95
    • /
    • 1994
  • 본 논문에서는 화자독립으로 100단어를 인식할 수 있는 실시간 음성인식 다이얼링 시스템의 개발에 대하여 기술하였다. 이 시스템에서 음성인식 알고리즘은 전화선 인터페이스를 갖춘 DSP 보드상에 구현되었으며, IBM PC AT/486 상에서 작동된다. DSP 보드에서는 단어의 시작점이 검출된 후에 특징추출, 벡터양자화 그리고 끝점검출 과정이 실시간으로 10 msec의 프레임 구간마다 수행된다. 또한, 본 시스템에서는 인식시간과 기억용량을 줄이기 위해 VQ 코드북의 크기와 끝점검출 과정을 최적화하였다. 본 실시간 음성인식 다이얼링 시스템은 데모 시스템으로 구현되어 대전엑스포‘93에서 한국이동통신의 MOBILAB 내에 전시되었다.

  • PDF

모음 포먼트 분석을 통한 정신적 피로 평가 (Evaluation of Mental Fatigue Using Vowel Formant Analysis)

  • 하욱현;박성하
    • 산업경영시스템학회지
    • /
    • 제37권1호
    • /
    • pp.26-32
    • /
    • 2014
  • Mental fatigue is inevitable in the workplace. Since mental fatigue can lead to decreased efficiency and critical accidents, it is important to manage mental fatigue from the viewpoint of accident prevention. An experiment was performed to evaluate mental fatigue using the formant frequency analysis of human voices. The experimental task was to mentally add or subtract two one-digit numbers. After completing the tasks with four different levels of mental fatigue, subjects were asked to read Korean vowels and their voices were recorded. Five vowel sounds of "아", "어", "오", "우", and "이" from the voice recorded were then used to extract formant 1 frequency. Results of separate ANOVAs showed significant main effects of mental fatigue on formant 1 frequencies of all five vowels concerned. However, post-hoc comparisons revealed that formant 1 frequencies of "아" and "어" were most sensitive to mental fatigue level employed in this experiment. Formant 1 frequencies of "아" and "어" significantly decrease as the mental fatigue accumulates. The formant frequency extracted from human voice would be potentially applicable for detecting mental fatigue induced during industrial tasks.

연속음성인식을 위한 음성구간과 피치검출에 관한 연구 (A Study on Speech Period and Pitch Detection for Continuous Speech Recognition)

  • 김태석;장종칠
    • 한국멀티미디어학회논문지
    • /
    • 제8권1호
    • /
    • pp.56-61
    • /
    • 2005
  • 본 논문은 연속음성인식을 위한 음성구간과 피치를 검출하는 알고리즘을 제안한다. 이것은 연속음성을 입력받아 프레임 단위로 자/모음을 구분하며, 구분된 유성음에서 피치를 검출하는 방법이다 실제 잡음 환경에서 음성을 입력받아 적당한 문턱치 에너지를 사용함으로써 잡음환경에서 강인한 음성구간 추출이 가능하였고 추출한 음성구간에서 프레임단위로 영교차율과 단구간에너지를 이용한 알고리즘으로 유성음의 피치를 검출함과 동시에 자/모음을 구분하는 개선된 방식이다.

  • PDF

공개키를 이용한 VoIP 환경에서의 보이스피싱 탐지 (Detecting Voice Phishing using Public Key Cryptography in VoIP)

  • 신승용;이명락;이동현;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.647-648
    • /
    • 2009
  • '보이스피싱(Voice Phishing)'은 전화를 통해 자신을 신뢰할 수 있는 대상으로 위장하여 개인 정보를 훔치는 행위이다. 최근 들어 보이스피싱 피해 사례가 급증하고 있으며 아직 딱히 대안이 없는 상태이다. 또한, IP 환경에서의 전화통화는 보이스피싱을 더욱 용이하게 하고 있다. 본 논문에서는 VoIP 환경에서 공개키 암호화 기법을 이용하여 발신자의 신원을 정확히 밝히는 인증을 통해 사용자가 악성 발신자에게 정보를 제공하거나 금전적 피해를 피할 수 있는 방법론을 제시한다. 이를 통해 사용자는 발신자의 정확한 신원 정보를 제공 받아 보이스피싱 당할 가능성을 줄일 수 있다.

다양한 환경에 강인한 컬러기반 실시간 손 영역 검출 (Color-Based Real-Time Hand Region Detection with Robust Performance in Various Environments)

  • 홍동균;이동화
    • 대한임베디드공학회논문지
    • /
    • 제14권6호
    • /
    • pp.295-311
    • /
    • 2019
  • The smart product market is growing year by year and is being used in many areas. There are various ways of interacting with smart products and users by inputting voice recognition, touch and finger movements. It is most important to detect an accurate hand region as a whole step to recognize hand movement. In this paper, we propose a method to detect accurate hand region in real time in various environments. A conventional method of detecting a hand region includes a method using depth information of a multi-sensor camera, a method of detecting a hand through machine learning, and a method of detecting a hand region using a color model. Among these methods, a method using a multi-sensor camera or a method using a machine learning requires a large amount of calculation and a high-performance PC is essential. Many computations are not suitable for embedded systems, and high-end PCs increase or decrease the price of smart products. The algorithm proposed in this paper detects the hand region using the color model, corrects the problems of the existing hand detection algorithm, and detects the accurate hand region based on various experimental environments.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

정상 성인에서의 전기성문파형 검사 ; 연하장애 환자의 전기성문파형 검사를 위한 예비연구 (ELECTOROGLOTTOGRAPH IN NORMAL ADULT ; PRELIMINARY STUDY FOR ELECTROGLOTTOGRAPHIC STUDY OF SWALLOING DISORDER)

  • 김영빈;이주경;임대호;백진아;고승오;임익재;김현기;신효근
    • Maxillofacial Plastic and Reconstructive Surgery
    • /
    • 제30권5호
    • /
    • pp.437-446
    • /
    • 2008
  • Electroglottography (EGG) is a simple and non-invasive technique for analyzing the vibratory patterns of the vocal folds by detecting impedance changes across the larynx. An abnormal electroglottogram is shown in patients who have a dysphagia associated with neuromuscular disorder. Electroglottography offers reliable informations for diagnosis of swallowing disorder and gives quantitative datas. The purpose of this study is to provide the normal value of electroglottography in normal adults. We took electroglottograms of 80 adults who have no problem in swallowing and utterance. EGG data were analyzed to find out the value of Pitch, Jitter and Closed quotient with a commercially available software. There were significant differences between a usual voice and loud voice in 3 measures on the EGG signalmean pitch, Avg. jitter, mean quotient. To get a proper electroglottography, phonation of a usual voice was better than a loud voice. Four measurements- S.D pitch, Avg. Jitter, Mean closed quotient, S.D closed quotient- were independent of sex for adult. Three measurements- Mean pitch, S.D pitch, Mean closed quotient - were independent of age for adult aged twenties to fifties. The Avg. Jitter of twenties appeared to be lower than those of forties and fifties. The S.D closed quotient of twenties appeared to be lower than those of thirties, forties and fifties.

감성로봇을 위한 음원의 위치측정 및 분리 (Sound Source Localization and Separation for Emotional Robot)

  • 김경환;김연훈;곽윤근
    • 한국정밀공학회지
    • /
    • 제20권5호
    • /
    • pp.116-123
    • /
    • 2003
  • These days, the researches related with the emotional robots are actively investigated and in progress. And human language, expression, action etc. are merged in the emotional robot to understand the human emotion. However, there are so many sound sources and background noise around the robot, that the robots should be able to separate the mixture of these sound sources into the original sound sources, moreover to understand the meaning of voice of a specific person. Also they should be able to turn or move to the direction of a specific person to observe his expression or action effectively. Until now, the researches on the localization and separation of sound sources have been so theoretical and computative that real-time processing is hardly possible. In this reason for the practical emotional robot, fast computation should be realized by using simple principle. In this paper the methods for detecting the direction of sound sources by using the phase difference between peaks on spectrums, and the separating the sound sources by using fundamental frequency and its overtones of human voice, are proposed. Also by using these methods, it is shown that the effective and real-time localization and separation of sound sources in living room are possible.