• 제목/요약/키워드: voice extract

검색결과 68건 처리시간 0.026초

Indexing and Retrieval of Human Individuals on Video Data Using Face and Speaker Recognition

  • Y.Sugiyama;N.Ishikawa;M.Nishida;Y.Ariki
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 Proceedings of International Workshop on Advanced Image Technology
    • /
    • pp.122-127
    • /
    • 1998
  • In this paper, we focus on the information retrieval of human individuals who are recorded on the video database. Our purpose is to index persons by their faces or voice and to retrieve their existing time sections on the video data. The database system can track as well as extract a face or voice of a certain person and construct a model of the individual person in self-organization mode. If he appears again at different time, the system can put the mark of the same person to the associated frames. In this way, the same person can be retrieved even if the system does not know his exact name. As the face and speaker modeling, a subspace method is employed to improve the indexing accuracy.

  • PDF

새로운 시간축 정규화 방법을 이용한 한국어 고립단어 인식기 (Korean isolated word recognizer using new time alignment method of speech signal)

  • 남명우;박규홍;노승용
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.567-575
    • /
    • 2001
  • 본 논문에서는 음성신호의 발성길이와 상관없이 일정한 크기의 파라미터를 얻을 수 있는 새로운 방법을 제안하였다. 음성인식기의 성능은 음성신호에서 추출된 파라미터간의 유사도(패턴간의 거리)를 어떻게 비교하는지에 따라 결정된다. 그러나 화자에 따른 음성신호의 변이나 발성속도의 차이는 음성신호에서 일정한 크기의 파라미터 추출을 어렵게 한다. 제안한 방법은 음성신호에서 얻어진 파라미터를 스펙토그램의 형태로 표현한 뒤 2차원 DCT(Discrete Cosine Transform)를 이용해 일정한 크기의 파라미터로 정규화시키는 방법이다. 제안한 방법의 유효성을 입증하기 위해 청각세포를 모델링한 32개의 대역통과 필터로부터 얻어진 음성신호의 파라미터를 2차원 DCT 방법으로 가공한 후, 신경 회로망의 입력으로 사용하였다. 또한 기존 방법과의 인식률 비교를 위해 기존의 정규화된 입력을 구하는 방법 중 하나를 선택하여 비교 실험을 수행하였다. 실험결과 제안한 방법은 기존 방법에 비해 화자종속 및 화자독립 고립단어 인식에서 더 높은 인식률과 빠른 인식속도를 얻을 수 있었다.

  • PDF

음성 신호 특징과 셉스트럽 특징 분포에서 묵음 특징 정규화를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using the Convergence of Voice signal Feature and Silence Feature Normalization in Cepstrum Feature Distribution)

  • 황재천
    • 한국융합학회논문지
    • /
    • 제8권5호
    • /
    • pp.13-17
    • /
    • 2017
  • 음성 인식에서 기존의 음성 특징 추출 방법은 명확하지 않은 스레숄드 값으로 인해 부정확한 음성 인식률을 가진다. 본 연구에서는 음성과 비음성에 대한 특징 추출을 묵음 특징 정규화를 융합한 음성 인식 성능 향상을 위한 방법을 모델링 한다. 제안한 방법에서는 잡음의 영향을 최소화하여 모델을 구성하였고, 각 음성 프레임에 대해 음성 신호 특징을 추출하여 음성 인식 모델을 구성하였고, 이를 묵음 특징 정규화를 융합하여 에너지 스펙트럼을 엔트로피와 유사하게 표현하여 원래의 음성 신호를 생성하고 음성의 특징이 잡음을 적게 받도록 하였다. 셉스트럼에서 음성과 비음성 분류의 기준 값을 정하여 신호 대 잡음 비율이 낮은 신호에서 묵음 특징 정규화로 성능을 향상하였다. 논문에서 제시하는 방법의 성능 분석은 HMM과 CHMM을 비교하여 결과를 보였으며, 기존의 HMM과 CHMM을 비교한 결과 음성 종속 단계에서는 2.1%p의 인식률 향상이 있었으며, 음성 독립 단계에서는 0.7%p 만큼의 인식률 향상이 있었다.

오피니언 마이닝 알고리즘 기반 음성인식 인터뷰 모델의 설계 및 구현 (Design And Implementation of a Speech Recognition Interview Model based-on Opinion Mining Algorithm)

  • 김규호;김희민;이기영;임명재;김정래
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.225-230
    • /
    • 2012
  • 오피니언 마이닝은 기존의 데이터 마이닝 기술을 활용하여 웹 상에 개재된 블로그, 상품평등에 나타난 저자의 의견을 추출하는 분야로써 텍스트의 주제를 판단하는 것이 아닌 주제에 대한 저자의 태도를 판단하는 기술이다. 본 논문에서는 오피니언 마이닝 알고리즘과 공개된 음성인식 API을 사용하여 텍스트가 아닌 음성의 대한 데이터의 감정을 판단하기 위해 제안했다. 이 시스템은 공개된 Google Voice Recognition API와 주제어와 관련된 순위화 알고리즘, 개선된 극성 판단 알고리즘을 통하여 설계하고, 이를 바탕으로 음성인식 인터뷰 모델을 구현한다.

CNN을 이용한 음성 데이터 성별 및 연령 분류 기술 연구 (A Study on the Gender and Age Classification of Speech Data Using CNN)

  • 박대서;방준일;김화종;고영준
    • 한국정보기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.11-21
    • /
    • 2018
  • 본 논문에서는 사람을 대신하여 분류, 예측 하는 딥러닝 기술을 활용하여 목소리를 통해 남녀노소를 분류하는 연구를 수행한다. 연구과정은 기존 신경망 기반의 사운드 분류 연구를 살펴보고 목소리 분류를 위한 개선된 신경망을 제안한다. 기존 연구에서는 도시 데이터를 이용해 사운드를 분류하는 연구를 진행하였으나, 얕은 신경망으로 인한 성능 저하가 나타났으며 다른 소리 데이터에 대해서도 좋은 성능을 보이지 못했다. 이에 본 논문에서는 목소리 데이터를 전처리하여 특징값을 추출한 뒤 추출된 특징값을 기존 사운드 분류 신경망과 제안하는 신경망에 입력하여 목소리를 분류하고 두 신경망의 분류 성능을 비교 평가한다. 본 논문의 신경망은 망을 더 깊고 넓게 구성함으로써 보다 개선된 딥러닝 학습이 이루어지도록 하였다. 성능 결과로는 기존 연구와 본 연구의 신경망에서 각각 84.8%, 91.4%로 제안하는 신경망에서 약 6% 더 높은 정확도를 보였다.

구개인두부전증 환자의 한국어 음성 코퍼스 구축 방안 연구 (Research on Construction of the Korean Speech Corpus in Patient with Velopharyngeal Insufficiency)

  • 이지은;김욱은;김광현;성명훈;권택균
    • Korean Journal of Otorhinolaryngology-Head and Neck Surgery
    • /
    • 제55권8호
    • /
    • pp.498-507
    • /
    • 2012
  • Background and Objectives We aimed to develop a Korean version of the velopharyngeal insufficiency (VPI) speech corpus system. Subjects and Method After developing a 3-channel simultaneous speech recording device capable of recording nasal/oral and normal compound speech separately, voice data were collected from VPI patients aged more than 10 years with/without the history of operation or prior speech therapy. This was compared to a control group for which VPI was simulated by using a french-3 nelaton tube inserted via both nostril through nasopharynx and pulling the soft palate anteriorly in varying degrees. The study consisted of three transcriptors: a speech therapist transcribed the voice file into text, a second transcriptor graded speech intelligibility and severity and the third tagged the types and onset times of misarticulation. The database were composed of three main tables regarding (1) speaker's demographics, (2) condition of the recording system and (3) transcripts. All of these were interfaced with the Praat voice analysis program, which enables the user to extract exact transcribed phrases for analysis. Results In the simulated VPI group, the higher the severity of VPI, the higher the nasalance score was obtained. In addition, we could verify the vocal energy that characterizes hypernasality and compensation in nasal/oral and compound sounds spoken by VPI patients as opposed to that characgerizes the normal control group. Conclusion With the Korean version of VPI speech corpus system, patients' common difficulties and speech tendencies in articulation can be objectively evaluated. Comparing these data with those of the normal voice, mispronunciation and dysarticulation of patients with VPI can be corrected.

울음소리의 주파수 대역폭 분석을 이용한 소아호흡기 질환 진단에 관한 연구 (A Study on Infant Respiratory Diseases Diagnosis using Frequency Bandwidth Analysis of Crying Waveform)

  • 김봉현;조동욱
    • 한국통신학회논문지
    • /
    • 제33권12B호
    • /
    • pp.1123-1130
    • /
    • 2008
  • 출산율, 결흔율 감소 및 이혼을 증가 등의 사회적 현상으로 인해 태어나면서부터 건강에 대한 관심이 증대되고 있는 실정이다. 특히 의사 표현 능력이 부족한 소아의 질환 진단은 직접 내원해서 진단을 받아야 하는 불편함을 가지고 있다. 이를 위해 본 연구에서는 재택 기반으로 소아 울음소리를 통해 음성 분석학적 요소를 추출하여 정상 소아와 질환을 앓고 있는 소아와의 비교, 분석을 통해 소아 질환을 진단할 수 있는 시스템을 개발하고자 한다. 특히, 본 논문은 소아에게 가장 쉽게 걸릴 수 있는 소아호흡기 질환 중 소아감기, 소아폐렴 및 소아천식을 대상으로 실험을 수행하였으며 울음소리의 특징 요소를 추출하여 진단기기로 개발하고자 한다. 이를 위해 소아호흡기 질환이 인체의 음성 기관을 자극하는 질환임을 가정하고 음성학적 분석 요소 중 조음기관과 관련된 주파수대역폭분석을 통한 방법을 실험하였으며 이를 정상 소아와 소아호흡기 질환을 앓고 있는 환자를 비교, 분석하였다. 이와같은 방법을 통해 정상 소아에 비해 호흡기 질환을 앓고 있는 소아가 주파수 대역폭이 짧게 형성되는 결과를 추출하였다.

Twitter Crawling System

  • Ganiev, Saydiolim;Nasridinov, Aziz;Byun, Jeong-Yong
    • Journal of Multimedia Information System
    • /
    • 제2권3호
    • /
    • pp.287-294
    • /
    • 2015
  • We are living in epoch of information when Internet touches all aspects of our lives. Therefore, it provides a plenty of services each of which benefits people in different ways. Electronic Mail (E-mail), File Transfer Protocol (FTP), Voice/Video Communication, Search Engines are bright examples of Internet services. Between them Social Network Services (SNS) continuously gain its popularity over the past years. Most popular SNSs like Facebook, Weibo and Twitter generate millions of data every minute. Twitter is one of SNS which allows its users post short instant messages. They, 100 million, posted 340 million tweets per day (2012)[1]. Often big amount of data contains lots of noisy data which can be defined as uninteresting and unclassifiable data. However, researchers can take advantage of such huge information in order to analyze and extract meaningful and interesting features. The way to collect SNS data as well as tweets is handled by crawlers. Twitter crawler has recently emerged as a great tool to crawl Twitter data as well as tweets. In this project, we develop Twitter Crawler system which enables us to extract Twitter data. We implemented our system in Java language along with MySQL. We use Twitter4J which is a java library for communicating with Twitter API. The application, first, connects to Twitter API, then retrieves tweets, and stores them into database. We also develop crawling strategies to efficiently extract tweets in terms of time and amount.

후두 손상 유발시킨 랫드에 칡잎추출물을 투여하여 스트레스 경감효과에 미치는 영향 (Effects of Kudzu Leaf Extracts on Stress Reduction in Rats with Damaged Larynxes)

  • 이태종;예춘정
    • 한국환경보건학회지
    • /
    • 제38권5호
    • /
    • pp.431-437
    • /
    • 2012
  • Objectives: This study aims to investigate the effects of voice disorders on changes in stress among people with damaged larynxes. To accomplish this, physiological changes and reductions in the stress of Sprague-Dawley rats whose larynx had been damaged were investigated after the laboratory animals were administered kudzu leaf extracts with sedative effects. Methods: In the experiment, a total of 24 rats were divided into four groups of six rats, including the normal group, control group, experimental group 1, and experimental group 2. After orally administering to the subjects a predetermined amount of the extract at a specific time (once per day over five weeks), changes in physiological functions, internal organ weight, cortisol, estrogen, and progesterone in the subjects were examined, and an immunological test was conducted on their brain tissues. Results: Statistical significance was seen in the experimental group as opposed to the control group and the results were similar to those of the normal group. Conclusions: In consideration of these results, it is deemed that there are severe effects on stress due to voice disorders and that the administration of kudzu leaf extracts results in improvement in stress.

정량화된 고객 선호도를 체계적으로 반영하기 위한 인간공학적 제품 개발 프로세스 (Development of An Ergonomic Product Development Process Reflecting Quantified Customer Preference)

  • 임영재;정의승;박성준
    • 대한산업공학회지
    • /
    • 제34권1호
    • /
    • pp.66-78
    • /
    • 2008
  • In the past, Manufacturers used to determine the quality of products, but the trend of today's market becomesmore into customer-driven. As a result, demands from customers are becoming more diverse and complicated,and most companies are obligated to meet their needs. As one of the effort to achieve their satisfaction,companies are now emphasizing activities to find out what customers specifically want and extract voice ofcustomer(VOC). This study attempts to develop an ergonomic product development process as a method tomaximally reflect the VOC. In order to meet this goal, ergonomic design guidelines, which are possible to beclassified according that user's human characteristics, will be recommended. Even now, there are numerousdesign guidelines already existing in the ergonomics literature. However, it is not realistically feasible to reviewall of those guidelines, and some of them are even conflicting with each other. Therefore, in this paper, theproduct development process, which prioritizes the human characteristics that reflect customer needs and appliesthe design guidelines that meet the most important ones, will be suggested. Finally, the research was described toshow the validity of the product development process through an example of a mobile phone development case.