• 제목/요약/키워드: speech speed

검색결과 239건 처리시간 0.02초

다른 발화 속도의 또렷한 음성과 대화체로 발화한 영어문장 인지 (The perception of clear and casual English speech under different speed conditions)

  • 이서배
    • 말소리와 음성과학
    • /
    • 제10권2호
    • /
    • pp.33-37
    • /
    • 2018
  • Korean students with much exposure to the relatively slow and clear speech used in most English classes in Korea can be expected to have difficulty understanding the casual style that is common in the everyday speech of English speakers. This research attempted to investigate an effective way to utilize casual speech in English education, by exploring the way different speech styles (clear vs. casual) affect Korean learners' comprehension of spoken English. Twenty Korean university students and two native speakers of English participated in a listening session. The English utterances were produced in different speech styles (clear slow, casual slow, clear fast, and casual fast). The Korean students were divided into two groups by English proficiency level. The results showed that the Korean students achieved 69.4% comprehension accuracy, while the native speakers of English demonstrated almost perfect results. The Korean students (especially the low-proficiency group) had more problems perceiving function words than they did perceiving content words. Responding to the different speech styles, the high-proficiency group had more difficulty listening to utterances with phonological variation than they did listening to utterances produced at a faster speed. The low-proficiency group, however, struggled with utterances produced at a faster speed more than they did with utterances with phonological variation. The pedagogical implications of the results are discussed in the concluding section.

KTX 의자 설계에 따른 객실 Speech Privacy 평가 (Evaluation of Speech Privacy on the Seat-design in High-speed Train Passenger Cars)

  • 장형석;김재현;전진용
    • 한국소음진동공학회논문집
    • /
    • 제24권2호
    • /
    • pp.146-153
    • /
    • 2014
  • This study investigates the effects of seat-design elements such as seating arrangement, shape, and height on speech privacy in high-speed trains. For the evaluation of speech privacy, acoustic simulation software was used to reproduce room acoustical conditions in passenger cars on the basis of in-situ measurement data. The influences of speech source directivity and source height on privacy distance ($r_P$) were investigated, and it was found that $r_P$ determined using an omni-directional source was relatively shorter than that determined using a directional source. It was also found that $r_P$ decreased when the source height was lower than the height of the seat-back because the seat-back blocked the propagation of speech from the sound source. The effect of seating arrangement was not significant when comparing the vis-a-vis seating and one-side seating arrangements. In addition, among the alternative seat-designs, the seats that block the space between the seats and cover the space near the ear were found to show significantly enhanced speech privacy in high-speed train passenger cars.

한국어 낭독과 자유 발화의 운율적 특성 (Korean prosodic properties between read and spontaneous speech)

  • 유승미;이석재
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.39-54
    • /
    • 2022
  • 본 연구의 목적은 L2KSC(외국어로서의 한국어 음성 말뭉치)의 한국어 부분에서 한국어 낭독과 자유 발화를 분석하여 음성 유형의 운율 차이를 명확히 하는 것이다. 이를 위해 문장의 조음 길이, 조음 속도, 한 문장 내 휴지 길이 및 휴지 빈도, 문장 F0값을 변수로 설정하고 통계적 방법론(t-검정, 상관 분석, 회귀 분석)을 통해 분석하였다. 실험결과, 낭독과 자유 발화는 각 문장을 구성하는 운율구 형태가 구조적으로 달랐는데 각 발화 유형을 구별하는 운율적 요소로는 조음 길이, 휴지 길이, 휴지 빈도로 나타났다. 통계적 결과에서는 낭독 발화는 조음 속도와 조음 길이의 상관관계가 가장 높았는데, 이는 주어진 문장이 길수록 화자가 더 빨리 말하는 것을 설명하였다. 그러나 자유 발화에서는 문장의 조음 길이와 휴지 빈도 사이의 관계가 높았다. 전반적으로 자유 발화에서는 문장을 만들기 위해 짧은 억양구가 지속적으로 만들어지는데, 그런 이유로 더 많은 휴지가 발생하여 문장이 더 길어지는 것으로 나타났다.

음성으로부터 감성인식 요소분석 (Analyzing the element of emotion recognition from speech)

  • 심귀보;박창현
    • 한국지능시스템학회논문지
    • /
    • 제11권6호
    • /
    • pp.510-515
    • /
    • 2001
  • 일반적으로 음성신호로부터 사람의 감정을 인식할 수 있는 요소는(1)대화의 내용에 사용한 단어, (2)톤 (tore), (3)음성신호의 피치(Pitch), (4)포만트 주파수(Formant Frequencey)그리고 (5)말의 빠르기(Speech Speed)(6)음질(Voice Quality)등이다. 사람의 경우는주파수 같은 분석요소 보다 톤과 단어 빠르기, 음질로 감정을 받아들이게 되는것이 자연스러운 방법이므로 당연히 후자의 요소들이 감정을 분류하는데 중요한 인자로쓰일 수있다. 그리고, 종래는 주로 후자의 효소들을 이용하였는데, 기계로써 구현하기 위해서는 포만트 주파수를 사용할 수있게 되는것이 도움이 된다. 그러므로, 본 연구는 음성 신호로부터 피치와 포만트, 그리고 말의 빠르기 등을 이용하여 감성인식시스템을 구현하는것을 목표로 연구를 진행하고 있으며, 그 1단계 연구로서 본 논문에서는 화가 나서 내뱉는 말을 기반으로 하여 화난 감정의 독특한 특성을 찾아내었다.

  • PDF

음성재생 속도 제어를 위한 활성화 영역 검출방법 (An Active Region Detection Method for The Speech Playback-speed Control)

  • 유덕현;김동현;전준현
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.98-105
    • /
    • 2012
  • 본 논문은 고품질을 갖는 음성재생 속도제어를 위한 새로운 방법을 다루었다. 제안 방법은 재생 속도에 따른 음성 신호의 활성화 영역을 검출하는 가변적 임계필터링 솔루션을 제공하였다. 임계필터링을 위한 임계값은 주어진 배속에 따라 재생되는 음성 신호 내의 각 프레임의 통계(평균과 표준편차)에 의해 가변적으로 결정되며 프레임 내의 활성화 블록구간 만을 축출하는데 사용된다. 또한 높은 재생 속도에 따른 피치 손상과 같은 품질 저하를 최소화하기 위하여, 임계필터링은 유, 무성음 구분 없이 상대적은 낮은 활성도를 갖는 블록들을 우선적으로 제거한다. 실험 결과, 제안 방식은 기존의 피치 축출을 사용하는 SOLA(Synchonized OverLap Add) 방식보다 높은 품질 갖는 재생속도 제어 솔루션을 제공함을 알 수가 있었다.

유/무성음 결정에 다른 가변적인 시간축 변환 (Variable Time-Scale Modification with Voiced/Unvoiced Decision)

  • 손단영;김원구;윤대희;차일환
    • 전자공학회논문지B
    • /
    • 제32B권5호
    • /
    • pp.788-797
    • /
    • 1995
  • In this paper, a variable time-scale modification using SOLA(Synchronized OverLap and Add) is proposed, which takes into consideration the different time-scaled characteristics of voiced and unvoiced speech, Generally, voiced speech is subject to higher variations in length during time-scale modification than unvoiced speech, but the conventional method performs time-scale modification at a uniform rate for all speech. For this purpose, voiced and unvoiced speech duration at various talking speeds were statistically analyzed. The sentences were then spoken at rates of 0.7, 1.3, 1.5 and 1.8 times normal speed. A clipping autocorrelation function was applied to each analysis frame to determine voiced and unvoiced speech to obtain respective variation rates. The results were used to perform variable time-scale modification to produce sentences at rates of 0.7, 1.3, 1.5, 1.8 times normal speed. To evaluate performance, a MOS test was conducted to compare the proposed voiced/unvoiced variable time-scale modification and the uniform SOLA method. Results indicate that the proposed method produces sentence quality superior to that of the conventional method.

  • PDF

한국어 음운론의 음보 (Metrical Foot in Korean Phonology)

  • 이상직
    • 대한음성학회지:말소리
    • /
    • 제25_26호
    • /
    • pp.38-51
    • /
    • 1993
  • Korean phonology has not recognised metrical foot as a phonological unit to account for certain phonological processes. This paper, however, suggests that an optional h-deletion process in Korean should require the notion of metrical foot as an independent phonological domain. The previous analyses rely on the notion of speech speed to explain optional h-deletion : i. e. an intervocalic h is deleted in fast speech, but in slow speech it remains. This paper claims that the notion of speech speed should be reinterpreted in terms of metrical foot : i.e. foot-internal t is deleted, but foot-initial h remains. Such analysis provides evidence that metrical foot constitutes a phonological unit in Korean phonology. With the notion of metrical foot, it enables us to achieve more detailed and accurate analysis of the optional h-deletion process in Korean.

  • PDF

발화 속도와 휴지 구간 길이를 사용한 방언 분류 (Dialect classification based on the speed and the pause of speech utterances)

  • 나종환;이보원
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.43-51
    • /
    • 2023
  • 본 논문에서는 음성의 발화 속도와 휴지 구간의 길이 그리고 화자의 연령과 성별에 기반한 방언 분류 접근 방법을 제안한다. 방언 분류는 음성 분석을 위한 중요한 기술 중 하나이다. 예를 들어 정확한 방언 분류 모델은 화자 인식 또는 음성 인식의 성능을 향상시킬 수 있는 잠재력을 가질 수 있다. 선행 연구에 따르면, Mel-Frequency Cepstral Coefficients(MFCC) 특징을 사용한 딥러닝 기반의 연구가 주류를 이루었다. 우리는 지역 간의 음향적 차이에 주목하여 그 차이를 바탕으로 추출한 특징을 사용하여 방언 분류를 진행하였다. 본 논문에서는 음성의 발화 속도, 휴지 구간의 길이 특성을 추출하여 사용하며 이와 함께 화자의 연령과 성별과 같은 메타데이터를 추가로 사용하는 새로운 접근 방법을 제안한다. 실험 결과 제안된 접근 방법이 더 높은 정확도를 보이는 것을 확인하였으며 특히 음성의 발화 속도 특성을 사용하는 것이 기존 MFCC만을 사용하는 방법보다 향상된 성능을 보여준다는 것을 확인할 수 있었다. MFCC 특성만을 사용한 방법과 비교했을 때 본 논문에서 제안한 특성들을 모두 사용하였을 때의 정확도는 91.02%에서 97.02%로 향상되었다.

Pathological Vibratory patterns of the Vocal Folds Observed by the High Speed Digital Imaging System

  • Niimi, Seiji
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1998년도 제10회 학술대회 심포지움
    • /
    • pp.208-209
    • /
    • 1998
  • It is generally known that many cases of pathological rough voice are characterized not by simple random perturbations but by quasi-periodic perturbations in the speech wave. However, there are few studies on the characteristics of perturbations in vocal fold vibrations associated with this type of voice. We have been conducting studies of pathological vocal fold vibration using a high-speed digital image recording system developed by our institute, Compared to the ordinary high-speed-motion picture system, the present system is compact and simple to operate and thus, it suited for pathological data collection. (omitted)

  • PDF

Proposed Efficient Architectures and Design Choices in SoPC System for Speech Recognition

  • Trang, Hoang;Hoang, Tran Van
    • 전기전자학회논문지
    • /
    • 제17권3호
    • /
    • pp.241-247
    • /
    • 2013
  • This paper presents the design of a System on Programmable Chip (SoPC) based on Field Programmable Gate Array (FPGA) for speech recognition in which Mel-Frequency Cepstral Coefficients (MFCC) for speech feature extraction and Vector Quantization for recognition are used. The implementing process of the speech recognition system undergoes the following steps: feature extraction, training codebook, recognition. In the first step of feature extraction, the input voice data will be transformed into spectral components and extracted to get the main features by using MFCC algorithm. In the recognition step, the obtained spectral features from the first step will be processed and compared with the trained components. The Vector Quantization (VQ) is applied in this step. In our experiment, Altera's DE2 board with Cyclone II FPGA is used to implement the recognition system which can recognize 64 words. The execution speed of the blocks in the speech recognition system is surveyed by calculating the number of clock cycles while executing each block. The recognition accuracies are also measured in different parameters of the system. These results in execution speed and recognition accuracy could help the designer to choose the best configurations in speech recognition on SoPC.