통합 검색 | Korea Science

심층 신뢰 신경망을 이용한 오푸스 코덱 기반 인공 음성 대역 확장 기술 (Artificial speech bandwidth extension technique based on opus codec using deep belief network)

최윤상;이아성;강상원
- 한국음향학회지
- /
- 제36권1호
- /
- pp.70-77
- /
- 2017
대역폭 확장 기술은 300 ~ 3,400 Hz 대역의 협대역 음성 신호를 50 ~ 7,000 Hz 대역의 광대역 음성신호로 확장하여 음질, 명료도, 그리고 자연성을 높이는 기술이다. 본 논문에서는 협대역 음성 정보를 이용하여 광대역 음성신호를 추정하는 인공 대역폭 확장 기술을 설계하여, 오푸스(Opus) 오디오 복호화기에 내장시킴으로써, 대역폭 확장 모듈에서의 LPC(Linear Prediction Coding) 분석 및 LSF(Line Spectral Frequencies) 해석과 관련된 계산량을 감소시켰고 알고리즘 지연도 줄였다. 이를 위해 현재 다양한 분야에 적용되고 있는 딥 러닝 기술 중 하나인 심층 신뢰 신경망(Deep Belief Network, DBN) 방식을 스펙트럼 포락선 확장에 도입하여 전통적인 코드북 매핑법보다 더 좋은 품질의 스펙트럼을 만들 수 있었다.
https://doi.org/10.7776/ASK.2017.36.1.070 인용 PDF KSCI

초음파 도플러 신호를 이용한 음성 합성 (Speech synthesis using acoustic Doppler signal)

이기승
- 한국음향학회지
- /
- 제35권2호
- /
- pp.134-142
- /
- 2016
본 논문에서는 40 kHz 초음파 신호를 입 주변에 쏘고, 되돌아오는 초음파 신호를 이용해 음성신호를 합성하는 방법을 소개하고 성능을 평가하였다. 발성하고 있는 입주변에 초음파를 방사하게 되면, 입술, 턱, 뺨 등의 움직임으로 인한 변위로 도플러 현상이 발생하고, 이에 따라 반사 신호에는 본래의 주파수 성분과는 다른 도플러 주파수가 관찰되는데, 본 논문에서는 이러한 도플러 주파수를 이용하여 음성 파라메터를 추정하도록 하였다. 음성합성에 앞서서 초음파 도플러 신호와 음성 신호 간의 상관관계를 각 주파수 별로 분석하였으며, 이로부터 초음파 도플러 신호를 이용한 음성 신호의 합성 가능성을 살펴보았다. 변환에는 초음파 도플러의 정적, 동적 특성을 함께 반영한 특징 변수를 사용하였으며 결합-혼합 가우시안 기법을 이용하여 음성 파라메터로 변환하였다. 5명의 피 실험자를 이용한 음성 합성 실험에서 필터뱅크 에너지 값을 초음파신호의 특징변수로, LPC(Linear Predictive Coefficient) 켑스트럼 계수를 음성 변수로 사용하는 경우 가장 우수한 변환 성능을 나타내었다. 음성신호에서 추출한 여기신호를 이용하여 합성음을 생성하고, 이를 청취하였을 때 72.2 %의 평균 인식율이 얻어짐을 확인할 수 있었다.
https://doi.org/10.7776/ASK.2016.35.2.134 인용 PDF KSCI

Microphone 거리에 따른 Glottal Spectrum 성분 분석에 관한 연구 (A Study on Glottal Spectrum Analysis According to the Distance between the Microphone and the lips)

박현영;장경아;배명진
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
- /
- pp.65-68
- /
- 2002
현재 음성인식기는 다 채널의 음성입력방식을 사용하고 있는 추세이다. 이런 방법으로 음성인식기를 사용할 때에 자동적으로 음성을 검출하는 음성입력 방식은 발성자와 마이크간의 거리에 따라 Glottal Spectrum 성분이 변하는 특성을 가지고 있다. 이러한 Glottal Spectrum 성분은 a=R1/R0 (LPC 포락선의 기울기) 로 나타낼 수 있다. 본 논문에서는 발성자와 마이크 거리에 따른 Glottal Spectrum 성분을 비교 분석 하고자 한다.
PDF

성인 포먼트 측정에서의 최적 세팅 구현: Praat software와 관련하여 (The implementation of Korean adult's optimal formant setting by Praat scripting)

박지연;성철재
- 말소리와 음성과학
- /
- 제11권4호
- /
- pp.97-108
- /
- 2019
한국인 성인을 대상으로 최적의 포먼트 분석이 가능하도록 자동화된 프랏 스크립트를 구현하였다. 최적의 포먼트 분석이란 프랏에서 포먼트 분석 시 설정하는 2가지 세팅 파라미터(최대 포먼트, 포먼트 개수)를 조합하여 측정된 제1, 제2 포먼트의 편차합이 최소일 때를 가리킨다. 포먼트 분석의 신뢰성을 높이기 위해서는 성별이나 모음의 종류에 따라 LPC 차수를 다르게 설정해야 하는데 프랏 매뉴얼에서는 최대 포먼트 설정 값으로 남성 5,000 Hz, 여성 5,500 Hz, 측정개수는 5개를 권고한다. 그러나 이렇게 권고된 포먼트 세팅 설정이 한국어 모음에 대해서도 타당한지 검증이 필요하다. 본 연구에서 구현한 4가지 스크립트를 적용한 결과, 각 모음별 포먼트 산점도로 확인하였을 때 특히 여성의 경우 스크립트에 따라 측정된 포먼트 변이의 폭이 두드러지는 차이를 보였다. 포먼트 산점도와 통계 결과를 통해 linear_script와 qtone_script가 포먼트 측정에서 더 신뢰성이 높은 것을 알 수 있었다. Linear_script, qtone_script에서 최적의 세팅으로 설정된 최대 포먼트와 포먼트 개수의 데이터 경향성을 살펴보면, 전설 모음 [이, 에]의 경우 권고 설정보다 최대 포먼트 값은 높게, 포먼트 개수의 값은 적게 설정되었다. 반면 후설모음 [오, 우]의 경우, 권고 설정보다 최대 포먼트 값은 낮게, 포먼트 개수의 값은 많게 설정되는 것을 확인할 수 있었다.
https://doi.org/10.13064/KSSS.2019.11.4.097 인용 PDF KSCI

네트워크 분석기반을 통한 대마 줄기 및 뿌리 추출물의 약리효능 예측연구 (A Study of the Predictive Effectiveness of Stem and Root Extracts of Cannabis sativa L. Through Network Pharmacological Analysis)

신명자;차민호
- 생명과학회지
- /
- 제34권3호
- /
- pp.179-190
- /
- 2024
Canabas sativa L. (marijuana and hemp)는 전 세계적으로 널리 재배되는 식물로 식품, 의약품 등의 재료로 사용되었다. 본 연구는 네트워크 약리학을 이용하여 대마 줄기 및 뿌리 추출물의 기능적 효과를 예측하고 이들의 새로운 기능을 알아보고자 하였다. 줄기 및 뿌리 에탄올 추출물의 성분은 GC/MS로 확인하였고, 성분과 단백질 간의 네트워크는 STIHICI 데이터베이스를 이용하여 알아보았다. 성분과 연결된 단백질의 작용기전은 KEGG pathway 분석을 수행하였다. 추출물의 효과는 실시간 PCR을 이용하여 lysophosphatylcholine 유도 THP-1 세포에서 확인하였다. 줄기 및 뿌리 추출물에서 각각 21개 및 32개의 성분이 확인되었다. 줄기 및 뿌리의 성분과 연결된 단백질은 각각 147개, 184개의 단백질이었다. KEGG pathway 분석결과 MAPK signaling pathway를 포함한 69개의 경로가 추출물에 의해 공통적으로 영향을 받는 것으로 나타났다. 경로 네크워크를 이용한 추가 조사 결과, Terpenoid backbone biosynthesis 추출물 및 MVK와 MVD 의해 영향을 받을 가능성이 높으며, 유전자 발현은 추출물에 의해 LPC 유도 THP-1 세포에서 감소하였다. 따라서 본 연구에서는 대마 줄기 및 뿌리 에탄올 추출물이 다양한 경로로 영향을 미칠 수 있음을 보여주었고, 이러한 결과는 대마의 효과를 예측하고 연구하기 위한 기초 정보를 제공할 것으로 사료된다.
https://doi.org/10.5352/JLS.2024.34.3.179 인용 PDF HTML

FM 방송 중 블록 단위 음성 음악 판별 시스템의 설계 및 구현 (Design and Implementation of Speech Music Discrimination System per Block Unit on FM Radio Broadcast)

장현종;엄정권;임준식
- 한국지능시스템학회:학술대회논문집
- /
- 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
- /
- pp.25-28
- /
- 2007
본 논문은 FM 라디오 방송의 오디오 신호를 블록 단위로 음성 음악을 판별하는 시스템을 제안하는 논문이다. 본 논문에서는 음성 음악 판별 시스템을 구축하기 위해 다양한 특정 파라미터와 분류 알고리즘을 제안 한다. 특정 파라미터는 신호처리 분야(Centroid, Rolloff, Flux, ZCR, Low Energy), 음성 인식 분야(LPC, MFCC), 음악 분석 분야(MPitch, Beat)에서 각각 사용되는 파라미터를 사용하였으며 분류 알고리즘으로는 패턴인식 분야(GMM, KNN, BP)와 퍼지 신경망(ANFIS)을 사용하였고, 거리 구현은 Mahalanobis 거리를 사용하였다.
PDF

확률변수를 이용한 음악에 따른 감정분석에의 최적 EEG 채널 선택 (A Selection of Optimal EEG Channel for Emotion Analysis According to Music Listening using Stochastic Variables)

변성우;이소민;이석필
- 전기학회논문지
- /
- 제62권11호
- /
- pp.1598-1603
- /
- 2013
Recently, researches on analyzing relationship between the state of emotion and musical stimuli are increasing. In many previous works, data sets from all extracted channels are used for pattern classification. But these methods have problems in computational complexity and inaccuracy. This paper proposes a selection of optimal EEG channel to reflect the state of emotion efficiently according to music listening by analyzing stochastic feature vectors. This makes EEG pattern classification relatively simple by reducing the number of dataset to process.
https://doi.org/10.5370/KIEE.2013.62.11.1598 인용 PDF KSCI KPUBS HTML

음성 및 음악을 위한 저 전송률 다중모드 하모닉 변환 여기 부호화기 (Low Bit Rate Multi Mode Harmonic Transform Excitation Coding for Speech and Music)

김종학;이인성
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
- /
- pp.525-528
- /
- 2001
본 논문은 음성 및 음악을 위한 새로운 4kbps 다중 모드 하모닉 변환 여기 부호화 방법을 제안한다. 제안된 부호화방법은 음성/음악 분류기에 의해 분류된 신호를 각각 하모닉-잡음 여기모델과 MLT 여기모델로 부호화한다. 하모닉-잡음 여기모델에서는 전이구간과 유/무성음 혼합신호의 모델링오차 개선을 위해 MP(Matching Pursuit)방법과 혼합된 잡음스펙트럴을 표현하기 위한 캡스트럽 LPC 잡음 모델, 빠른 정현파 합성법을 제안한다. 음악에서는 비트할당 효율을 높이기위한 LP 적응 피크 분석을 적용한 MLT(Modulated Lapped Transform) 부호화 방법을 제안한다. 제안된 방법을 적용한 4kbps 음성부호화 방법은 전이구간에서의 향상된 모델링 구조를 보여주었으며, 주관적음질 평가 8kbps QCELP 보다 MOS 0.2 정도 향상된 결과를 얻었다.
PDF

Frequency Scaling을 통한 LSP 파라미터 Fitting에 관한 연구 (A Study on the Fitting of LSP(Line Spectrum Pairs) Parameter using Frequency Scaling)

민소연;배명진
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
- /
- pp.801-804
- /
- 2001
LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성 신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다[1]. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 비교 평가한 알고리즘은 첫 번째, 기존의 real root 알고리즘, 두 번째는, LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검객구간의 순서와 검색간격을 달리한 경우, 세 번째는 검색 시 mel scale을 사용한 알고리즘이다. 실험결과, 기존의 real root 방식에 비하여 두 가지 방식 모두가 변환시간의 40% 이상이 감소되는데 반하여 통일한 관을 찾음을 알 수가 있었고, 특히 분포특성을 이용하여 검색순서와 간격조절을 한 경우에 있어서, 기존의 방식보다 40%이상이 감소되었다.
PDF

VHDL을 이용한 MPEG-4 CELP 부호화기의 구현 (Implementation of MPEG-4 CELP Encoder using VHDL)

이시원;김수현;홍민철;차형태
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
- /
- pp.561-564
- /
- 2000
MPEG-4 CELP의 알고리즘은 전송환경에 따라 선택할 수 있는 다양한 전송률을 지원하며 각종 옵션을 추가함으로써 다양한 기능을 부가할 수 있도록 구성되어 있다. 본 논문에서는 MPEG-4 오디오 CELP 부호화기를 VHDL(Very High Speed Intergrated Circuit Hardware Description Language)을 이용하여 구현하였다. MPEG-4 CELP의 부호화 과정을 크게 3부분으로 나누어 LPC 분석부, 코드북 검색부, 비트열 생성부로 나누어 설계하였으며, 내부 메모리의 크기를 줄이기 위하여 중복적인 성격을 갖거나 계산과정에서 나오는 중간 결과 값들을 저장하지 않도록 알고리즘을 최적화하였다. 또 계산 값의 동적 범위(Dynamic Range)가 크거나 정밀도가 요구되는 부분에 대해서는 배밀도(Double Precision) 연산을 사용하여 값의 오차를 줄였다.
PDF

검색결과 88건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)