Search | Korea Science

음성인식기술의 현황과 전망

Lee, Jong-Rak
- Annual Conference on Human and Language Technology
- /
- 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
- /
- pp.689-707
- /
- 1992
인간의 가장 익숙한 정보교환 수단인 음성을 기계가 인식하게 함으로써 모든 기계를 말로써 작동시키고자 하는 것은 인간의 오랜 꿈이었다. 최근 컴퓨터 기술과 음성처리 기술의 급속한 발달에 힘입어 그 꿈은 현실로 다가오고 있다. 현재 고립어 인식은 충분히 실용화될 수 있는 단계에 들어 섰으며 이제 연속어 인식 내지 연속어 이해에 연구가 집중되고 있다. 인간과 기계를 인터페이스하는 언어의 전위레벨로서 날로 그 중요성이 부각되고 있는 음성인식 기술의 현황을 살펴보고 그것의 미래를 전망해 본다.
PDF

Speech Coding Algorithms for Mobile Communication (이동통신을 위한 음성 부호화 방식)

이황수
- Proceedings of the Acoustical Society of Korea Conference
- /
- 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
- /
- pp.3-11
- /
- 1998
정보통신 문화가 발달함에 따라 디지털 이동통신이나, 멀티미디어, 음성우편 시스템 등 음성을 이용한 여러 가지 새로운 산업들이 급속히 성장하고 있다. 이 중에서도 특히 디지털 이동통신분야에 대한 연구가 활발한데, 이는 디지털 시스템에서는 부호화기를 사용하여 음성신호를 압축하기 때문에 아날로그 시스템에 비해 패널 증대를 가져올 수 있기 때문이다. 이처럼 음성 부호화기는 실질적인 상업화와 매우 밀접한 관계를 갖고 있기 때문에 그에 대한 연구가 화발히 진행되고 있다. 본 논문에서는 먼저 일반적인 음성부호화 방법들에 대해 살펴본 다음에, 현재 디지털 셀룰라 시스템에서 사용하고 있는 full-rate 음성 부호화기 및 half-rate 음성 부호화기의 표준화 동향과 최근에 여러 응용분야에서 널리 사용되고 있는 음성 부호화기에 대해서 설명하기로 한다. 또한 ITU-T 의 표준화 동향 및 4kbps 이하의 전송률을 갖는 음성 부호화기의 연구추세에 대해서 살펴보기로 한다.
PDF

Intelligent Classification and Context Analysis System of Voice Data (음성 데이터의 지능적 분류 및 컨텍스트 분석 시스템 구현)

Choi, HyeonSeok;Joo, SungHwan;Kim, DaeCheon;Park, YeChan;Yeom, Sanggil;Choo, HyeonSeung
- Proceedings of the Korea Information Processing Society Conference
- /
- 한국정보처리학회 2016년도 추계학술발표대회
- /
- pp.162-163
- /
- 2016
사람은 의사소통을 위해 음성, 글자, 몸짓 등 다양한 매개체를 활용한다. 오늘날 스마트폰의 발달로 문자의 비중이 높아지고 있지만 음성 대화는 여전히 사람들 사이에서 가장 많이 사용되어지는 의사소통 수단이다. 음성 대화는 녹음해서 음성 데이터로 남길 수 있다. 음성을 녹음하는 과정은 간편하지만 녹음파일에서 원하는 데이터를 찾는 것은 많은 시간이 소모된다. 본 논문에서는 음성 데이터를 인식하여 텍스트화 시키고 문자화 된 데이터를 분석하여 사용자에게 효율적으로 분류하는 시스템을 제안한다. 이 시스템으로 사용자는 음성 데이터의 내용을 들어보지 않고 파악할 수 있으며 원하는 내용을 찾을 수도 있다.
https://doi.org/10.3745/PKIPS.y2016m10a.162 인용 PDF

Discriminative Feature Selection for G.723-based Speech Recognition (G.723기반의 음성인식을 위한 변별적인 음성 특징 벡터 선정)

이규환;정민화
- Proceedings of the Korean Information Science Society Conference
- /
- 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
- /
- pp.387-389
- /
- 2000
정보 통신 분야의 발달로 사람들의 전화 사용이 늘어나고 또한 전화기에 여러 가지 멀티미디어 기능들이 추가되면서 음성 인식의 필요성이 점차 증가하고 있다. 그러나 현재의 기술로는 음성 인식의 성능이 사람들의 기대치를 만족시키지 못하고 있다. 본 연구에서는 G.723을 이용한 네트워크 상에서 음성 인식 시간을 줄이고 같은 차수에서 더 좋은 음성 인식 성능을 얻을 수 있는 방법에 대해 연구하였다. 일반적인 보코더는 채널을 통과시킬 때 왜곡을 최소화 하기 위해 양지화할 때 안정적이라고 알려져 있는 LSP 파라메터를 양자화하여 전송한다. 전송된 양자화된 LSP 파라메터는 복호화기를 통과하게 되는데 본 연구에서는 양자화된 LSP 파라메터를 음성인식에 직접 이용하여 음성 합성한 후 음성 특징 파라메터를 추출하는 시간을 줄일 수 있고 음성 합성시 왜곡을 미연에 방지할 수 있다. 본 연구에서는 변별적인 기준에 의해 특징 벡터 요소들을 순서화를 이용하여 음성 특징 벡터의 차수를 동적으로 조절할 수 있는 방법을 G.723에 적용시켜 보았다. 순서화 된 음성 특징 요소들 중에서 인식 목적에 적절한 차수를 선정하며 차수를 줄이면서도 음성인식 성능은 유지 또는 향상시킬 수 있음을 확인하였다. 특히 네트워크 통신망에서도 음성인식 성능을 향상시킬 수 있음을 확인하였고, 기존의 합성음에서 음성인식을 하는 방법보다 시간도 크게 단축할 수 있었다.
PDF

The ages and stages questionnaire: screening for developmental delay in the setting of a pediatric outpatient clinic (ASQ :소아과외래에서의 발달지연 선별검사)

Kim, Eun Young;Sung, In Kyung
- Clinical and Experimental Pediatrics
- /
- 제50권11호
- /
- pp.1061-1066
- /
- 2007
Purpose : Early identification of developmental disabilities allows intervention at the earliest possible point to improve the developmental potential. The Ages and Stages Questionnaire (ASQ), a parent- completed questionnaire, can be used as a substitute for formal screening tests. The purpose of this study was to evaluate the validity of the Korean version of the ASQ (K-ASQ) as a screening tool for detecting developmental delay of young Korean children in the setting of a busy pediatric outpatient clinic. Methods : Parents completed the K-ASQ in the waiting room of the pediatric outpatient clinic of St. Mary's Hospital, Catholic University Medical College. Out of 150 completed the ASQ, 67 who were born term and had no previous diagnosis of developmental delay, congenital anomalies, or neurological abnormalities were enrolled. The cut-off values of less than 2 standard deviations (SD) below the mean for the ASQ were used to define a "fail", and children who failed in one or more domains tested were classified as "screen-positive". Diagnosis of developmental delay was made when the developmental indices fell below -1 SD of the Bayley Scales of Infant Development-II. Results : (1) The mean age of children was $16.4{\pm}7.4$ months. Ten children (14.9%) were small-for- gestational age infants. The mean birth weight and gestational age were $3.1{\pm}0.6kg$ and $38.8{\pm}1.4$ weeks. Nine children (13.4%) were twins and 33 (49.0%) were male. The mean maternal education in years was $13.6{\pm}2.4$, and 31.3% had full-time jobs. The time for completing the ASQ was $10.2{\pm}3.0$ minutes. (2) Seventeen children (25.4%) were classified as screen-positive, four of them were delayed in development. Among eight children diagnosed with developmental delay, four were screen-positive and the other four were screen-negative by the ASQ. (3) The test characteristics of the ASQ were as follows: sensitivity (50.0%); specificity (78.0%); positive predictive value (23.5%); negative predictive value (92.0%). Conclusion : The high negative predictive value of the K-ASQ supports its use as a screening tool for developmental delay in the setting of a pediatric outpatient clinic.
PDF KSCI

A Speaker Dependent Speech Recognition Method Using LSP Parameters for Small Training Data (적은 훈련 데이터를 이용한 LSP 파라메터 기반의 화자종속 음성인식에 관한 연구)

곽수주
- Proceedings of the Acoustical Society of Korea Conference
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
- /
- pp.373-376
- /
- 1998
통신 수단의 발달로 휴대단말기의 사용이 증가하고 있으며, 이와 함께 휴대단말기에서의 음성인식에 대한 수요도 증가하고 있다. 휴대단말기의 경우 저 전송율을 가지는 음성 부호화기를 사용하게 되며, 이러한 저전송율의 음성 부호화기에서의 음성인식을 수행할 경우 인식 성능이 저하되는 현상을 보이게 된다. 본 논문에서는 이러한 문제를 해결하기 위하여 LSP 파라메터 기반의 거리척도에 관하여 비교 검토하였으며, 적은 훈련 데이터에서 사용 가능한 화자 종속 음성인식 방법으로 Dynamic Time Warping(DTW)과 변형된 Hidden Markov Model(HMM)에 관하여 검토하였다. QCELP 음성 부호화기에서 인식 어휘 당 2번의 훈련 데이터만을 이용한 화자종속 인식방법을 사용한 결과 95% 이상의 인식 성능을 얻을 수 있었다.
PDF

Clinical Characteristics of Intracordal Cysts (성대낭종에 대한 임상적 고찰)

홍기환;박병암;정우철
- Proceedings of the KSLP Conference
- /
- 대한음성언어의학회 1996년도 제6회 학술대회 심포지움
- /
- pp.81-81
- /
- 1996
성대낭종은 후두미세수술의 발달로 보다 정확한 진단 및 치료가 가능하므로서 관심도가 증가하고 있다. 성대 낭종은 낭종의 내용물 및 점막상태에 따라 저류성 낭종과 유표피성 낭종으로 분류하고 있는데, 저류성 낭종은 점액 분비선의 폐쇄로 점액이 저류되어 발생하며 유표피 낭종은 선천성으로 상피하층에 파묻힌 상피세포의 잔여물이거나 혹은 파묻힌 상피세포 위에 외상(음성남용)으로 손상된 점막이 재생하는 과정에서 발생한다는 설이 있다. (중략)
PDF

A Study on HTMLtoVoiceXML Converter (HTMLtoVoiceXML 변환기에 관한 연구)

최훈일;장영건
- Proceedings of the Korean Information Science Society Conference
- /
- 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
- /
- pp.373-375
- /
- 2001
음성 기술의 발달과 VoiceXML 1.0의 제정으로 인해 표준화된 방식으로 이동 단말기와 전화를 통해 음성으로 웹 컨텐츠에 접근할 수 있게 되였다. 거의 모든 웹 컨텐츠들은 HTML로 작성되어 있으며, 기존의 HTML로 작성된 수많은 웹 컨텐츠에 음성으로 접근하기 위해서는 HTML 문서들을 VoiceXML 문서로 변환하여야 한다. 이를 수동으로 변환하기 위해서는 많은 시간과 비용이 필요하게 된다. 본 논문에서는 이 문제를 해결하기 위해여 HTML 문서률 VoiceXML 문서로 자동 변환하는 HTMLtoVoiceXML변환기의 설계 방안을 제시하였다.
PDF

Trends of Codec Technology for 4G Mobile Enhanced Voice Service (4G 모바일 증감음성 서비스를 위한 코덱 기술 동향)

Lee, M.S.;Kim, D.Y.;Lee, B.S.
- Electronics and Telecommunications Trends
- /
- 제25권6호
- /
- pp.29-37
- /
- 2010
본 논문에서는 무선망과 신호처리 기술의 발달과 1GHz급 이상의 고성능 모바일 장치의 등장에 따라 현재의 모바일 음성 서비스 품질과 확연히 차별화된 서비스를 제공하기 위해 3GPP에서 논의중인 EVS 코덱의 기술적 특성 및 최간 표준화 동향에 대해 기술한다. 3GPP에서는 지난 3월, 2년간의 논의를 거쳐 4G 모바일과 같은 EPS 시스템에서 차별화된 새로운 증감음성 품질의 서비스 제공이 필수적이라는 판단 하에 EVS 코덱 표준의 개발을 시작하였다. 현재 EVS 코덱 표준화를 위해 세부적인 가능과 성능 목표에 대해 협의를 진행중이며 표준의 완료 계획시점인 2012년 상반기경, 4G/LTE에서는 광대역 수준의 음성서비스에 비해 신호대역폭이 2배가 확장된 슈퍼와이드밴드급의 증감음성 서비스가 제공될 것으로 전망한다.
https://doi.org/10.22648/ETRI.2010.J.250604 인용 PDF

A Study on the Architecture and Learning of the Artificial Neural Networks for Prosody Generation of Korean Sentence (한국어 운율 발생용 인공신경망의 구조 및 학습에 관한 연구)

Min Kyung-Joong;Lim Un-Cheon
- Proceedings of the Acoustical Society of Korea Conference
- /
- 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
- /
- pp.135-138
- /
- 2004
음성처리기술은 정보화 시대를 위한 주요 기술의 하나이다. 이 중에서도 음성합성의 연구는 디지털 신호처리 기술과 컴퓨터의 발달로 활발히 진행되고 있다. 그러나 음성 합성기에 의해 발생된 합성음의 음질은 이해도 면에서는 상당한 진전이 있었지만, 자연감 면에서는 만족한 수준에 도달할 수 없었는데, 이러한 합성시스템의 문제점을 해결하는 방법은 다양하게 적용되는 언어정보와 합성음의 자연감을 결정하는 정확한 운율정보가 필요하다. 그러나 구한 운율 정보가 자연음에 존재하는 모든 운율 법칙을 포함할 수 없고, 또한 추출한 운율 법칙이 틀린 것이면 자연감이나 이해도가 떨어지는 합성음이 만들어지고 이것은 음성 합성 시스템의 실용화에 장애로 작용할 것이다. 본 논문은 한국어 음성 합성 시 문제가 되는 자연감을 높이기 위한 한 방법으로 자연음에 내재하는 운율 변화를 효율적으로 학습할 수 있는 인공 신경망을 제안하였다.
PDF

검색결과 297건 처리시간 0.031초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)