• 제목/요약/키워드: 음성망

검색결과 877건 처리시간 0.025초

신경망을 이용한 음성인식 시스템

  • 석용호;김기철;한일송;이황수
    • 정보와 통신
    • /
    • 제11권9호
    • /
    • pp.93-107
    • /
    • 1994
  • 본 글에서는 음성인식에 적용된 신경망 구조를 알아본다. 또한 신경망 VLSI와 국내에서 개발된 신경망 VLSI인 URAN에 대해서 살펴보고 URAN을 이용한 음성인식 시스템의 설계에 관해 기술한다. 시뮬레이션을 통해 낮은 정밀도의 입출력 및 연결강도, 선형 출력함수를 가지는 뉴런을 사용하는 신경망 음성인식 시스템의 성능을 분석하고 잡음 환경에서 낮은 정밀도를 사용한 신경망의 성능저하 정도를 검토한다.

  • PDF

신경망 기반의 동적 파라미터들을 이용한 음성 경계 추출 (A Voice Boundary Detection Method Using Dynamic Parameters Based On Neural Network)

  • 마창수;김계영;최형일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.616-618
    • /
    • 2002
  • 본 논문에서는 음성인식 성능을 높이기 위한 기본적 단계인 음성과 비음성 부분의 경계를 추출하는 음성 경계 추출 방법을 제안한다. 음성경계 추출을 위한 특징들로는 시간영역 분할 파라미터인 ZCR, MA를 사용하고 주파수 영역 분할 파라미터로 주파수 대역 파워 에너지 (Frequency band power energy), 포만트 계수 (Formant coefficient)를 사용하였고 각 파라미터들을 이용하여 음성 경계를 결정할 때 경험에 의해 임계치를 결정하는 단점을 보안하기 위해서 신경망을 이용한다. 신경망의 가중치와 임계치들은 지도 학습을 통해 최적화 되고, 학습을 통해 구성된 망을 음성과 비음성의 경계치 구분에 사용한다.

  • PDF

ATM기반 MPLS 기술을 이용한 음성서비스 제공 구조 연구 (A Study of Voice Service Architecture Using MPLS Technology Based on ATM)

  • 윤현식;양선희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1301-1304
    • /
    • 2002
  • 통신 환경이 변하면서, 기존의 서비스에 따라 크게 음성망과 패킷망으로 구분되던 망 구조가 하나의 통합된 망에서 모든 서비스를 제공하는 구조로 진화하고 있다. 그리고, 이러한 서비스를 가능하게 하는 기술로서 VoIP(Voice over IP)가 최근까지도 계속 각광받고 있다. 그러나, 많은 노력에도 불구하고, 음성서비스와 같은 실시간 서비스의 엄격한 품질 요구조건을 보장하는 문제 때문에 VoIP 기술의 실제 적용이 지연되고 있다. 이에 본 논문에서는 통합망의 패킷 전달망을 ACE2000 MPLS 시스템 기반의 MPLS 망으로 구축함으로써 음성서비스의 품질을 보장하는 망 구조를 제시하고자 한다. 아울러 TE Server를 이용해서, 음성호를 전달하는 ER-LSP(Explicit Routed Label Switched Path)를 설정하는 호 설정 절차를 제시하였다.

  • PDF

전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리 (Noise Reduction for Korean Connected Digit Recognition through Telephone Channel)

  • 김규홍;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF

전화음성인식을 위한 멀티채널 음성인식 시스템 구현 (Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech)

  • 이승훈;서영주;강동규
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.

  • PDF

패킷 음성 기술의 연구개발 동향 (Survey on Packetized Voice Technology)

  • 양선희;정태수
    • 전자통신동향분석
    • /
    • 제13권3호통권51호
    • /
    • pp.27-41
    • /
    • 1998
  • 본 고에서는 최근 들어 멀티서비스 통합망 솔루션으로 많은 관심을 끌고 있는 패킷 음성 기술에 대해 조사 분석한 내용을 기술한다. 패킷 음성 기술은 데이터 서비스 위주의 패킷망에 음성 트래픽을 통합하여 전달해 줌으로써 가입자 관점에서는 저가에 음성 서비스를 제공받게 되고, 망사업자 입장에서는 망 구축운용 비용의 절감과 망자원 사용 효율의 개선, 서비스 제공 능력의 강화에 의한 경쟁력 확보를 보장해 준다. 멀티서비스 통합 통신망의 구축은 초기에는 주로 업무용 가입자들을 주요 대상으로 WAN/LAN 도메인에서 진행이 되고, 이후 일반 가입자들을 대상으로 공중망으로 확산될 것으로 예상된다. 패킷 음성 기술의 기술적 대안으로는 인터넷을 통한 Voice over Internet (VoIP) 기술과 ATM 망을 통한 Voice and Telephony over ATM (VTOA) 기술 및 프레임 릴레이 망을 이용하는 Voice over Frame Relay (VoFR) 기술이 많은 관심을 끌고 있으며, 표준규격의 추진과 시스템 개발이 활발히 진행되고 있는 상태이다.

음성 인식 신경망을 위한 음성 파라키터들의 성능 비교 (A Comparative Study of Speech Parameters for Speech Recognition Neural Network)

  • 김기석;임은진;황희융
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.61-66
    • /
    • 1992
  • 음성 인식에 신경망 모델을 적용하는 많은 연구들이 있었지만, 주된 관심은 음성인식에 적합한 구조와 학습 방법이었다. 그러나 음성인식에 신경망 모델을 적용한 시스템의 효율 향상은 모델 자체의 구조뿐 아니라, 신경망 모델의 입력으로 어떤 음성 파라미터를 사용하는가에 따라서도 큰 영향을 받는다. 본 논문은 기존 음성인식에 신경망 모델을 적용한 많은 연구들에서 사용한 음성 파라미터를 살펴보고, 대표적인 음성 파라미터 6개를 선정하여, 같은 데이타와 같은 신경망 모델 하에서 어떻게 성능이 달라지는지를 분석한다. 인식 실험에 있어서는 한국어 파열음 9개에 대한 8개 데이터 집합과 모음 8개에 대한 18개 데이터 집합을 음성 파라미터로 하고 신경망 모델은 순환 신경망 모델을 사용하여 노드의 수를 일정하게 한뒤 다양한 입력 파라미터의 성능을 비교하였다. 그 결과 선형 예측 계수로부터 얻어진 delta cepstrum의 음성 파라미터가 가장 좋은 성능을 보였으며 이때 인식률은 같은 학습 데이터에 대해 파열음 100.0%, 모음 95.1%이었다.

  • PDF

개방망 서비스의 종류-음성급 개방망 서비스 (Open Network Services-Voice Grade)

  • 박기홍;강성준
    • 전자통신동향분석
    • /
    • 제8권2호
    • /
    • pp.108-124
    • /
    • 1993
  • 개방망은 망 접속을 표준화하여 망을 접근하도록 하는 technical interface의 공개측면과 망이 가지고 있는 망서비스를 공개하여 사용자로 하여금 선택적으로 이용할 수 있게 해주는 망서비스 공개 측면을 모두 고려하여 망구조를 실현해야 한다. 통신망은 망의 서비스 유형 및 일반적인 기능에 따라 음성급 전화망, 데이터망, 전용선망, 이동통신망 및 위성망으로 구분할 수 있으며, 이에 대한 망 접속은 각 망별로 또한 분류될 수 있다. 망서비스는 기술의 발전과 망진화에 따른 기술적인 요인, 고도통신 사업의 다양화에 다른 사업자 요구에 의한 요인, 그리고 시장수요 요인에 의해 계속 발전.진화되어지는 동적인 것이다. 개방망구조는 망서비스와 기술적인 접속을 주요 내용으로 하고 있기 때문에 이것도 역시 계속 진화되는 것으로 해석해야 한다. 본고에서는 개방망의 서비스 측면에서 해당교환 시스팀이나 전송시스팀이 제공가능한 서비스들로서 개방망구조의 서비스메뉴로 표현할 수 있는 것들을 각 망에 대해 자세히 파악하고자 한다. 이번 호에서는 그 첫번째 내용으로서 음성급 전화망에서 개방망서비스로서 국내 교환시스팀과 미국의 ONA 일환으로 BOC가 제공 가능한 것들을 소개한다. 음성급개방망서비스(Voice Grade Open Network Service)는 크게 가입자선측과 중계선측으로 분류 가능하다. 각 분류후에 1) 국내에서 제공가능한 서비스, 2) 여러 BOC가 공통적으로 보유한 서비스, 3) 특정 BOC가 보유한 서비스로 분류 정리하였다.

강화학습 기반의 음성향상기법 (Speech enhancement based on reinforcement learning)

  • 박태준;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.335-337
    • /
    • 2018
  • 음성향상기법은 음성에 포함된 잡음이나 잔향을 제거하는 기술로써 마이크로폰으로 입력된 음성신호는 잡음이나 잔향에 의해 왜곡되어지므로 음성인식, 음성통신 등의 음성신호처리 기술의 핵심 기술이다. 이전에는 음성신호와 잡음신호 사이의 통계적 정보를 이용하는 통계모델 기반의 음성향상기법이 주로 사용되었으나 통계 모델 기반의 음성향상기술은 정상 잡음 환경과는 달리 비정상 잡음 환경에서 성능이 크게 저하되는 문제점을 가지고 있었다. 최근 머신러닝 기법인 심화신경망 (DNN, deep neural network)이 도입되어 음성 향상 기법에서 우수한 성능을 내고 있다. 심화신경망을 이용한 음성 향상 기법은 다수의 은닉 층과 은닉 노드들을 통하여 잡음이 존재하는 음성 신호와 잡음이 존재하지 않는 깨끗한 음성 신호 사이의 비선형적인 관계를 잘 모델링하였다. 이러한 심화신경망 기반의 음성향상기법을 향상 시킬 수 있는 방법 중 하나인 강화학습을 적용하여 기존 심화신경망 대비 성능을 향상시켰다. 강화학습이란 대표적으로 구글의 알파고에 적용된 기술로써 특정 state에서 최고의 reward를 받기 위해 어떠한 policy를 통한 action을 취해서 다음 state로 나아갈지를 매우 많은 경우에 대해 학습을 통해 최적의 action을 선택할 수 있도록 학습하는 방법을 말한다. 본 논문에서는 composite measure를 기반으로 reward를 설계하여 기존 PESQ (Perceptual Evaluation of Speech Quality) 기반의 reward를 설계한 기술 대비 음성인식 성능을 높였다.

컴퓨터 네트워크 망에서 음성/데이터 통합 서데스를 위한 네트워크 망 설계 (Design of Network Topology for voice/data integrated Services to Computer Network)

  • 엄기복;조경룡;여현
    • 한국전자파학회:학술대회논문집
    • /
    • 한국전자파학회 2000년도 종합학술발표회 논문집 Vol.10 No.1
    • /
    • pp.20-24
    • /
    • 2000
  • VoIP는 Packet Netwark(ATM, xDSL, Frame Relay, Cable Network)망을 이용하여 음성데이터를 전송 하는 기술로서 PSTN을 통해 음성데이터를 전송하는 것보다 비용절감의 효과가 크다. 본 연구에서는 최적의 VoIP 서비스 제공을 위한 음성/데이터 통합 네트워크 망을 설계하기 위하여 IP와 ATM을 이용한 서로 다른 2개의 망을 설계하여 지연과 Routing 정책, Traffic 추가 후 지연현상에 대하여 살펴보았다. 지연은 순수한 VoIP 망을 구성 할 경우 8-10ms. VoIP+ATM으로 망을 구성 할 경우 2ms로 나타났고, 라우팅 정책(RIP, IGRP, OSPF 적용)에서는 IP 또는 IP+ATM으로 망을 구성 할 경우 RIP는 25ms, IGRP는 22ms로 나타났고, OSPF를 이용할 경우 14ms로 평가되어 OSPF를 이용한 라우팅 정책을 설정하는 것이 바람직하다고 볼 수 있다. 결론적으로 본 연구의 결과 VoIP망을 구성 할 경우 IP+ATM을 기반으로 구축하면 보다 더 효과적인 인터넷 망을 구성할 수 있음을 확인하였다.

  • PDF