• Title/Summary/Keyword: 음성처리

Search Result 2,061, Processing Time 0.028 seconds

Design for Crowd Noise Reduction System Using DSI and Spectral Subtraction (DSI와 스펙트럼 차감법을 이용한 군중잡음 감쇄기의 설계)

  • Ahn, Yong-Woon;Kim, Sang-Chul;Kim, Joong-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.703-706
    • /
    • 2002
  • 군중잡음(crowd noise)이 발생하는 환경에서 음성 통화 및 화자 인식을 할 때에는 음성에 파열음이나 마찰음과 같은 유색잡음(colored noise)이 부가되어 원래 음성이 왜곡된다. 이와 같이 왜곡된 음성 신호를 처리할 때에는 군중잡음을 제거하는 과정이 반드시 필요하다. 본 논문에서는 전형적인 군중잡음의 모델인 쇼핑 센터 잡음을 분석하고, 그 결과를 이용하여 음성 신호처리시에 효과적으로 군중잡음만을 제거할 수 있는 모델을 제안한다. 제안된 모델은 시간 영역에서 마찰음과 파열음을 제거하고. DSI(Digital Speech Interpolation)를 이용하여 침묵 구간을 검출한다. 이때 주파수 영역에서는 이 침묵구간을 잡음으로 간주하여 이를 이용한 스펙트럼 차감법(spectral subtraction)으로 음성 신호에 부가된 군중 잡음을 제거하는 과정을 거친다.

  • PDF

Voice Recognition Speech Correction Application Using Big Data Analysis (빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션)

  • Kim, Han-Kyeol;Kim, Do-Woo;Lim, Sae-Myung;Hong, Du-Pyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.533-535
    • /
    • 2019
  • 최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.

Speech Recognition Method under Noisy Environments using Time-Delay Neural Network (시간지연신경회로망을 사용한 잡음 중의 음성인식 수법)

  • Choi, Jae Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.711-714
    • /
    • 2009
  • 잡음환경 하의 회화에서 잡음량을 줄이고 신호처리 시스템의 성능을 향상시키기 위해서는 잡음량에 따라서 적응적으로 처리되는 신호처리 시스템이 필요하다. 또한 잡음이 중첩된 음성으로부터 잡음을 제거하기 위해서는 잡음의 크기에 따라서 음성 처리 시스템의 파라미터를 변경하는 것이 양호한 음질의 음성을 재생하는데 바람직하다. 따라서 본 논문에서는 음성 속에 포함되는 잡음량을 인식하는 방법으로 선형예측계수를 구하여 시간지연신경회로망(Time-delay neural network: TDNN)의 입력으로 사용하여 학습시키는 잡음량을 인식하는 방법을 제안한다. 본 잡음량 인식은 다양한 배경잡음에 의하여 열화된 3종류의 음성이 TDNN에 의하여 학습되어진다. 본 실험에서는 Aurora2 데이터베이스를 사용하여 여러 잡음에 대하여 양호한 인식결과를 확인할 수 있었다.

  • PDF

A Development of an URL Navigator using Speech Recognition (음성인식을 이용한 URL Navigator 개발)

  • Jeon, Han-Gil;Hong, In-Suk;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.122-125
    • /
    • 2009
  • 기존의 인터넷 익스플로러는 높은 보급률의 이점을 지니고 있지만 인터넷을 이용하기 위한 기본지식의 필요성과 키보드, 마우스와 같은 장치를 이용한 입력방식은 장애인 및 고령층의 사용자들이 이용하기에는 불편하다. 이와 같은 문제점을 해결하고자 본 논문에서는 웹 서비스 기술을 이용하여 기존의 음성인식 시스템을 웹 서비스로 재구성하고 클라이언트가 음성인식 웹 서비스를 요청하고 음성명령이 가능하도록 인터넷 익스플로러에 음성명령이 가능한 Navigaotr를 Toolbar 형태의 프로그램을 구현하였다. 본 시스템은 클라이언트가 사용하는 음성 Navigator Toolbar와 웹 서비스를 통해서 음성 서비스를 제공하는 음성 서비스 프로바이더로 구성된다. 음성 Navigator Toolbar는 인터넷 환경에서 음성데이터를 바이너리 포맷형식인 DIME을 이용하여 음성 서비스 프로바이더로 전송하고 반환 결과를 가지고 URL Navigator를 통해 인터넷 페이지를 이동시킨다. 음성 서비스 프로바이더는 사용자가 전송한 음성데이터를 인식기를 통해 인식하고 결과를 가지고 정보 Database를 검색하여 실제 인터넷 주소를 사용자에게 반환한다.

음성정보처리 기술 개발 현황 및 전방

  • 김회린
    • Korea Information Processing Society Review
    • /
    • v.11 no.2
    • /
    • pp.25-32
    • /
    • 2004
  • 미국 MIT의 기술혁신 잡지인 테크놀로지 리뷰(Technology Review)는 2004년 2월호에서 미래를 변화시킬 10대 기술(10 emerging technologies that will change your world) 중 그 첫 번째로 만국어 번역 (Universal Translation)을 선정하였다. 만국어 번역은 통역자가 중간에서 어떤 음성언어를 상대방 언어로 즉시 통역해 주는 일을 컴퓨터가 자동으로 처리해 주는 것이다. 이 기술이 상용화되면 그 사회적 파급효과가 실로 지대한 꿈같은 기술로서이 기술의 핵심에는 음성정보처리 기술 및 언어정보처리 기술이 자리 잡고 있다.(중략)

  • PDF

Voice XML

  • Gang, Seon-Mi;Jeong, Tae-Ui
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • s.6
    • /
    • pp.68-81
    • /
    • 2001
  • 현재 진행되고 있는 XML 응용분야의 표준은 각 분야별로 구체적으로 진행되고 있으며 이러한 시점에서 AT&T, 루슨트 테크놀로지스, 모토롤러 등 3사는 전화와 인터넷 서버와의 연동을 음성 처리 기술을 바탕으로 하여 기존 인터넷의 다양한 정보를 검색 처리할 수 있는 VXML(Voice Extensible Markup Language)이라는 인터넷 음성처리 표준안을 마련하고 있다.

  • PDF

The Real-time Monitoring for SIP-based VoIP Network (SIP 기반 음성 통신 환경에서의 실시간 모니터링 플랫폼 개발)

  • Woo, Ho-Jin;Lee, Won-Suk
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.05a
    • /
    • pp.365-368
    • /
    • 2009
  • 고속 인터넷 망 구축과 멀티미디어 통신 수요의 증가에 따라 VoIP는 기존의 PSTN 망의 대체 혹은 확장 기술로서 지속적으로 검증되어 왔다. 음성 데이터 처리 규약들 중 SIP는 다른 규약에 비해 신호 처리 단계가 간단하기 때문에 이를 기반으로 RTP를 활용하여 음성 통신 시스템을 구축하는 사례가 늘어나고 있다. 그러나 RTP의 특성상 패킷을 처리할 때마다 복원 과정이 필요하며, 다중 세션으로 통신이 발생할 경우 전체 패킷들의 관리가 복잡해지므로 이들 간에 혼선 없이 데이터를 처리 및 유지할 수 있는 방법론이 요구된다. 본 논문에서는 SIP 기반의 IP 전화를 통해서 고객과 상담원 간의 통화 이벤트가 발생하는 일반 콜센터 환경에서 RTP 음성 데이터를 처리하는 다중 세션 어플리케이션의 구축 사례를 제시한다. 구현한 시스템은 IP 전화에서 발생하는 통화 내역을 통합 스위치 서버에서 포트 미러링하여 녹취 및 녹음 서버로 전송하며, 전송된 패킷 정보들의 세션이 유지되고 있는 동안 음성 데이터를 실시간으로 모니터링한다.

  • PDF

Implementation of Bluetooth-VoIP Integration System Based Embedded Linux (RTOS 리눅스 환경에서의 Bluetooth-VoIP 통합 시스템 구현)

  • Yun, Jung-Mee;Cho, We-Duke;Kim, Dae-Hwan;Lee, Sang-Hak;Kim, Yong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1371-1374
    • /
    • 2002
  • 본 논문에서는 내장형 리눅스를 기반으로 무선 네트웍과 실시간 음성처리 VoIP 와의 연동시스템을 설계 구현한다. 설계 구현하는 시스템의 하드웨어 스펙은 Motorola-XPC860 프로세서를 기반으로 설계되었으며, 음성 코덱칩을 사용하여 실시간으로 음성데이터를 처리하도록 설계하였다. 또한 2.4GHz 무선 통신 규약인 Bluetooth 를 무선 네트웍 인터페이스로 사용하였다. 실시간 음성데이터의 효과적인 처리를 위하여 실시간 운영 체제인 RTLinux 를 사용하였으며, 무선 네트워크의 동시다중 서비스 지원을 위해 커널레벨의 문자 디바이스 형태로의 Bluetooth 인터페이스 구현에 대해 살펴보도록 하겠다.

  • PDF

A Robust Speech/Non-Speech Decision Using Voiced Characteristics of Speech (음성의 유성음 특성을 이용한 음성/비음성 판별 방법)

  • Lee, Sung-Joo;Jung, Ho-Young;Lee, Yun-Keun;Kim, Hyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.411-412
    • /
    • 2007
  • 자동음성인식 시스템을 이용하는 사용자 입장에서 보면 음성인식시스템을 사용하기 위하여 음성을 입력할 때마다 버튼을 눌러야 하는 Push-To-Talk (PTT) 방식은 여간 번거로운 일이 아닐 수 없다. 그리고 사용자가 원거리에서 음성을 입력하는 경우처럼 PTT 방식 자체가 용이하지 못 한 음성인식 응용분야에서는 Non-Push-To-Talk (NON-PTT) 방식의 필요성이 대두되게 된다. NON-PTT 방식의 음성 전처리를 위해서는 입력신호로부터 음성신호만을 구분해내는 음성판별기술이 필수적이다. 하지만 일상적인 잡음환경에서 음성신호만을 구분해내는 일은 매우 어려운 일이 아닐 수 없다. 본 논문에서는 일상적인 가정잡음환경에 강인한 음성판별방식을 제안한다. 여기서는 음성판별을 위해서 음성의 유성음 특성을 이용하였다. 즉, 일정구간 이상의 음성신호에는 일정구간이상의 유성음 구간이 존재하며 만약 잡음환경에서도 유성음 구간을 잘 검출할 수 있다면 이러한 음성의 특성을 이용하여 검출된 신호가 음성인지 아닌지를 판별할 수 있다. 이를 위하여 여기서는 가정잡음환경에서도 유성음을 잘 검출할 수 있도록 11 가지 유성음 특징들과 이를 이용한 음성판별방법을 제안하였다. 제안된 방법의 성능 평가를 위하여 음성의 끝점검출방법과 통합하여 음성/비음성 판별 테스트를 수행하였으며 테스트 수행결과 열악한 잡음환경에서 80%이상의 비음성을 거절하는 성능을 보였다.

Parallel Speech Recognition on Distributed Memory Multiprocessors (분산 메모리 다중 프로세서 상에서의 병렬 음성인식)

  • 윤지현;홍성태;정상화;김형순
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.747-749
    • /
    • 1998
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬 계산 모델을 제안한다. 음소모델은 continuous HMM에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 knowledge-based approach를 사용한다. 또한 계층구조의 지식베이스상에서 다수의 가설을 처리하기 위해 memory-based parsing기술을 사용하였다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험을 통하여 음성인식 과정에서 발생하는 speech-specific problem의 해를 제공하고 음성인식 시스템의 병렬화를 통하여 실시간 음성인식의 가능성을 보여준다.

  • PDF