• 제목/요약/키워드: Voice broadcast

검색결과 57건 처리시간 0.024초

The Advanced Digital Special Images and Technology

  • Nakajima, Masayuki
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1996년도 Proceedings International Workshop on New Video Media Technology
    • /
    • pp.50-55
    • /
    • 1996
  • Multimedia boom has happened worldwide these days. In multimedia, we use several kinds of media such as character, figure, voice, music, still images, moving picture etc.. Then I think image including moving picture is the most effective and important media for human being. Creating digital images using a computer has the following two main approaches, depending on how the computer is used. 1. CG Technology. Created images, produced through computer graphics. 2. Digital Image Processing. Images processed through digital image processing technologies. Approach (1) is very popular as Computer Graphics. Two-dimensional and three-dimensional computer graphics techniques are used over wide applications today. On the other hand, Approach (2), which uses digital image processing technology, has been attracting attention lately, in the filed of movies and television. In this report, I will introduce these approaches of CG and digital image processing, and show some application fields such as current movies.

  • PDF

음성제어 PC를 위한 음향 반향 제거기의 구현 (Implementation of the Acoustic Echo Canceller for a Voice-controlled PC)

  • 한철희;이혁재;윤대희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.103-106
    • /
    • 1998
  • 본 논문에서는 전이중(full duplex)으로 동작하는 멀티미디어 PC의 음성 명령어 인식기의 성능 향상을 위한 적응 음향 반향 제거기를 구현하였다. 최근 들어 일고 있는 인간과 컴퓨터의 인터페이스를 쉽고 친밀하게 하려는 노력은 음성으로 제어하는 컴퓨터의 탄생을 예고하고 있다. 이러한 시스템을 전이중 모드에서 사용할 경우 음향 반향은 피할 수 없는 현상이다. 본 논문에서는 이러한 음향 반향을 제거하기 위해서 서브밴드 적응 필터 구조를 이용하여 실시간 처리가 가능한 음향 반향 제거기를 설계하였다. 또한, 동시통화시 음성의 왜곡을 줄이는 스위칭 구조를 사용하였다. 동시통화의 검출은 상호상관도를 이용하여 구현하였다. 이렇게 구현된 반향제거기를 음향 입출력 루틴과 음성 인식기와 결합하여 Windows 95상에서 실시간으로 동작하는 음성 명령어 인식 소프트웨어를 완성하였다. 모의 실험 및 실시간 실험을 통하여 반향 제거기의 성능을 검증하였고, 음성인식 실험을 수행하여 반향 제거기가 인식율 향상에 기여함을 확인하였다.

  • PDF

RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구 (A study on pitch detection for RUI emotion classification based on voice)

  • 변성우;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

Three Dimensional Networked Virtual Reailty Architecture Enabling Flexible Configuration Based on Function Distribution

  • Yasuyuki-KIYOSUE;Shohei-SUGAWARA;Shigeki-MASAKI;Susumu-ICHINOSE
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 KOBA 방송기술 워크샵 KOBA Broadcasting Technology Workshop
    • /
    • pp.23.1-28
    • /
    • 1999
  • InterSpaceTM is an advanced networked virtual reality system that presents shared three-dimensional computer graphics (CG) worlds via the Internet where multiple users can enjoy synchronous communications with voice, video and text. Users can control their avatars as a surrogate interface. In InterSpace users can walk around and interact with other people and interact with contents. In this paper, we describe the function-distributed architecture used in InterSpace. The architecture enables flexible configuration of server functions and load distribution. It also allows users to select media and client PCs to switch servers dynamically.

차량환경에서 DMB용 음성명령어기 사용을 위한 음성개선방법 (Speech Enhancement for DMB Voice commander in Car environment)

  • 백승권;한민수;남승현;강경옥
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2003년도 정기총회 및 학술대회
    • /
    • pp.233-236
    • /
    • 2003
  • 본 논문에서는 차량용 음성명령어기의 사용을 위한 전처리 과정으로 음성개선 방법을 다룬다. 특히 DMB 사용환경에서 보다 주위 소음에 자유롭고 단말 조작에 있어 안정성을 보장하기 위하여 일반적 단인 마이크로폰으로 처리되는 잡음뿐만 아니라 음성명령어를 제외한 오디오 신호 등 비정적 통계적 특성을 갖는 소음들도 제거 될 수 있도록 음성개선 방법을 제안한다. 우리는 2개의 마이크로폰을 가지고 BSS 알고리즘을 적용하여 비정적 신호들을 분리하고, 분리된 신호에 대하여 Kalman Filter를 이용하여 시간상 단구간 정적 잡음을 제거한다. 본 논문의 인식 실험 결과를 통하여 공간적, 시간적 음성개선 방법이 순차적으로 적용될 때, 실제 차량 환경에서 음성 개선 알고리즘으로 적용될 수 있음을 보였다

  • PDF

STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안 (Noise filtering method based on voice frequency correlation to increase STT efficiency)

  • 임지원;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습 (Deep Learning-based Speech Voice Separation Training To Enhance STT Performance)

  • 김보경;양영준;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

음성통신 서비스를 위한 코덱 표준화 동향

  • 이미숙;김도영;이병선
    • 방송과미디어
    • /
    • 제16권4호
    • /
    • pp.46-58
    • /
    • 2011
  • 본 고에서는 ITU-T와 3GPP를 중심으로 음성통신 서비스를 위해 표준으로 채택된 코덱의 특징과 현재 표준화가 진행중인 3GPP EVS(Enhanced Voice Service) 코덱 기술의 표준화 동향에 대해 살펴본다. ITU-T에서는 2000년 중반부터 기존의 협대역(전화선 대역) 보다 넓은 주파수 대역의 신호를 코딩할 수 있는 광대역과 슈퍼와이드밴드 코덱에 대한 표준화가 활발히 진행되었다. 3GPP에서는 2010년부터 4세대 이동 통신에서 고품질의 대화형 서비스를 제공하기 위해 음성뿐만 아니라 혼합컨텐츠와 오디오 신호에 대해서도 우수한 품질을 제공할 수 있는 코덱 기술에 대한 표준화를 진행하고 있다.

주파수 도약 통신에 적합한 정보부호화 기법 (Information Coding Schemes for the Frequency Hopping Communication)

  • 박대철;김용선;한성우;전용억;전병민
    • 방송공학회논문지
    • /
    • 제4권1호
    • /
    • pp.32-43
    • /
    • 1999
  • 본 논문은 전파의 간섭이 심한 극한통신 상황에서 통신 정보의 감청, 방해를 극복하는 능력을 갖는 주파수도약 통신시스템을 이용하여 음성 및 데이터 정보를 안정적으로 전송할 수 있는 방법을 다루었다. 일반적인 FEC 및 비트 인터리빙 방법을 적용할 경우, 시스템이 복잡해지고 오류 정정 부호화 및 비트 인터리빙 처리에 많은 시간이 소요된다. 본 논문에서는 구조가 간단하면서 극한조건의 주파수도약통신 상황에서 음성 및 데이터를 무선간섭에 대처할 수 있도록 주파수도약 시스템에 적합한 부호화하는 정보 부호화 기법인 다수 오류 정정 기법 및 블록 인터리빙 기법이 제안되었다. 송신기에서 저속 데이터를 일정한 블록 단위로 반복 프레임을 구성하여 20Kbps 도약홉 프레임 셀을 전송하고 수신기에서는 블록 디코딩 및 majority 오류 정정 기법을 사용하여 도약 채널에서 발생되는 연집 오류 혹은 랜덤 오류를 정정한다. 제안한 방법을 정보부호화/복호화 처리 단축 및 계산 복잡도를 단순화시키면서 채널 극복 성능을 개선하였고 시스템 시험을 통하여 성능을 확인하였다.

  • PDF

LTE 모듈을 활용한 원격방송 시스템 설계 (Design of Remote Broadcasting System Using LTE Moudule)

  • 채민욱;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.389-391
    • /
    • 2019
  • 본 연구에서는 유무선 전화기를 이용하여 원격지에 안내방송을 출력할 수 있는 원격방송시스템을 설계하였다. 설계된 원격방송시스템은 LTE 모듈을 이용하여 무선으로 수신된 전화 음성을 앰프를 통하여 증폭하여 출력하도록 하였다. 또한 문자메시지 전송이 가능한 유무선 전화기를 통해 원격방송시스템에 방송용 문자메시지를 보낼 수 있으며 이를 수신한 원격방송시스템은 음성장치 안에 저장된 해당 안내방송을 자동으로 출력할 수 있도록 구현하였다. 보안을 위하여 관리자 및 등록된 사용자만 시스템을 사용할 수 있도록 수신자의 전화번호를 비교 알고리즘을 통하여 분석하도록 하였다. 이 때 등록된 사용자로 확인된 경우에만 녹음된 안내 방송을 스피커를 통하여 출력하게 된다. 이 연구에서 설계된 시스템을 통하여 사용자는 시간과 장소의 제한을 받지 않고 신속하게 안내방송을 출력할 수 있다.

  • PDF