• Title/Summary/Keyword: 음성다중

Search Result 350, Processing Time 0.027 seconds

다중 채널을 지원하는 Voice over Sensor Network(VoSN) Base Station 설계 (A Design of Voice Over Sensor Network (VoSN) Base Station with Multi-Channel Support)

  • 이훈재;이재형;강민수;조성호
    • 한국통신학회논문지
    • /
    • 제39C권1호
    • /
    • pp.90-96
    • /
    • 2014
  • 센서 네트워크를 위한 표준인 IEEE802.15.4는 저전력, 저속 데이터 통신이 특징으로 주로 ZigBee 네트워크와 같은 Wireless Personal Area Network (WPAN)를 구성하기 위해 사용하고 있다. 그러나 최근 센서 네트워크 기반의 음성통신과 Session Initiation Protocol (SIP)를 연동하여 장거리 및 대규모 사용자를 지원하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 센서 네트워크 기반의 음성통신과 SIP를 연동하여 다수 사용자 지원하고 기존 시스템을 하나의 통합 Base Station으로 설계하였다. 또한, 설계한 Base Station의 성능을 평가하기 위하여 사용자수 증가에 따른 Packet 수와 Delay를 측정하였다.

휴대 전화에서 소프트웨어 기반의 비디오/오디오 플레이어 (Software Based Video/Audio Player on Mobile Handset)

  • 정진환;한상범;류은석;유혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.75-78
    • /
    • 2003
  • 최근의 휴대 전화는 단순한 음성 통신 기기 역할뿐만 아니라 데이터 통신 기기로도 쓰이고 있으며, CDMA-2000 망 보급으로 인하여 데이터 통신 대역폭이 멀티미디어 데이터를 처리 할 수 있을 만큼 증대되었다. 하지만 휴대 전화는 하드웨어 성능이 음성 통신 기기로 최적화되어 있고 매우 단순화된 실시간성 운영체제로 인해 이러한 대역폭을 활용할 수 있는 소프트웨어 방식의 비디오/오디오 플레이어 개발이 매우 힘들다. 특히, CDMA 방식의 휴대 전화에 사용되는 비선점형 운영체제인 REX 에서는 선점형 운영 체제에 적합한 다중 쓰레드 구조의 멀티미디어 응용 프로그램 제작이 어렵다. 또한, 널리 사용되는 비디오/오디오 표준(MPEG-x, H.26x, 등등)은 압축 최우선의 방식으로써 계산량이 매우 크기 때문에 휴대 전화에서 하드웨어 도움 없이 소프트웨어로만 재생하기에는 적합하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 먼저 휴대 전화의 하드웨어 자원과 시스템에 적합한 비디오/오디오 코덱에 대해 간략히 알아보고 비디오/오디오 동기화를 위해 이에 적합한 시스템 디코더와 소프트웨어 플레이어 구조를 제안한다. 또한 실제 휴대 전화에 적용하여 그 성능을 측정 한다.

  • PDF

다중 인터페이스 환경에서의 문자언어와 음성언어의 차이에 관한 비교 연구 (Comparative Analysis of Written Language and Colloquial Language for Information Communication of Multi-Modal Interface Environment)

  • 최인환;이건표
    • 디자인학연구
    • /
    • 제19권2호
    • /
    • pp.91-98
    • /
    • 2006
  • 제품의 융합과 그 사용 환경의 복잡화로 인하여 다양한 감각을 활용해서 제품과 교감하는 다중 인터페이스의 필요성이 제기되고 있다. 전통적이고 일반적인 정보의 습득에는 시각이 압도적으로 많이 활용되었으나 디지털 네트워크 기술을 기반으로 발달할 미래 정보 사회에서는 보다 편리하고 합리적인 제품의 사용을 위하여 다양한 감각의 활용이 요구될 것이다. 정보 전달에 있어서 시각과 더불어 점차적으로 활용 가능성이 높아지고 있는 청각은 그 쓰임새가 더욱 넓어지고 또한 다양한 방식으로 발전될 것이다. 이러한 배경을 바탕으로 본 연구에서는 정보의 전달에서 사용되는 문자언어와 음성언어의 특성과 그에 대한 반응에 있어서 남성과 여성의 차이점의 비교분석에 관한 연구가 수행되었다. 이를 위하여 일단 언어를 구성하는 여러 가지 요소에 대한 문헌자료의 연구를 수행하였다. 이어서 시각과 청각의 특성을 검토한 후 선행 연구를 기반으로 하여 적절한 실험이 설계 및 수행되었다. 수행된 실험은 객관적인 분석방법을 통하여 실험 결과가 검토되었다. 금번 연구의 결과로는 첫째, 문자언어에 대한 반응 시간이 음성언어에 대한 그것보다 짧다는 것, 둘째 각 자극에 대한 반응에 있어서 남녀간의 차이가 존재한다는 것, 셋째, 시각이 청각에 비하여 선택적인 측면에서 절대적 우위를 점하지 못한다는 점등을 들 수 있다. 이번 연구를 기반으로 하여 보다 다양한 감각에 대한 폭 넓은 연구 방법의 개발이 필요할 것으로 사료된다.

  • PDF

소규모 그룹에서의 음성 통신을 위한 TDMA 기반의 릴레이 프로토콜 (A TDMA-based Relay Protocol for Voice Communication on a Small Group)

  • 황상호;박창현;안병철
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.259-266
    • /
    • 2013
  • 근거리 무선 통신은 전송 거리에 제약이 있어 마스터 주변의 노드만이 통신이 가능하다. 기존의 블루투스와 지그비와 같은 통신은 ad hoc을 위한 기술을 제공함에도 불구하고 실시간 대화를 위한 멀티 홉 전송에는 적절하지 못하다. 본 논문은 TDMA을 이용하여 소규모의 여러 사용자들이 서로 대화할 수 있는 릴레이 프로토콜을 제안한다. 제안한 릴레이 프로토콜은 TDMA를 이용하여 실시간으로 데이터 또는 음성의 다중 홉 재전송이 가능하다. 제안하는 프로토콜은 라우팅 경로에 따라 주파수를 달리하여 패킷을 전송하는 방법으로 이동에 따른 채널 효율의 감소를 줄여 네트워크의 성능을 높이고 있다. NS-2 시뮬레이션을 통하여 제안한 프로토콜이 실시간 음성 전달에서 전송 지연과 패킷 손실률에 있어 우수한 성능을 가지고 있음을 보인다.

Fuzzy를 이용한 VQ/NN에 기초를 둔 음성 인식 (Speech Recognition Based on VQ/NN using Fuzzy)

  • 안태옥
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.5-11
    • /
    • 1996
  • 본 논문은 불특정 화자의 단모음 인식에 관한 연구로써, fuzzy개념를 이용한 VQ(Vector Quantization)/NN(Neural Network)에 의한 음성 인식 방법을 제안한다. 이 방법은 fuzzy를 이용하여 VQ codebook에 의해 다중 관측열(multi-observation sequence)을 구해 각 symbol이 데이타로부터 가질 수 있는 확률값을 계산하여 이 값을 신경 회로망의 입력으로 사용하는 방법이다. 인식 대상어로는 한국어 단모음을 선정하였으며 10명의 남성 화자가 8개의 단모음을 10번씩 발음한 음성 데이터베이스를 이용하여 fuzzy를 이용하지 않은 VQ/NN과 fuzzy를 이용한 VQ/HMM(hidden Markov model)에 의한 인식률과 비교 실험한다. 실험 결과에 의하며, VQ/NN에 의한 인식률은 92.3%이며, fuzzy를 이용한 VQ/HMM에 의한 인식률은 93.8%이고, fuzzy를 이용한 VQ/Nn에 의한 인식률은 95.7%이다. 그러므로, 본 연구의 fuzzy를 이용한 VQ/NN이 학습 능력이 뛰어난 관계로 fuzzy를 이용한 VQ/HMM과 일반적인 VQ/NN 보다 인식률이 향상됨을 보여준다.

  • PDF

FSVQ와 퍼지 개념을 이용한 HMM에 기초를 둔 음성 인식 (HMM-based Speech Recognition using FSVQ and Fuzzy Concept)

  • 안태옥
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.90-97
    • /
    • 2003
  • 본 논문은 FSVQ(first section vector quantization)와 퍼지 개념을 이용한 HMM(hidden Markov model)에 기초를 둔 음성인식을 제안한다. 제안된 연구 방법에서는 첫 번째 구간의 코드북(codebook)을 만든 후, 첫 번째 구간의 코드북으로부터, 퍼지 개념을 도입하여 확률값이 큰 순서에 의해 다중 관측열을 구한다. 그 다음, 코드북으로부터 첫 번째 구간의 관측열을 학습시키고 인식할 때에도 같은 개념으로 첫 번째 구간에서의 확률 값이 가장 높은 단어를 인식된 단어로 선택한다. 인식 대상 어휘로는 전철역명을 선택하였으며, 특징 파라메타로는 LPC ?스트럼을 사용하였다. 제안된 방법에 의한 인식 실험을 수행하는 것 이외에도 비교를 위하여 이전에 실험한 몇 가지 방법의 인식 실험을 같은 조건하에서 같은 데이터로 수행한다. 실험 결과, 본 연구에서 제안한 FSVQ와 퍼지 개념을 이용한 HMM에 기초를 둔 방법이 다른 음성 인식방법들보다 인식률이 우수함을 입증하였다.

화자 인식을 위한 적대학습 기반 음성 분리 프레임워크에 대한 연구 (A study on speech disentanglement framework based on adversarial learning for speaker recognition)

  • 권유환;정수환;강홍구
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.447-453
    • /
    • 2020
  • 본 논문은 딥러닝 기법을 활용하여 음성신호로부터 효율적인 화자 벡터를 추출하는 시스템을 제안한다. 음성신호에는 발화내용, 감정, 배경잡음 등과 같이 화자의 특징과는 관련이 없는 정보들이 포함되어 있다는 점에 착안하여 제안 방법에서는 추출된 화자 벡터에 화자의 특징과 관련된 정보는 가능한 많이 포함되고, 그렇지 않은 비화자 정보는 최소화될 수 있도록 학습을 진행한다. 특히, 오토-인코더 구조의 부호화 기가 두 개의 임베딩 벡터를 추정하도록 하고, 효과적인 손실 함수 조건을 두어 각 임베딩이 화자 및 비화자 특징만 각각 포함할 수 있도록 하는 효과적인 화자 정보 분리(disentanglement)방법을 제안한다. 또한, 화자 정보를 유지하는데 도움이 되는 생성적 적대 신경망(Generative Adversarial Network, GAN)에서 활용되는 판별기 구조를 도입함으로써, 디코더의 성능을 향상시킴으로써 화자 인식 성능을 보다 향상시킨다. 제안된 방법에 대한 적절성과 효율성은 벤치마크 데이터로 사용되고 있는 Voxceleb1에 대한 동일오류율(Equal Error Rate, EER) 개선 실험을 통하여 규명하였다.

선박 잡음 환경에서의 강건한 음성 인식 기반 육해상 통합 관광 정보 안내 시스템 (A Land and Maritime Unified Tourism Information Guide System Based on Robust Speech Recognition in Ship Noise Environments)

  • 전광명;이장원;박지훈;이성로;이연우;맹세영;김홍국
    • 한국통신학회논문지
    • /
    • 제38C권2호
    • /
    • pp.189-195
    • /
    • 2013
  • 본 논문에서는 선박에서의 잡음 환경에 강건한 음성인식 기술을 포함하는 육해상 통합관광정보 안내 시스템을 제안한다. 대부분의 음성인식 전처리부는 차량, 배블(babble) 잡음 등의 정상특성 잡음 제거하기 위해 위너(Wiener) 필터를 이용해 왔다. 하지만 이러한 기존의 전처리부는 항해중인 선박 내에서 발생하는 비정상 잡음을 제거하는데 한계가 있다. 이러한 한계를 극복하기 위해 제안하는 시스템은 높은 관광 경로 인식 정확성을 얻기 위해 비선형 다중밴드 스펙트럴 차감법(multi-band spectral subtraction)을 적용한다. 실험 결과 제안된 시스템은 기존 대비 10 dB 신호대잡음비의 잡음 환경에서 평균 5.54%의 경로명 인식률 개선을 보였다.

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

청소년을 위한 인증시스템의 설계에 관한 연구 (A Study of Authentication Design for Youth)

  • 홍기천;김은미
    • 한국산학기술학회논문지
    • /
    • 제8권4호
    • /
    • pp.952-960
    • /
    • 2007
  • 현재의 대부분의 웹사이트에서는 본인확인을 위한 로그인 절차를 수행하고 있다. 그러나 아이디와 패스워드와 같은 간단한 특징은 도용의 우려가 많아서 본인 확인의 신뢰를 할 수 없다. 이 때문에 청소년들은 타인의 아이디와 패스워드를 가지고 불법매체 사이트를 쉽게 접근할 수 있다. 그래서 본 논문에서는 사용자 인증 시스템을 설계할 때, 적용 가능한 특징들을 알아보고, 이를 바탕으로 인증 시스템 설계를 제안한다. 인증 시스템은 저 수준 인증 방법과 고수준 인증 방법으로 나누었다. 저 수준 인증 방법은 핸드폰을 통한 인증번호 부여 방법과 요즘 많이 쓰이고 있는 공인 인증서를 이용하는 방법이다. 고수준 인증 방법은 아이디와 패스워드를 지문 인식, 문자 인식, 음성 인식, 영상 인식에서의 특징들과 결합하여 인증하는 방법이다. 이를 위해서 본 논문에서 알아본 특징은 지문인식, 얼굴인식, 홍채인식, 문자인식, 정맥인식, 음성인식에 사용 가능한 특징들이다. 이 특징들 중, 지문 인식, 문자 인식, 음성 인식, 영상인식은 보편화된 개인용 컴퓨터에 저가의 장비만 있으면 인증 시스템을 구현할 수 있다. 이러한 다중특징을 이용하여 웹사이트를 구축하면 본인 확인에 대한 신뢰도를 한층 높일 수 있다.

  • PDF