• 제목/요약/키워드: 음성코딩

검색결과 127건 처리시간 0.024초

16Kbps와 40Kbps의 Dual Rate G.726 ADPCM 음성 codec구현 (Implementation of G.726 ADPCM Dual Rate Speech Codec of 16Kbps and 40Kbps)

  • 김재오;한경오
    • 전기전자학회논문지
    • /
    • 제2권2호
    • /
    • pp.233-238
    • /
    • 1998
  • 본 논문에서는 G.726 ADPCM 음성방식을 기존의 단일 압축을 대신 16Kbps 와 40Kbps의 두 가지 압축율을 사용한 가변 압축방식에 의한 음성 코딩 방식을 다루었다. 음성의 묵음 또는 소 신호 부분은 음질의 향상보다는 데이터 비트 수를 줄이기 위한 저 전송 16Kbps 압축율을 적용하였고 임계값 이상의 대 신호 부분은 음질을 향상하기 위하여 40Kbps의 압축율을 적용하여 모든 신호를 단일 압축율로 코팅하는 방식에 비하여 전체적으로 압축율을 높여 전송 비트 수를 줄이면서 음질을 저하시키지 않도록 하였다. 분 논문에서는 시뮬레이션을 통하여 여러 가지의 임계값에 의한 가변 압축 코딩 방식에 대하여 압축율과 음질의 관계 를 다루었다. 또한 고정된 임계값에 대하여 입력 음성의 크기를 여러 가지로 변동하여 주변 배경잡음과 포화에 의한 음질의 저하를 고찰하여 가변 율에 의한 음성의 코딩방식에서 임계값과 입력의 크기가 음질 및 압축율에 미치는 영향을 다루었다. 각 시뮬레이션의 경우에 대하여 실지 음성의 원음에 대한 음질의 충실 도를 임의의 집단에 대하여 비교하여 음질의 충실 도를 확인하였다. 추후의 연구를 통하여 DSP에 의한 실시간 처리 시스템의 구현을 하고자 한다.

  • PDF

리눅스 기반 실시간 처리 VoIP 단말기 시스템의 설계 및 구현 (A Design and Implementation of the Real-Time VoIP Terminal System Based on Linux)

  • 이명근;이상정;서정민;임재용
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.345-352
    • /
    • 2001
  • 본 논문에서는 리눅스를 기반으로 실시간 음성 처리 VoIP 단말기를 설계 구현한다. 설계 구현하는 하드웨어 시스템은 i486 프로세서를 기반으로 설계되며, 음성 코덱칩을 사용하여 실시간으로 음성 데이터를 처리한다. 또한 실시간 음성 데이터를 관리하고 처리하기 위해 리눅스 기반 실시간 처리 운영 체제인 RTLinux를 포팅하여 실시간 음성처리 모듈을 구현한다. 음성처리에 사용한 음성처리 모듈은 ITU-T 표준 음성 코덱인 G.723.1 사용하여 30ms 내에 24바이트로 인코딩/디코딩된 음성 데이터를 전송하도록 하고, 음성 전달의 QoS를 보장해 주기 위해서 리눅스에 실시간 음성처리 디바이스 드라이버를 설계 구현한다. 설계 구현하는 시스템의 테스트 및 타당성 검증을 위해 음성채팅 응용 프로그램을 단말기에 구현하여 통화품질을 시험한다.

  • PDF

멀티펄스의 위치보정 방법을 이용한 8kbps PC-MPC에 관한 연구 (A Study on 8kbps PC-MPC by Using Position Compensation Method of Multi-Pulse)

  • 이시우
    • 디지털융복합연구
    • /
    • 제11권5호
    • /
    • pp.285-290
    • /
    • 2013
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식에 있어서, 대표구간의 멀티펄스를 사용하는 경우에 유성음의 합성음성파형에서 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성신호가 정규화되는 것이 원인으로 작용한다. 이것을 해결하기위하여 본 논문에서는 피치구간마다 멀티펄스의 위치를 보정하는 방법(PC-MPC)을 제시하였으며, 기존의 MPC와 멀티펄스 위치를 보정한 PC-MPC의 $SNR_{seg}$를 평가한 결과, PC-MPC의 남자음성에서 0.4dB, 여자음성에서 0.5dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 PC-MPC의 $SNR_{seg}$가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

Low Bit Rate을 고려한 8kbps FBD-MPC 방식에 관한 연구 (A Study on 8kbps FBD-MPC Method Considering Low Bit Rate)

  • 이시우
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.271-276
    • /
    • 2014
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하현상이 나타난다. 본 연구에서는 연속음성에서 무성자음을 포함한 천이구간을 탐색, 추출하고 주파수대역에서 근사합성하는 8kbps의 멀티펄스 음성부호화 방식(FBD-MPC)를 제안하였다. 기존의 8kbps MPC와 FBD-MPC의 SNRseg를 평가한 결과, FBD-MPC의 남자음성에서 0.5dB, 여자음성에서 0.2dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 FBD-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

근거 이론을 적용한 가상 비서의 사용자 경험 분석 - SKT 가상 비서 'NUGU'를 중심으로 - (An User Experience Analysis of Virtual Assistant Using Grounded Theory - Focused on SKT Virtual Personal Assistant 'NUGU' -)

  • 황승희;윤재영
    • 한국HCI학회논문지
    • /
    • 제12권2호
    • /
    • pp.31-40
    • /
    • 2017
  • 본 연구는 2016년 9월 1일 국내에 처음 출시된 가상 비서 음성인식 디바이스 SKT 'NUGU'의 행태를 분석하기 위한 질적 연구이다. 연구를 위해, 해당 기기를 한 달 이상 사용한 사용자 9명을 대상으로 각 1시간 이상의 심층인터뷰를 진행하였다. 인터뷰 자료는 전사하여 개방코딩, 축 코딩, 선택코딩을 통한 근거 이론을 적용하여 분석하였다. 그 결과 심층인터뷰 내용에 대한 362개의 개념을 도출하였으며 16개의 하위 범주와 10개의 상위 범주로 추상화하였다. 개방 코딩이 진행된 이후에는 축 코딩을 통해 전반적인 사용 행태를 파악하고자 패러다임 모형을 제시하였다. 선택코딩을 진행하여 이야기 윤곽의 전개를 통한 핵심범주를 도출하였으며, 코딩의 결과로 사용 행태를 유형화하였다. 유형화 결과, 크게 의존형과 탐구형의 사용 행태를 보임을 확인할 수 있었으며, 각 유형이 해당 기기에 관하여 어떠한 콘텐츠를 선호하며, 어떤 불편사항이 있는지 분석하였다. 그 결과, 의존형 사용자는 음성인식 기술을 활용한 스피커 제어 기능 때문에 구매하였고, 기기의 제어 방식에서는 대체로 만족하였으나 가상 비서 서비스를 다각도로 활용하기보다는 음성제어가 가능한 블루투스 스피커로 이용하는 한계를 보였다. 탐구형 사용자는 스마트홈과 관련된 사물인터넷 관련 제어를 활용하거나 양방향 소통을 시도 하였으나, 현재 해당기기와 연결되는 서비스가 부족하고, 원활한 양방향 소통이 불가능하다는 한계를 느껴 지속적인 사용에 어려움을 느끼고 있었다. 본 연구는 이러한 분석 결과를 기반으로 향후에 국내 가상 비서 서비스를 제안하고자 할 때에 활용할 수 있는 가상 비서의 사용자 경험에 관한 기초 자료를 제시하였다.

2.4kbps EHSX 음성부호화기와 결합된 채널코딩 방법 (Design of Channel Coding Combined with 2.4kbps EHSX Coder)

  • 이창환;김영준;이인성
    • 한국콘텐츠학회논문지
    • /
    • 제10권9호
    • /
    • pp.88-96
    • /
    • 2010
  • 본 논문에서는 2.4kbps EHSX 음성코더와 결합된 채널 코딩 방법을 제안한다. 채널 코더의 부호율은 1/2로 하였고, 그에 따라 부호율이 1/3인 convolutional 코더를 펑처링(puncturing)함으로써 부호율을 맞추었다. 채널 코더의 부호율을 1/3에서 1/2로 하기 위한 펑처링에 소스 부호화된 비트들의 중요도를 고려하여 채널 코딩을 수행할 때 성능 향상을 얻도록 하였다. 소스 코더로 사용된 EHSX 코더의 부호와된 비트들의 중요도는 4명의 여성과 남성으로 구성된 음성을 사용하여 분석하였고, 실험 결과, EHSX 코더가 출력하는 부호화된 비트들은 서로 다른 비트 에러 감응도(sensitive)를 가짐을 알 수 있었다. 소스 코더와 결합된 채널 코더의 성능 평가를 위한 모의 실험은 Rayleigh 페이딩 채널과 AWGN 채널 상에서 수행되었으며, 제안된 방법을 통해 MOS 0.25~0.35 정도의 성능 향상을 이루었다.

음성통신 서비스를 위한 코덱 표준화 동향

  • 이미숙;김도영;이병선
    • 방송과미디어
    • /
    • 제16권4호
    • /
    • pp.46-58
    • /
    • 2011
  • 본 고에서는 ITU-T와 3GPP를 중심으로 음성통신 서비스를 위해 표준으로 채택된 코덱의 특징과 현재 표준화가 진행중인 3GPP EVS(Enhanced Voice Service) 코덱 기술의 표준화 동향에 대해 살펴본다. ITU-T에서는 2000년 중반부터 기존의 협대역(전화선 대역) 보다 넓은 주파수 대역의 신호를 코딩할 수 있는 광대역과 슈퍼와이드밴드 코덱에 대한 표준화가 활발히 진행되었다. 3GPP에서는 2010년부터 4세대 이동 통신에서 고품질의 대화형 서비스를 제공하기 위해 음성뿐만 아니라 혼합컨텐츠와 오디오 신호에 대해서도 우수한 품질을 제공할 수 있는 코덱 기술에 대한 표준화를 진행하고 있다.

의사 형태소 단위의 음성언어 형태소 해석 (Morphological Analysis of Spoken Korean Based on Pseudo-Morphemes)

  • 이경님;정민화
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.396-404
    • /
    • 1998
  • 본 논문에서는 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소(Pseudo-Morpheme)를 정의 하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 40개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다.

  • PDF