• 제목/요약/키워드: 음성의 다양화

검색결과 300건 처리시간 0.025초

음성합성시 에너지 정규화가 음질에 미치는 영향 (Effect of Energy Normalization on the Quality of Synthetic Speech)

  • 정은석;최의선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.95-98
    • /
    • 1998
  • 본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.

  • PDF

경량화 MobileNet을 활용한 축산 데이터 음성 분석 (Analysis of Livestock Vocal Data using Lightweight MobileNet)

  • 정세연;김상철
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.16-23
    • /
    • 2024
  • 돼지는 꿀꿀거림, 기침, 비명과 같은 다양한 소리로 환경에 대한 반응과 건강 상태를 나타낸다. 돼지 음성의 중요성으로 최근 들어 돼지의 음성은 축산업 종사자에게 매우 중요한 데이터로 활발하게 연구되고 있다. 이를 위해 돼지의 음성 패턴을 분석하여 농장 소음 속에서 돼지의 음성을 구분하고 음성과 기침 소리를 구분하는 경량화 MobileNet 모델을 제안한다. 이 MobileNet은 돈사 내에서 다양한 배경 잡음, 기침 소리 등의 다양한 소리 속에서 돼지의 음성만을 정밀하게 구분하고 분석할 수 있었다. 테스트 결과, 이 모델은 98.2%의 높은 정확도를 보여주었다. 이러한 결과를 바탕으로 향후 연구에서는 돼지의 감정 분석, 스트레스 파악 등의 문제 해결을 기대한다.

음성 트래픽 향상을 위한 서비스 메커니즘 (Service Mechanism for Enhanced Voice Traffic)

  • 김성태;강현국
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
    • /
    • pp.757-759
    • /
    • 2001
  • 인터넷의 확산 및 고속화로 인하여 사용자들이 급격하게 증가하고 있으며, 이에 따라 인터넷을 이용한 다양한 멀티미디어 서비스들이 전개되고 있다. 또한, 기존 PSTN 위주의 음성 통신이 인터넷을 이용한 음성통신으로 급속히 바뀌고 있으며, 이를 효율적으로 연동하고 제어하기 위한 다양한 표준들이 나타나고 있다. 본 논문에서는 급속하게 발전되고 있는 인터넷 텔레포니 기술 중 세션제어를 위한 기녈 프로토콜 표준인 SIP를 살펴보고, 서비스 품질 향상을 위한 RSVP를 이용하여 보다 향상된 음성통신을 위한 기존의 시그널링 메커니즘을 살펴보고, 음성 트래픽 서비스 품질 향상을 위한 가장 효율적인 새로운 메커니즘을 제시 하고자 한다.

  • PDF

한국어에서의 성인과 유아의 음성 인식 비교 (Comparison of Adult and Child's Speech Recognition of Korean)

  • 유재권;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제11권5호
    • /
    • pp.138-147
    • /
    • 2011
  • 현재 한국의 음성 데이터베이스 구축 현황을 살펴보면 유아에 맞춰진 음성 데이터베이스는 구축이 되지 않은 실정이다. 국외 연구를 분석한 결과, 다양한 언어를 기반으로 유아 대상의 음성 데이터베이스가 구축되어 있다. 이는 성인의 음성과 유아의 음성은 언어학적으로 차이가 있기 때문에 유아는 유아에 맞는 음성 데이터베이스가 필요하다. 한국어에서 성인과 유아의 음성 차이를 알아보기 위해, HMM을 이용하여 유아와 성인의 음성인식을 비교하였다. 유아와 성인의 음성인식 비교는 성별, 나이별, 성도 길이 정규화의 적용 유무에 따라 실험한다. 본 논문에서는 한국어에서 유아의 음성을 유아의 음성인식기로 인식했을 때가 성인의 음성인식기로 인식했을 때 보다 월등히 인식률이 높았으며, 성도 길이 정규화의 적용이 인식률 향상에 도움이 되고 있음을 보여준다.

음성DB 구축을 위한 국제간 활동현황 (COCOSDA '94에서 발표된 내용을 중심으로) (International Cooperative Works Preparing for Speech Database)

  • 조철우
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.261-264
    • /
    • 1995
  • 최근 음성처리기술의 정교화, 고도화를 위해서 대량의 다양한 데이터베이스가 필요하게 되었고, 또 자동통역전화등 국제적 연결을 위한 응용분야가 개발됨에 따라 자국이 언어가 아닌 다른 나라의 음성에 관한 데이터베이스가 필요하게 되었다. 이에 따라 자연히 필요한 데이터베이스의 규격이나 종류등의 상호 공동 관심사를 논의할 필요가 있게 되었고 이의논의를 위한 워크샵등의 모임이 형성되게 되었다. 본 고에서는 이러한 모임중의 대표격인 COCOSDA의 활동에 관하여 언급하고 우리나라에서 음성데이타베이스분야에 관련하여 관심을 기울여야할 부분에 대하여 열거해 보았다.

  • PDF

인터넷을 위한 음성 통신 플랫폼 라이브러리 개발 (Platform Library Development for Real-time Audio Communications in the Internet)

  • 서동원;김동현;이명진
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.260-263
    • /
    • 2005
  • 본 논문에서는 차세대 유무선 광대역 통합망에서 실시간 멀티미디어의 응용 계층 품질을 평가하기 위한 실시간 음성 전송 플랫폼 라이브러리를 개발하였다. 개발된 라이브러리는 실시간 음성 통신시 사용자가 요구할 수 있는 다양한 품질을 제공하기 위해 전송률과 압축 방식에 따른 음성 코덱들을 포함하고 있다. 본 라이브러리는 다양한 환경에도 동일 입출력, 다중스레드, 인터넷 통신 등이 가능한 PWLIB를 기반으로 한다. 음성 데이터는 RTP/UDP/IP를 이용하여 패킷화되고 RTCP를 이용하여 전송 품질이 모니터링된다. 개발된 음성 통신 라이브러리를 이용하여 간단한 음성 통신 시스템을 구현하였으며, 음성 코덱별로 네트워크 상에서 송수신 테스트를 진행하였다. 본 라이브러리는 비디오 코덱 및 시그널링 및 네트웍 자원 예약 프로토콜과 결합되어 멀티미디어 통신 단말 개발에 사용 될 수 있다.

  • PDF

음성 데이터의 지능적 분류 및 컨텍스트 분석 시스템 구현 (Intelligent Classification and Context Analysis System of Voice Data)

  • 최현석;주성환;김대천;박예찬;염상길;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.162-163
    • /
    • 2016
  • 사람은 의사소통을 위해 음성, 글자, 몸짓 등 다양한 매개체를 활용한다. 오늘날 스마트폰의 발달로 문자의 비중이 높아지고 있지만 음성 대화는 여전히 사람들 사이에서 가장 많이 사용되어지는 의사소통 수단이다. 음성 대화는 녹음해서 음성 데이터로 남길 수 있다. 음성을 녹음하는 과정은 간편하지만 녹음파일에서 원하는 데이터를 찾는 것은 많은 시간이 소모된다. 본 논문에서는 음성 데이터를 인식하여 텍스트화 시키고 문자화 된 데이터를 분석하여 사용자에게 효율적으로 분류하는 시스템을 제안한다. 이 시스템으로 사용자는 음성 데이터의 내용을 들어보지 않고 파악할 수 있으며 원하는 내용을 찾을 수도 있다.

음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 (Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.169-174
    • /
    • 2013
  • 음성 인식 성능 저하의 문제는 모델 훈련 환경과 인식 환경의 차이이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음 특징 정규화 방법을 사용하고 있다. 기존의 묵음 특징 정규화 방법은 낮은 신호 대 잡음비에서 묵음 구간의 에너지 레벨이 증가하여 음성과 비음성에 대한 분류의 정확도가 떨어짐으로 인해 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 방법을 제안하였다. 제안한 방법은 높은 신호 대 잡음비에서는 음성 에너지를 최대화시켜 특징이 잡음의 영향을 적게 받는 특성을 이용하였고 낮은 신호 대 잡음비에서는 음성/비음성의 켑스트럼 특징 분포 특성을 이용하여 인식 성능을 향상시켰다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었다.

TDX-10 ISDN 시스템의 시험 및 평가분석 체계화에 따른 품질보증 활동 (Systematic Quality Assurance Activity for TDX-10 ISDN Switching System)

  • 이해룡;정택원
    • 품질경영학회지
    • /
    • 제23권1호
    • /
    • pp.127-141
    • /
    • 1995
  • 대용량 ISDN(Integrated Services Digital Network)용 전전자 교환기 TDX-10 연구개발 사업의 궁극적 목적은 미래 통신망이 요구하는 다양한 음성 및 비음성 정보통신 서비스를 제공하고 정보의 교환, 가공, 축적 및 처리에 고도의 융통성을 부여할 수 있는 국내표준 전전자 교환기를 개발하여 통신투자의 경제적 통신운영기술 자립화를 달성하는데 있다. 현재 대용량 전전자 교환기인 TDX-10 ISDN의 상용화 단계의 마무리 업무가 진행중이며, 통신서비스의 다양화, 광대역화, 고속화를 위한 광대역통신망의 주축이 되는 ATM교환기가 개발중에 있다. 본 고에서는 TDX-10 ISDN 시스템개발단계에서 구현된 시스템 시험수행 과정 및 평가작업을 토대로한 체계적이며 전략적인 품질보증 활동에 관해 기술하였으며, 신뢰성 있는 시험결과를 도출할 수 있는 다양한 시험관리 기법과 그 결과를 분석하고 차후 시험 및 보완작업을 위한 제반 활동체계가 소개된다.

  • PDF

음성인식기술의 노인간병 적용을 위한 정책연구 (A policy study for the voice recognition technology based on elderly health care)

  • 조병철;전수영;김갑년;육현승
    • 디지털융복합연구
    • /
    • 제16권2호
    • /
    • pp.9-17
    • /
    • 2018
  • 본 연구는 음성인식기술이 급격한 고령화를 맞고 있는 우리 사회의 노인문제 해결을 위해 어떻게 활용될 수 있는지를 목표로 삼았다. 국내에서도 본격적으로 고령자들을 위한 공공지원서비스나 민간간병 서비스 등이 확대될 것으로 예상된다. 이 때 음성인식기술은 미디어인터페이스에 익숙하지 못한 노인들에게 다양하게 활용될 수 있다. 이를 위해 본 연구진은 국내의 음성인식기술의 활용가능성과 일본 방문시 노인 간병에서 음성인식기술을 통해 이룬 성과를 조사했다. 특히 간병인들이 보고서를 작성할 때 음성인식기술을 이용해 수기로 작성하던 보고를 대체하여 업무시간을 크게 축소한 바 있는데, 이러한 방법은 국내에서도 쉽게 정책적으로 실행될 수 있다고 판단했으며, 음성인식기술이 탑재된 로봇의 개발을 통해 노인부양의 사회적 비용을 줄여야 한다는 결론 역시 도달했다. 아울러 음성인식기술이 다양한 정서인식기능의 인공지능기반 프로그램과 결합을 통한 다양한 정책이 도모되어야 한다는 사실 역시 제안할 수 있게 되었다.