통합 검색 | Korea Science

uPaging : 실시간 위치 인식 기반의 음성메시지 전송 시스템 (uPaging : A Voice Message Delivery System Based on Real-Time Location-Awareness)

박유진;전상호;강순주
- 한국통신학회논문지
- /
- 제37B권11호
- /
- pp.1004-1013
- /
- 2012
기존의 음성 방송 시스템들은 특정영역이나 전체적인 영역을 통해 방송한다. 이러한 방송 시스템들은 불필요한 지역 내의 방송은 노이즈와 방송 자원의 낭비를 발생시킨다. 본 논문에서는 유비쿼터스 센서 네트워크 환경 하의 위치 인식 기술과 음성 메시지 전송 서비스의 융합을 통한 위치 인식형 음성 메시지 방송 시스템인 uPaging을 제안한다. 위치 인식형 음성 메시지 방송 시스템을 구현하기 위하여 uPaging에서는 음성 메시지 전송을 위한 유/무선 하이브리드 네트워크를 사용하고 방송 대상이 되는 사용자의 실시간 위치인식 서비스로써 이전 연구를 통해 제안된 Bidirectional Location ID-Exchange 프로토콜을 사용한다. 이러한 위치 인식 기술과 음성 메시지 방송 시스템의 융합을 통하여 uPaging 시스템은 선택된 사용자 혹은 사용자의 현재 위치로 음성을 전달하는 위치 인식형 음성 메시지 방송 시스템을 구현하였다.
https://doi.org/10.7840/kics.2012.37B.11.1004 인용 PDF KSCI

음성 비식별화 모델과 방송 음성 변조의 한국어 음성 비식별화 성능 비교 (Comparison of Korean Speech De-identification Performance of Speech De-identification Model and Broadcast Voice Modulation)

김승민;박대얼;최대선
- 스마트미디어저널
- /
- 제12권2호
- /
- pp.56-65
- /
- 2023
뉴스와 취재 프로그램 같은 방송에서는 제보자의 신원 보호를 위해 음성을 변조한다. 음성 변조 방법으로 피치(pitch)를 조절하는 방법이 가장 많이 사용되는데, 이 방법은 피치를 재조절하는 방식으로 쉽게 원본 음성과 유사하게 음성 복원이 가능하다. 따라서 방송 음성 변조 방법은 화자의 신원 보호를 제대로 해줄 수 없고 보안상 취약하기 때문에 이를 대체하기 위한 새로운 음성 변조 방법이 필요하다. 본 논문에서는 Voice Privacy Challenge에서 비식별화 성능이 검증된 Lightweight 음성 비식별화 모델을 성능 비교 모델로 사용하여 피치 조절을 사용한 방송 음성변조 방법과 음성 비식별화 성능 비교 실험 및 평가를 진행한다. Lightweight 음성 비식별화 모델의 6가지 변조 방법 중 비식별화 성능이 좋은 3가지 변조 방법 McAdams, Resampling, Vocal Tract Length Normalization(VTLN)을 사용하였으며 한국어 음성에 대한 비식별화 성능을 비교하기 위해 휴먼 테스트와 EER(Equal Error Rate) 테스트를 진행하였다. 실험 결과로 휴먼 테스트와 EER 테스트 모두 VTLN 변조 방법이 방송 변조보다 더 높은 비식별화 성능을 보였다. 결과적으로 한국어 음성에 대해 Lightweight 모델의 변조 방법은 충분한 비식별화 성능을 가지고 있으며 보안상 취약한 방송 음성 변조를 대체할 수 있을 것이다.
https://doi.org/10.30693/SMJ.2023.12.2.56 인용 PDF

Adaptive Noise Cancellation Based on NLMS Algorithm

Li, Shicong;Seo, Ji-Hun;Lee, Seok-Pil
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 2014년도 하계학술대회
- /
- pp.179-180
- /
- 2014
The main goal of this paper is to present an adaptive filter system using NLMS(Normalized Least mean square) adaptive algorithm for noise cancellation. The proposed algorithm has less computational complexity and better convergence property than the former algorithms like spectral subtraction algorithm, etc. We use TIMIT criterion voice and Noisex-92 for the experiment. The experimental result shows the feasibility of our algorithm for filtering noise from voice effectively.
PDF

음성감정인식에서 음색 특성 및 영향 분석 (Analysis of Voice Quality Features and Their Contribution to Emotion Recognition)

이정인;최정윤;강홍구
- 방송공학회논문지
- /
- 제18권5호
- /
- pp.771-774
- /
- 2013
본 연구는 감정상태와 음색특성의 관계를 확인하고, 추가로 cepstral 피쳐와 조합하여 감정인식을 진행하였다. Open quotient, harmonic-to-noise ratio, spectral tilt, spectral sharpness를 포함하는 특징들을 음색검출을 위해 적용하였고, 일반적으로 사용되는 피치와 에너지를 기반한 운율피쳐를 적용하였다. ANOVA분석을 통해 각 특징벡터의 유효성을 살펴보고, sequential forward selection 방법을 적용하여 최종 감정인식 성능을 분석하였다. 결과적으로, 제안된 피쳐들으로부터 성능이 향상되는 것을 확인하였고, 특히 화남과 기쁨에 대하여 에러가 줄어드는 것을 확인하였다. 또한 음색관련 피쳐들이 cepstral 피쳐와 결합할 경우 역시 인식 성능이 향상되었다.
https://doi.org/10.5909/JBE.2013.18.5.771 인용 PDF KSCI

초광대역 음성통화 서비스를 위한 압축 기술 및 표준화 (Speech Codec Standardization for Super-wideband Communication)

오은미
- 방송과미디어
- /
- 제19권1호
- /
- pp.48-55
- /
- 2014
오디오 신호 압축 기술 관점에서 최근 모바일 통신 시장의 가장 큰 변화 중에 하나는 광대역 음성 코덱인 AMR-WB가 HD voice 또는 VoLTE(Voice over Long Term Evolution) 서비스에 사용된다는 것이다. 모바일 방송 및 음악 재생뿐만 아니라, 통화에서도 다양한 신호를 고음질로 압축해야 하는 필요성이 대두되어 3GPP에서 EVS(Enhanced Voice Service) Codec이 표준화 진행 중이다. 본 논문에서는 실감 통화를 위해 초광대역 신호까지 압축하는 음성 통화 코덱 기술 및 3GPP표준화 현황을 소개한다. 3GPP 표준 기수에서 정의한 디자인 및 성능 요구사항과 더불어 이전 음성 압축기술과의 차이점 등을 논의한다. 또한, 향후 표준화 계획 및 시장 전망에 대해서 논의한다.
PDF KSCI

Face-to-face Communication in Cyberspace using Analysis and Synthesis of Facial Expression

Shigeo Morishima
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 1999년도 KOBA 방송기술 워크샵 KOBA Broadcasting Technology Workshop
- /
- pp.111-118
- /
- 1999
Recently computer can make cyberspace to walk through by an interactive virtual reality technique. An a avatar in cyberspace can bring us a virtual face-to-face communication environment. In this paper, an avatar is realized which has a real face in cyberspace and a multiuser communication system is constructed by voice transmitted through network. Voice from microphone is transmitted and analyzed, then mouth shape and facial expression of avatar are synchronously estimated and synthesized on real time. And also an entertainment application of a real-time voice driven synthetic face is introduced and this is an example of interactive movie. Finally, face motion capture system using physics based face model is introduced.

IEEE 802.15.4 표준에 적용을 위한 음성부호화 기술 (A Voice Coding Technique for Application to the IEEE 802.15.4 Standard)

진진흥;강석근
- 방송공학회논문지
- /
- 제13권5호
- /
- pp.612-621
- /
- 2008
이용 가능한 데이터 영역과 전송전력 등 다양한 제한 요소들로 인하여 지그비 통신의 기술규격에는 음성통신에 대한 기준 사양이 포함되지 않았다. 본 논문에서는 지그비의 기반인 IEEE 802.15.4 표준에 적용하기 위한 음성부호화 기법이 제시된다. 여기서는 높은 압축율과 파형 복구능력이 우수한 파형부호기의 실현이 필수적이다. 이를 위하여 제시된 방법에서는 다단 이산 웨이블릿변환과 두 가지 펄스부호변조로 구성된 이진부호기가 사용된다. 이론적인 분석과 실내 무선 환경에서의 모의실험 결과 2단 웨이블릿변환을 적용한 경우가 압축율과 음성신호 복구능력 면에서 가장 적합한 것으로 판단된다. 직선전파경로 성분이 지배적인 경우 제시된 방법은 중간 정도의 신호 대 잡음비에서도 만족스러운 복구능력을 가진다. 따라서 제시된 음성부호화 방법은 향후 지그비를 이용한 음성통신의 표준 선정에 참고 가능한 기술이 될 수 있을 것으로 사료된다.
https://doi.org/10.5909/JBE.2008.13.5.612 인용 PDF KSCI

차량환경에서 음성명령어기 사용을 위한 음성개선방법 (Speech Enhancement for Voice commander in Car environment)

백승권;한민수;남승현;이봉호;함영권
- 방송공학회논문지
- /
- 제9권1호
- /
- pp.9-16
- /
- 2004
본 논문에서는 차량용 음성명령어기의 사용을 위한 전처리 과정으로 음성개선 방법을 다룬다 특히 보다 주위 소음에 자유롭고 단말 조작에 있어 안정성을 보장하기 위하여 일반적 단일 마이크로폰으로 처리되는 잡음뿐만 아니라 음성명령어를 제외한 오디오 신호 등 비정적 통계적 특성을 갖는 소음들도 제거 될 수 있도록 음성개선 방법을 제안한다. 우리는 2개의 마이크로폰을 가지고 BSS 알고리즘을 적용하여 비정적 신호들을 분리하고, 분리된 신호에 대하여 Kalman 필터를 이용하여 시간상 단구간 정적 잡음을 제거한다. 인식 실험 결과를 통하여 공간적, 시간적 음성개선 방법이 순차적으로 적용될 때, 실제 차량 환경에서 음성 개선 알고리즘으로 적용될 수 있음을 보였다.
PDF KSCI

Indexing and Retrieval of Human Individuals on Video Data Using Face and Speaker Recognition

Y.Sugiyama;N.Ishikawa;M.Nishida;Y.Ariki
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 1998년도 Proceedings of International Workshop on Advanced Image Technology
- /
- pp.122-127
- /
- 1998
In this paper, we focus on the information retrieval of human individuals who are recorded on the video database. Our purpose is to index persons by their faces or voice and to retrieve their existing time sections on the video data. The database system can track as well as extract a face or voice of a certain person and construct a model of the individual person in self-organization mode. If he appears again at different time, the system can put the mark of the same person to the associated frames. In this way, the same person can be retrieved even if the system does not know his exact name. As the face and speaker modeling, a subspace method is employed to improve the indexing accuracy.
PDF

Finger Gesture와 Voice Recognition을 활용한 IoT 통합 제어 웹 플랫폼 (IoT Multi Control Platform by Finger Gesture and Voice Recognition)

강진형;김한주;김동호
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2022년도 추계학술대회
- /
- pp.236-239
- /
- 2022
증강현실로 날씨, 뉴스 요약 등이 제공되거나 AI 비서 기능을 제공하는 스마트 미러(smart mirror)가 개발되고 있다. 본 작품에서는 IoT 통합제어, 뉴스 요약 및 날씨 정보 제공 등의 서비스를 하나의 웹 플랫폼으로 구축하고 이를 손가락 제스쳐 및 음성 명령으로 제어하는 것을 제안하고 구현하였다. 본 작품에서는 음성 인식을 통해 IoT 서비스를 직관적으로 이용할 수 있게끔 설계하여 사용자의 편의성을 높였으며, 디바이스를 직접 터치하는 방식이 아닌 finger gesture로 제어하는 방식을 채택해, 디바이스 유지 보수 및 위생 문제를 해결하였다. 단순 IoT 통합 제어 기능뿐만 아니라 다양한 컨텐츠 및 기능을 제공함으로써 통합 플랫폼의 기능을 수행할 수 있도록 하였다. 뉴스 홈페이지에서 Crawling한 뉴스를 text rank 알고리즘을 이용. 자동으로 요약하는 기능과, 사용자의 IP를 기반으로 위도와 경도를 추론, 해당 지역의 일기 예보 정보를 표현해 주는 등 단순 IoT 제어 플랫폼이 아닌, 통합 플랫폼의 기능을 다하도록 설계하였다. 이처럼 다양한 정보를 압축해서 사용자가 편하게 볼 수 있도록 제공하며, 직관적인 two track 제어 방식을 채택. 사용 대상의 편의성을 증대시켜 본 프로젝트는 기존 프로젝트보다 사용자에게 더 나은 사용 경험을 제공할 것이다.
PDF

검색결과 57건 처리시간 0.2초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)