• 제목/요약/키워드: 음성 탐지

검색결과 92건 처리시간 0.024초

리아프노프 지수를 이용한 음성신호 종점 탐색 방법 (Endpoint Detection of Speech Signal Using Lyapunov Exponent)

  • 장한;김정연;정길도
    • 전자공학회논문지SC
    • /
    • 제46권1호
    • /
    • pp.28-33
    • /
    • 2009
  • 음성 인식 연구에서 잡음이 존재하는 음성 발음의 처음과 끝을 찾아내는 것은 매우 중요하다. 음성 종점 탐지를 위한 기존의 방식으로는 2개의 간단한 시간 영역 측정법인 단시간 에너지와 단시간 영점교차 비율 방법이 있다. 위의 방법들은 낮은 신호 대 잡음비의 환경에서는 정확한 결과를 보장 할 수 없기 때문에 본 논문에서는 시간 영역 파형의 리아프노프 지수를 이용하여 음성의 시작과 종점을 구별하는 새로운 접근법을 제시하였다. 제안한 방법은 Mel-Scale특징 방법에서 요구되는 종점 탐지 과정을 위한 주파수 영역 매개변수를 얻는 과정이 필요 없기 때문에 보다 간단하다. 제안한 방법의 성능 검증을 위해 아라비아 숫자의 음성단어 분석에 적용해 보았으며, 결과를 통하여 제안한 방법이 인식률을 현저히 증가시킴을 확인하였다.

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

Sentence-BERT를 활용한 YouTube 가짜뉴스 탐지 시스템 연구 (A Study On YouTube Fake News Detection System Using Sentence-BERT)

  • 김범중;허지혜;이협건;김영운
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.667-668
    • /
    • 2023
  • IT 기술의 발달로 인해 뉴스를 제공하는 플랫폼들이 다양해 졌고 최근 해외 인터뷰 영상, 해외 뉴스를 Youtube Shorts형태로 제작하여 화자의 의도와는 다른 자막을 달며 가짜 뉴스가 생성되는 문제가 대두되고 있다. 이에 본 논문에서는 Sentence-BERT를 활용한 YouTube 가짜 뉴스 탐지 시스템을 제안한다. 제안하는 시스템은 Python 라이브러리를 사용해 유튜브 영상에서 음성과 영상 데이터를 분류하고 분류된 영상 데이터는 EasyOCR을 사용해 자막 데이터를 텍스트로 추출 후 Sentence-BERT를 활용해 문자 유사도를 분석한다. 분석결과 음성 데이터와 영상 자막 데이터가 일치한 경우 일치하지 않은 경우보다 약 62% 더 높은 문장 유사도를 보였다.

Abnormal Situation Detection Algorithm via Sensors Fusion from One Person Households

  • Kim, Da-Hyeon;Ahn, Jun-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.111-118
    • /
    • 2022
  • 최근 1인 고령 가구가 증가하고 있지만 1인 가구의 경우 집 안에서 위험 상황이 발생했을 때, 이를 외부에 알리기 힘들다. 이와 같은 1인 가구의 위험 상황을 탐지하기 위해 다양한 스마트홈 솔루션이 제안되고 있지만, 프라이버시 영역에 문제가 있는 홈 CCTV와 같은 영상 매체는 활용 어렵다. 그리고 단일 센서만을 활용하여 집안 내 고령자의 위험 상황을 분석할 경우, 데이터양의 한계로 정확한 상황해석이 제한 된다. 따라서 본 논문에서는 프라이버시를 지킬 수 있으며 실생활에 밀접한 2DLiDAR, 먼지, 음성 센서 간의 상관관계 따른 융합을 통한 집 내부의 위험 상황 탐지 융합 알고리즘을 제안한다. 또한, 본 논문은 실제 환경에서 수집한 데이터를 통해 알고리즘의 신뢰성을 증명한다. 제안하는 알고리즘이 탐지 가능한 위험 상황과 불가능한 상황을 제시한다. 본 논문은 집 안에서 위험 상황을 탐지하는 연구로써 1인 가구 사용자의 생활에 도움이 될 것이다.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

KoBERT를 활용한 실시간 보이스피싱 탐지기법 개념설계 (Design of Real-Time Voice Phishing Detection Techniques using KoBERT)

  • 김영진;이병엽;강아름
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.95-96
    • /
    • 2024
  • 본 논문은 금융 범죄 중 하나인 보이스피싱을 실시간으로 예방하기 위한 탐지 기법을 제안한다. 제안된 모델은 수화기에 출력되는 음성을 녹음하고 네이버 CSR(Cloud Speech Recognition)을 통해 텍스트 파일로 변환한 후 딥러닝 기반의 KoBERT를 바탕으로 다양한 보이스피싱 패턴을 학습하여 실시간 환경에서의 신속하고 정확한 탐지를 위해 실제 통화 데이터를 적절하게 처리하여, 이를 통해 효과적인 보이스피싱 예방에 도움을 줄 것으로 예상된다.

  • PDF

딥러닝 기반 사용자 친화형 키오스크 시스템 (An User-Friendly Kiosk System Based on Deep Learning)

  • 강수연;이유진;정현아;조승아;이형규
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.1-13
    • /
    • 2024
  • 본 연구는 키오스크 사용 증가로 인한 변화에 대응하기 위해 사용자 특성을 고려한 맞춤형 동적 키오스크 화면을 제공하는 것을 목표로 한다. 디지털 취약계층인 시각장애인, 노인, 어린이, 휠체어 사용자 등의 특성에 따른 화면 구성의 최적화를 위해 객체 탐지, 걸음걸이 인식, 음성발화 인식기술을 종합하여 사용자의 특성(휠체어 사용 여부, 시각 장애, 연령 등)을 실시간으로 분석하고, 이를 기반으로 9개의 카테고리로 사용자를 분류한다. 키오스크 화면은 사용자의 특성에 따라 동적으로 조정되어 효율적인 서비스 제공이 가능하다. 본 연구는 임베디드 환경에서 시스템 통신 및 운용이 이루어졌으며, 사용된 객체 탐지, 걸음걸이 인식, 음성발화 인식 기술은 각각 74%, 98.9%, 96%의 정확도를 보여준다. 제안된 기술은 프로토타입을 구현하여 그 효용성을 검증하였으며, 이를 통해 본 연구가 디지털 격차의 축소와 사용자 친화적인 "배리어 프리 키오스크" 서비스 제공의 가능성을 보였다.

안정적인 화상회의 시스템을 위한 알고리즘 (An Algorithm for Stable Video Conference System)

  • 이문구
    • 전자공학회논문지CI
    • /
    • 제42권2호
    • /
    • pp.11-20
    • /
    • 2005
  • 기존의 화상회의 시스템은 화상회의 참석자 수가 n으로 증가함에 따라 대역폭과 메모리가 n^2 요구된다. 그리고 또한, 음성데이터의 전송도 참석자 수가 증가하면 그에 따른 트래픽 증가와 참석자의 발언권에 대한 문제를 갖는다. 본 논문에서는 화상 데이터를 위한 서버 측 버퍼링 기법과 발언권자의 증가에 따른 트래픽 증가 등의 문제를 해결하기위한 침묵탐지기법을 이용한 원격화상회의 알고리즘을 제안한다. 화상 버퍼링 알고리즘은 서버에서 다른 클라이언트로 브로드 캐스팅하는 기법이 아니라, 클라이언트로부터 압축된 비디오데이터를 할당된 버퍼에 전송 받는 서버측 버퍼링 기법과 클라이언트에서 다른 참석자들의 비디오데이터를 자신의 대역폭과 네트워크전송속도에 맞게 얻어가는 클라이언트 인덱스처리방법을 이용한 알고리즘이다. 침묵탐지기법을 이용한 음성전송 알고리즘은 다수의 참석자 중에서 말하지 않는 것으로 탐지된 음성데이터는 서버로 전송하지 않도록 하는 방법이며 채널관리 알고리즘은 우선권이 있는 참석자에게 발언권을 할당하는 방법이다. 제안한 알고리즘을 이용한 원격 화상회의 시스템은 참석자의 수와 관계없이 제한된 메모리와 대역폭 그리고 네트워크전송속도에서 20프레임 이상, 평균 30ms의 안정적인 화상데이터와 음성데이터전송이 이루어졌다.

음향 채널의 '성김' 특성을 이용한 반향환경에서의 화자 위치 탐지 (Speaker Localization in Reverberant Environments Using Sparse Priors on Acoustic Channels)

  • 조지원;박형민
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.135-147
    • /
    • 2008
  • In this paper, we propose a method for source localization in reverberant environments based on an adaptive eigenvalue decomposition (AED) algorithm which directly estimates channel impulse responses from a speaker to microphones. Unfortunately, the AED algorithm may suffer from whitening effects on channels estimated from temporally correlated natural sounds. The proposed method which applies sparse priors to the estimated channels can avoid the temporal whitening and improve the performance of source localization in reverberant environments. Experimental results show the effectiveness of the proposed method.

  • PDF

단어 빈도와 음절 이웃 크기가 한국어 명사의 음성 분절에 미치는 영향 (The Effect of Word Frequency and Neighborhood Density on Spoken Word Segmentation in Korean)

  • 송진영;남기춘;구민모
    • 말소리와 음성과학
    • /
    • 제4권2호
    • /
    • pp.3-20
    • /
    • 2012
  • The purpose of this study was to investigate whether a segmentation unit for a Korean noun is a 'syllable' and whether the process of segmenting spoken words occurs at the lexical level. A syllable monitoring task was administered which required participants to detect an auditorily presented target from visually presented words. In Experiment 1, syllable neighborhood density of high frequency words which can be segmented into both CV-CVC and CVC-VC were controlled. The syllable effect and the neighborhood density effect were significant, and the syllable effect emerged differently depending on the syllable neighborhood density. Similar results were obtained in Experiment 2 where low frequency words were used. The significance of word frequency effect on syllable effect was also examined. The results of Experiments 1 and 2 indicated that the segmentation unit for a Korean noun is indeed a 'syllable', and this process can occur at the lexical level.