음성 인식 연구에서 잡음이 존재하는 음성 발음의 처음과 끝을 찾아내는 것은 매우 중요하다. 음성 종점 탐지를 위한 기존의 방식으로는 2개의 간단한 시간 영역 측정법인 단시간 에너지와 단시간 영점교차 비율 방법이 있다. 위의 방법들은 낮은 신호 대 잡음비의 환경에서는 정확한 결과를 보장 할 수 없기 때문에 본 논문에서는 시간 영역 파형의 리아프노프 지수를 이용하여 음성의 시작과 종점을 구별하는 새로운 접근법을 제시하였다. 제안한 방법은 Mel-Scale특징 방법에서 요구되는 종점 탐지 과정을 위한 주파수 영역 매개변수를 얻는 과정이 필요 없기 때문에 보다 간단하다. 제안한 방법의 성능 검증을 위해 아라비아 숫자의 음성단어 분석에 적용해 보았으며, 결과를 통하여 제안한 방법이 인식률을 현저히 증가시킴을 확인하였다.
음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.
IT 기술의 발달로 인해 뉴스를 제공하는 플랫폼들이 다양해 졌고 최근 해외 인터뷰 영상, 해외 뉴스를 Youtube Shorts형태로 제작하여 화자의 의도와는 다른 자막을 달며 가짜 뉴스가 생성되는 문제가 대두되고 있다. 이에 본 논문에서는 Sentence-BERT를 활용한 YouTube 가짜 뉴스 탐지 시스템을 제안한다. 제안하는 시스템은 Python 라이브러리를 사용해 유튜브 영상에서 음성과 영상 데이터를 분류하고 분류된 영상 데이터는 EasyOCR을 사용해 자막 데이터를 텍스트로 추출 후 Sentence-BERT를 활용해 문자 유사도를 분석한다. 분석결과 음성 데이터와 영상 자막 데이터가 일치한 경우 일치하지 않은 경우보다 약 62% 더 높은 문장 유사도를 보였다.
최근 1인 고령 가구가 증가하고 있지만 1인 가구의 경우 집 안에서 위험 상황이 발생했을 때, 이를 외부에 알리기 힘들다. 이와 같은 1인 가구의 위험 상황을 탐지하기 위해 다양한 스마트홈 솔루션이 제안되고 있지만, 프라이버시 영역에 문제가 있는 홈 CCTV와 같은 영상 매체는 활용 어렵다. 그리고 단일 센서만을 활용하여 집안 내 고령자의 위험 상황을 분석할 경우, 데이터양의 한계로 정확한 상황해석이 제한 된다. 따라서 본 논문에서는 프라이버시를 지킬 수 있으며 실생활에 밀접한 2DLiDAR, 먼지, 음성 센서 간의 상관관계 따른 융합을 통한 집 내부의 위험 상황 탐지 융합 알고리즘을 제안한다. 또한, 본 논문은 실제 환경에서 수집한 데이터를 통해 알고리즘의 신뢰성을 증명한다. 제안하는 알고리즘이 탐지 가능한 위험 상황과 불가능한 상황을 제시한다. 본 논문은 집 안에서 위험 상황을 탐지하는 연구로써 1인 가구 사용자의 생활에 도움이 될 것이다.
데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.
본 논문은 금융 범죄 중 하나인 보이스피싱을 실시간으로 예방하기 위한 탐지 기법을 제안한다. 제안된 모델은 수화기에 출력되는 음성을 녹음하고 네이버 CSR(Cloud Speech Recognition)을 통해 텍스트 파일로 변환한 후 딥러닝 기반의 KoBERT를 바탕으로 다양한 보이스피싱 패턴을 학습하여 실시간 환경에서의 신속하고 정확한 탐지를 위해 실제 통화 데이터를 적절하게 처리하여, 이를 통해 효과적인 보이스피싱 예방에 도움을 줄 것으로 예상된다.
본 연구는 키오스크 사용 증가로 인한 변화에 대응하기 위해 사용자 특성을 고려한 맞춤형 동적 키오스크 화면을 제공하는 것을 목표로 한다. 디지털 취약계층인 시각장애인, 노인, 어린이, 휠체어 사용자 등의 특성에 따른 화면 구성의 최적화를 위해 객체 탐지, 걸음걸이 인식, 음성발화 인식기술을 종합하여 사용자의 특성(휠체어 사용 여부, 시각 장애, 연령 등)을 실시간으로 분석하고, 이를 기반으로 9개의 카테고리로 사용자를 분류한다. 키오스크 화면은 사용자의 특성에 따라 동적으로 조정되어 효율적인 서비스 제공이 가능하다. 본 연구는 임베디드 환경에서 시스템 통신 및 운용이 이루어졌으며, 사용된 객체 탐지, 걸음걸이 인식, 음성발화 인식 기술은 각각 74%, 98.9%, 96%의 정확도를 보여준다. 제안된 기술은 프로토타입을 구현하여 그 효용성을 검증하였으며, 이를 통해 본 연구가 디지털 격차의 축소와 사용자 친화적인 "배리어 프리 키오스크" 서비스 제공의 가능성을 보였다.
기존의 화상회의 시스템은 화상회의 참석자 수가 n으로 증가함에 따라 대역폭과 메모리가 n^2 요구된다. 그리고 또한, 음성데이터의 전송도 참석자 수가 증가하면 그에 따른 트래픽 증가와 참석자의 발언권에 대한 문제를 갖는다. 본 논문에서는 화상 데이터를 위한 서버 측 버퍼링 기법과 발언권자의 증가에 따른 트래픽 증가 등의 문제를 해결하기위한 침묵탐지기법을 이용한 원격화상회의 알고리즘을 제안한다. 화상 버퍼링 알고리즘은 서버에서 다른 클라이언트로 브로드 캐스팅하는 기법이 아니라, 클라이언트로부터 압축된 비디오데이터를 할당된 버퍼에 전송 받는 서버측 버퍼링 기법과 클라이언트에서 다른 참석자들의 비디오데이터를 자신의 대역폭과 네트워크전송속도에 맞게 얻어가는 클라이언트 인덱스처리방법을 이용한 알고리즘이다. 침묵탐지기법을 이용한 음성전송 알고리즘은 다수의 참석자 중에서 말하지 않는 것으로 탐지된 음성데이터는 서버로 전송하지 않도록 하는 방법이며 채널관리 알고리즘은 우선권이 있는 참석자에게 발언권을 할당하는 방법이다. 제안한 알고리즘을 이용한 원격 화상회의 시스템은 참석자의 수와 관계없이 제한된 메모리와 대역폭 그리고 네트워크전송속도에서 20프레임 이상, 평균 30ms의 안정적인 화상데이터와 음성데이터전송이 이루어졌다.
In this paper, we propose a method for source localization in reverberant environments based on an adaptive eigenvalue decomposition (AED) algorithm which directly estimates channel impulse responses from a speaker to microphones. Unfortunately, the AED algorithm may suffer from whitening effects on channels estimated from temporally correlated natural sounds. The proposed method which applies sparse priors to the estimated channels can avoid the temporal whitening and improve the performance of source localization in reverberant environments. Experimental results show the effectiveness of the proposed method.
The purpose of this study was to investigate whether a segmentation unit for a Korean noun is a 'syllable' and whether the process of segmenting spoken words occurs at the lexical level. A syllable monitoring task was administered which required participants to detect an auditorily presented target from visually presented words. In Experiment 1, syllable neighborhood density of high frequency words which can be segmented into both CV-CVC and CVC-VC were controlled. The syllable effect and the neighborhood density effect were significant, and the syllable effect emerged differently depending on the syllable neighborhood density. Similar results were obtained in Experiment 2 where low frequency words were used. The significance of word frequency effect on syllable effect was also examined. The results of Experiments 1 and 2 indicated that the segmentation unit for a Korean noun is indeed a 'syllable', and this process can occur at the lexical level.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.