• 제목/요약/키워드: AI스피커

검색결과 76건 처리시간 0.02초

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

사각영역이 없는 전방향 음원인식을 위한 QRAS 기반의 알고리즘 (QRAS-based Algorithm for Omnidirectional Sound Source Determination Without Blind Spots)

  • 김영언;박구만
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.91-103
    • /
    • 2022
  • 음원의 음량, 방향 및 음원까지의 거리와 같은 음원의 특성을 인식하는 것은 자율주행차, 로봇 시스템, AI 스피커 등 무인 시스템에서 중요한 기술 중의 하나이다. 음원의 방향이나 거리를 인식하는 방법은 레이다, 라이더, 초음파 및 고주파와 소리를 이용하는 방법이 있다. 그러나 이러한 방법은 신호를 발신하여야 하며, 장애물에 의한 비가시 영역에서 발생하는 음원은 정확하게 인식할 수 없다. 본 논문에서는 비가시 영역을 포함한 주변에서 발생하는 음원의 음량, 방향 및 음원까지의 거리를 인식하는 방법으로 가청 주파수 대역의 소리를 검출하여 인식하는 방법을 구현하고 평가하였다. 음원을 인식하기 위하여 주로 사용하는 교차형 기반의 음원인식 알고리즘은 음원의 음량과 방향을 인식할 수 있으나 사각영역이 발생하는 문제가 있다. 뿐만아니라 이 알고리즘은 음원까지의 거리를 인식할 수 없다는 제약이 있다. 이러한 기존 방법의 한계를 탈피하기 위하여, 본 논문에서는 교차형 기반의 알고리즘보다 더 발전된 직사각형 기법을 사용한 QRAS 기반의 알고리즘으로 음원의 음량, 방향 및 음원까지의 거리를 인식하여 음원의 특성을 파악할 수 있는 음원인식 알고리즘을 제안한다. 전방향 음원인식을 위한 QRAS 기반의 알고리즘은 직사각형으로 배치된 4개의 음향센서에 의하여 도출되는 6쌍의 음향 도착 시간차를 사용한다. QRAS 기반의 알고리즘은 기존 교차형 기반의 알고리즘으로 음원을 인식할 때 발생하는 사각영역과 같은 문제점을 해결할 수 있으며, 음원까지의 거리도 인식할 수 있다. 실험을 통하여 제안된 전방향 음원 인식을 위한 QRAS 기반의 알고리즘은 사각영역없이 음원의 음량, 방향 및 음원까지의 거리를 인식할 수 있음을 확인하였다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

도심항공모빌리티 비행체 PAV 탑승자 실내행위에 영향을 미치는 제약 요소 도출 및 인체 영향 수준에 따른 설계 기준 (Derivation of Constraint Factors Affecting Passenger's In-Vehicle Activity of Urban Air Mobility's Personal Air Vehicle and Design Criteria According to the Level of Human Impact)

  • 진석준;오영훈;주다영
    • 감성과학
    • /
    • 제25권1호
    • /
    • pp.3-20
    • /
    • 2022
  • 최근 도심항공모빌리티(UAM) 상용화에 앞서 도심 내 항공 교통수단 관련 산업에 대한 연구개발 중요성이 급격히 증가하고 있다. 도심항공모빌리티(UAM) 환경을 조성하기 위해서 핵심 항공 이동 수단 비행체인 개인용 항공기(PAV) 기체에 관한 연구가 수행되고 있으나, 탑승자 관점의 연구가 상대적으로 부족한 상황이다. 특히 PAV는 탑승자의 새로운 생활공간으로 활용될 것으로 예상되기 때문에 탑승자의 실내행위를 지원하는 실내공간 설계를 위해서는 PAV 기체에서 발생하는 물리적 요소가 인체에 미치는 영향에 관한 연구가 필수적으로 이루어져야 한다. 이에 본 연구의 목적은 PAV의 공중 운항 특성으로 인해 인체에 영향을 주는 제약 요소를 도출하고, 이러한 제약 요소가 실내행위를 수행하는 탑승자 인체에 미치는 영향을 파악하는 것이다. 본 연구 결과, 항공 이동 수단 비행 기체 PAV는 4,000ft 이하에서 운항해야 하는 기준에 따라, 운항고도에 따른 제약 요소는 소음, 진동, 저주파 운동에 의한 멀미로 나타났다. 이러한 제약 요소가 실내행위에 영향을 미친다는 관점에서 PAV에서 행할 수 있는 실내행위를 자율주행 자동차, 비행기, PAV 컨셉 사례를 활용하여 도출하고 인체에 미치는 영향과 수준을 고려하여 실내행위 지원을 위한 제약 요소 권장기준을 설정하였다. 또한 실내행위 지원을 위한 제약 요소의 인체 영향 수준을 감소시키기 위해서는 시트의 형태 및 내장기능(진동 저감 기능, 온도조절, LED조명 등), 개인 좌석별 지향성 스피커를 활용한 외부소음 감소, 소음과 진동 감소를 위한 내장재 등을 실내공간 설계에 반영해야 함을 제시하였다. 본 연구는 PAV 실내행위에 영향을 주는 제약 요소를 도출하였고, 인체에 미치는 영향 수준을 확인하였으며, 추후 PAV 실내 설계 시 기초자료로써 활용할 수 있다는 점에서 의미가 있다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.