• 제목/요약/키워드: Speech to Text (STT)

검색결과 40건 처리시간 0.026초

문법성 품질 예측에 기반한 음성 인식 오류 교정 (Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition)

  • 서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF

빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션 (Voice Recognition Speech Correction Application Using Big Data Analysis)

  • 김한결;김도우;임세명;홍두표
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.533-535
    • /
    • 2019
  • 최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.

A Design and Implementation of Online Exhibition Application for Disabled Artists

  • Seung Gyeom Kim;Ha Ram Kang;Tae Hun Kim;Jun Hyeok Lee;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권8호
    • /
    • pp.77-84
    • /
    • 2024
  • 본 논문에서는 장애인 예술인의 예술 작품을 전시할 수 있는 안드로이드 플랫폼 기반의 온라인 전시 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 장애인 예술인을 위한 사용자 편의성을 고려한다. 특히 시각 및 청각 장애인을 위한 STT, TTS 기능을 제공한다. 또한, 장애인 예술인의 전시 작품을 위해 회원가입 시 장애 등록증과 등록번호를 활용하여 장애인 인증이 가능하도록 구현함으로써 인증된 장애 예술인만 작품을 전시할 수 있도록 구현한다. 장애인 예술인에 대한 개인정보와 예술 작품에 대한 정보를 저장하는 데이터베이스는 MySQL로 구현한다. 서버 모듈은 RestAPI를 활용하여 JSON 형태의 데이터를 전송하도록 구현한다. 예술 작품에 대한 정보는 데이터 용량이 크기 때문에 서버에 직접 저장하지 않고 Firebase Storage를 활용하여 데이터 용량 제한 없이 저장하도록 구현한다. 이 애플리케이션은 장애 예술인의 전시 공간 부족과 일반 대중과의 소통 부족 문제를 완화할 수 있다.

음성 기반 상담의 품질 평가를 위한 자동화 기법 (A Method of Automated Quality Evaluation for Voice-Based Consultation)

  • 이건수;김중연
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.69-75
    • /
    • 2021
  • 언택트 시대의 시작으로, 온라인 산업의 성장 속도는 점차 빨라지고 있다. 온라인 산업이 성장할수록, 고객 관리에 대한 중요성은 높아지며, 그 접점에 존재하는 컨택센터 시장 역시 성장하고 있다. 언택트 시대의 주요 서비스 분야인 컨택센터의 업무가 노동 집약적이라는 아이러니를 극복하고 컨택센터 업무 효율을 증가시키기 위한 다양한 업무 자동화 기술 개발 연구들이 활발하게 진행되고 있다. 본 연구는 업무 자체는 정형적이지만, 그 중요성이 높아 업무 자동화의 효율이 높은 대표적인 컨택센터의 업무 중 하나인 품질평가 업무의 자동화 방법을 제안한다. 제안 방법은 채널 분리된 상담 내용 녹취 내용을 토대로, 음성 인식 결과를 획득한 뒤, 문장단위 발화 내용을 분석하여, 정량 평가 항목인 도입부 평가, 응대 중 경청과 침묵 평가, 그리고 마무리 평가를 수행한 후 수행 결과를 평가표에 맞춰 출력하는 단계를 따른다. 제안 방법은 전문가의 평가 결과 대비 92.7% 일치율을 보였다. 불일치 케이스의 경우, 주로 음성 인식의 오류에 기인한 경우였다. 따라서 음성 인식 결과의 신뢰도가 보장된다면, 본 논문에서 제안한 방법을 통해 자동화된 품질평가로 해당 업무 효율을 증대시킬 수 있을 것이다.

텍스트마이닝 기반 아동 감정 분석 시스템 및 아동용 감정 사전 구축 방안 (A Child Emotion Analysis System using Text Mining and Method for Constructing a Children's Emotion Dictionary)

  • 박영준;김선용;김요한
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.545-550
    • /
    • 2024
  • 급격하게 변화되는 사회 속에서 현대인들은 다양한 스트레스를 경험하고 있으며, 아동 또한 정신 건강 진료량이 눈에 띄게 증가하고 있다. 소아정신건강장애 등 아동의 정신 건강 문제를 예방하기 위해서는 감정 상태를 빠르게 파악해야 하지만, 유아기 아동들은 몇 가지 단어만을 사용하여 자신의 감정을 표현하는 경우가 많기에 어려움이 있다. 본 논문에서는 아동 심리 상태를 우울, 불안, 외로움, 두려움 등 4가지의 감정으로 세분화하고 아동 심리 전문가의 점수를 기반으로 한 아동용 감정 사전 구축 방안을 제안한다. 또한, STT 및 텍스트 마이닝 기반의 아동 감정 분석 시스템을 제안하고 실제 음성 데이터로 성능을 평가하였다. 평가 결과는 제안한 아동용 감정 분석 시스템이 아동 감정 상태를 정확하게 파악할 수 있음을 보여준다.

장애인을 위한 음성 인터페이스 설계 (Designing Voice Interface for The Disabled)

  • 최동욱;이지훈;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.697-699
    • /
    • 2019
  • IT 기술의 발달에 따라 전자기기의 이용량은 증가하였지만, 시각장애인들이나 지체 장애인들이 이용하는 데에 어려움이 있다. 따라서 본 논문에서는 Google Cloud API를 활용하여 음성으로 프로그램을 제어할 수 있는 음성 인터페이스를 제안한다. Google Cloud에서 제공하는 STT(Speech To Text)와 TTS(Text To Speech) API를 이용하여 사용자의 음성을 인식하면 텍스트로 변환된 음성이 시스템을 통해 응용 프로그램을 제어할 수 있도록 설계한다. 이 시스템은 장애인들이 전자기기를 사용하는데 많은 편리함을 줄 것으로 예상하며 나아가 장애인들뿐 아니라 비장애인들도 활용 가능할 것으로 기대한다.

Primary Study for dialogue based on Ordering Chatbot

  • Kim, Ji-Ho;Park, JongWon;Moon, Ji-Bum;Lee, Yulim;Yoon, Andy Kyung-yong
    • Journal of Multimedia Information System
    • /
    • 제5권3호
    • /
    • pp.209-214
    • /
    • 2018
  • Today is the era of artificial intelligence. With the development of artificial intelligence, machines have begun to impersonate various human characteristics today. Chatbot is one instance of this interactive artificial intelligence. Chatbot is a computer program that enables to conduct natural conversations with people. As mentioned above, Chatbot conducted conversations in text, but Chatbot, in this study evolves to perform commands based on speech-recognition. In order for Chatbot to perfectly emulate a human dialogue, it is necessary to analyze the sentence correctly and extract appropriate response. To accomplish this, the sentence is classified into three types: objects, actions, and preferences. This study shows how objects is analyzed and processed, and also demonstrates the possibility of evolving from an elementary model to an advanced intelligent system. By this study, it will be evaluated that speech-recognition based Chatbot have improved order-processing time efficiency compared to text based Chatbot. Once this study is done, speech-recognition based Chatbot have the potential to automate customer service and reduce human effort.

A Design and Implementation of The Deep Learning-Based Senior Care Service Application Using AI Speaker

  • Mun Seop Yun;Sang Hyuk Yoon;Ki Won Lee;Se Hoon Kim;Min Woo Lee;Ho-Young Kwak;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.23-30
    • /
    • 2024
  • 본 논문에서는 딥러닝 기반의 개인 맞춤형 실버세대 케어 서비스 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 사용자의 편의성을 고려하여 STT(Speech to Text) 기술을 사용해 사용자의 발화를 텍스트로 변환하고, 이를 Microsoft 사의 대화형 멀티 에이전트 거대 언어 모델인 Autogen의 입력으로 사용한다. Autogen은 사용자와 ChatBot의 대화 데이터를 활용하여 상대방의 의도를 파악하여 답변에 대하여 응답한다. 그리고 백엔드 에이전트를 활용하여 위시리스트, 공유 달력 그리고 보이스 클로닝을 위한 딥러닝 모델을 통해 상대방의 목소리가 담긴 안부 메시지 기능을 제공한다. 또한, 애플리케이션은 SKT 사의 인공지능 누구(NUGU) 스피커를 탑재하여 홈 IoT 서비스 기능을 제공한다. 이러한 기능을 통해 제안하는 지능형 애플리케이션은 향후 미래 인공지능 기반의 실버세대 케어 기술에 기여할 것이다.

인공지능 기반의 말더듬 자동분류 방법: 합성곱신경망(CNN) 활용 (AI-based stuttering automatic classification method: Using a convolutional neural network)

  • 박진;이창균
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.71-80
    • /
    • 2023
  • 본 연구는 말더듬 화자들의 음성 데이터를 기반으로 하여, 인공지능 기술을 활용한 말더듬 자동 식별 방법을 개발하는 것을 주목적으로 진행되었다. 특히, 한국어를 모국어로 하는 말더듬 화자들을 대상으로 CNN(convolutional neural network) 알고리즘을 활용한 식별기 모델을 개발하고자 하였다. 이를 위해 말더듬 성인 9명과 정상화자 9명을 대상으로 음성 데이터를 수집하고, Google Cloud STT(Speech-To-Text)를 활용하여 어절 단위로 자동 분할한 후 유창, 막힘, 연장, 반복 등의 라벨을 부여하였다. 또한 MFCCs(mel frequency cepstral coefficients)를 추출하여 CNN 알고리즘을 기반한 말더듬 자동 식별기 모델을 수립하고자 하였다. 연장의 경우 수집결과가 5건으로 나타나 식별기 모델에서 제외하였다. 검증 결과, 정확도는 0.96으로 나타났고, 분류성능인 F1-score는 '유창'은 1.00, '막힘'은 0.67, '반복'은 0.74로 나타났다. CNN 알고리즘을 기반한 말더듬 자동분류 식별기의 효과를 확인하였으나, 막힘 및 반복유형에서는 성능이 미흡한 것으로 나타났다. 향후 말더듬의 유형별 충분한 데이터 수집을 통해 추가적인 성능 검증이 필요함을 확인하였다. 향후 말더듬 화자의 발화 빅데이터 확보를 통해 보다 신뢰성 있는 말더듬 자동 식별 기술의 개발과 함께 이를 통한 좀 더 고도화된 평가 및 중재 관련 서비스가 창출되기를 기대해 본다.

N-Best Re-ranking에 기반한 한국어 음성 인식 성능 개선 (N-Best Reranking for Improving Automatic Speech Recognition of Korean)

  • 이정;서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.442-446
    • /
    • 2022
  • 자동 음성 인식(Automatic Speech Recognition) 혹은 Speech-to-Text(STT)는 컴퓨터가 사람이 말하는 음성 언어를 텍스트 데이터로 전환하는 일련의 처리나 기술 등을 일컫는다. 음성 인식 기술이 다양한 산업 전반에 걸쳐 적용됨에 따라 높은 수준의 정확도와 더불어 다양한 분야에 적용할 수 있는 음성 인식 기술에 대한 필요성이 점차 증대되고 있다. 다만 한국어 음성 인식의 경우 기존 선행 연구에 비해 예사말/높임말의 구분이나 어미, 조사 등의 인식에 어려움이 있어 음성 인식 결과 후처리를 통한 성능 개선이 중요하다. 따라서 본 논문에서는 N-Best 음성 인식 결과가 구성되었을 때 Re-ranking을 통해 한국어 음성 인식의 성능을 개선하는 모델을 제안한다.

  • PDF