• 제목/요약/키워드: 음성-텍스트 변환

검색결과 75건 처리시간 0.024초

음성과 이미지를 이용한 동영상 검색에 관한 연구 (A Study Video using Image and Voice Search)

  • 신인경;박성현;안효창;이상범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.568-571
    • /
    • 2012
  • 정보화 사회의 정보 기반 구조로서, 고속 정보망의 구축, 개인용 컴퓨터의 급속한 보급, 멀티미디어 기술의 발전 등으로 인하여 정보 서비스의 새로운 장이 열리고 있다. 동영상 데이터는 텍스트만이 아니라 영상정보, 음성정보등 각종 의미있는 다양한 멀티미디어 정보를 포함하고 있다. 본 논문에서는 동영상에서 음성과 영상을 분리하여 음성을 이용하여 음성열을 분할 및 복원하여 음성을 텍스트로 변환하여 텍스트색인파일을 만들고 영상은 이미지를 분할 및 히스토그램을 사용하여 이미지 샷을 검출하여 두 색인파일을 이용하여 인덱싱을 하여 동영상 검색에 활용한다.

음성-텍스트 변환 어플리케이션을 이용한 원격 모니터링이 건강한 성인의 작업균형에 미치는 효과 (Effects of the Tele-Monitoring With the Speech-to-Text Application on Occupational Balance in Healthy Adults : Feasibility Study)

  • 나남희;이성아;이영현;이상헌;황도연;박진혁
    • 재활치료과학
    • /
    • 제11권3호
    • /
    • pp.93-106
    • /
    • 2022
  • 목적 : 본 연구의 목적은 음성-텍스트 변환 어플리케이션을 이용한 원격 모니터링이 건강한 성인의 작업균형에 미치는 효과를 알아보기 위함이다. 연구방법 : 총 7명의 건강한 성인을 대상으로 연구를 진행하였다. 대상자는 실험에 참여 전, 원하는 작업 활동을 선택하였고 이를 스마트폰에 설치한 음성-텍스트 변환 어플리케이션에 등록하였다. 음성-텍스트 변환 어플리케이션은 미리 등록된 작업 활동을 시간에 맞춰 수행 여부를 확인할 수 있도록 알람을 제공하였고 대상자는 음성으로 수행 여부를 등록하였다. 원격 모니터링은 일주일 동안 진행하였고 일주일 뒤, 작업 활동의 변화를 살펴보았다. 결과 : 대상자 모두 일주일 동안 어플리케이션 사용에 높은 순응도와 만족도를 보였다. 또한 일주일 뒤, 건강과 관련된 작업 활동의 균형이 유의하게 향상되었다(p<.05). 결론 : 본 연구 결과는 스마트폰을 이용한 원격 모니터링이 코로나19로 인한 봉쇄 기간 동안 작업 균형을 회복하는 방법으로 사용 가능함을 시사한다.

단위 또는 약어의 의미에 맞는 풀 네임(fulI name) 음성 출력 방법에 관한 연구 (A Study on Smart Text Reader for converting Text through TTS)

  • 박안나;손병준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.806-808
    • /
    • 2014
  • 현재까지의 음성 출력 시스템은 텍스트를 있는 그대로 읽어 주는 것에 불과했다. 단위, 약어의 경우 알파벳을 그대로 읽어 주게 되어 그 본래의 의미를 제대로 파악하기 어려웠다. 본 연구에서는 단위나 약어의 본래의 의미를 찾아서 풀어서 음성 변환해 주는 방법을 제안함으로써 시각 장애인에게도 텍스트의 정확한 정보를 전달할 수 있다는 장점이 있다.

피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식 (Conformer-based Elderly Speech Recognition using Feature Fusion Module)

  • 이민식;김지희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

메타버스 환경에서 음성 혐오 발언 탐지를 위한 딥러닝 모델 설계 (Deep Learning Model for Metaverse Environment to Detect Metaphor)

  • 송진수;딜노자;손승우;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.621-623
    • /
    • 2022
  • 최근 코로나19로 인해 비대면으로 소통할 수 있는 플랫폼에 대한 관심이 증가하고 있으며, 가상 세계의 개념을 도입한 메타버스 플랫폼이 MZ세대의 새로운 SNS로 떠오르고 있다. 아바타를 통해 상호 교류가 가능한 메타버스는 텍스트 기반의 소통뿐만 아니라 음성과 동작 시선 등을 활용하여 변화된 의사소통 방식을 사용한다. 음성을 활용한 소통이 증가함에 따라 다른 이용자에게 불쾌감을 주는 혐오 발언에 대한 신고가 증가하고 있다. 그러나 기존 혐오 발언 탐지 시스템은 텍스트를 기반으로 하여 사전에 정의된 혐오 키워드만 특수문자로 대체하는 방식을 사용하기 때문에 음성 혐오 발언에 대해서는 탐지하지 못한다. 이에 본 논문에서는 인공지능을 활용한 음성 혐오 표현 탐지 시스템을 제안한다. 제안하는 시스템은 음성 데이터의 파형을 통해 은유적 혐오 표현과 혐오 발언에 대한 감정적 특징을 추출하고 음성 데이터를 텍스트 데이터로 변환하여 혐오 문장을 탐지한 결과와 결합한다. 향후, 제안하는 시스템의 현실적인 검증을 위해 시스템 구축을 통한 성능평가가 필요하다.

POP3와 HTTP를 이용한 메일 전송 에이전트 (A Mail Transport Agent Using POP3 and HTTP)

  • 유경종;이부권
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(하)
    • /
    • pp.665-668
    • /
    • 2002
  • 현재 인터넷 서비스 중에서 가장 많이 사용되는 서비스는 이메일이다. 본 연구에서는 POP3로부터 전송받은 이메일 메시지와 HTTP를 통해 접속한 웹메일 시스템의 이메일 메시지를 분석하여 제목, 보낸이, 본문 메시지와 특정 첨부파일을 분리해낸 후 USB에 연결된 아바타 로봇시스템에 전송 및 재생하는 시스템을 설계 및 구현하였다. 텍스트 메시지는 음성 변환 모듈을 통해 음성 파일로 변환하여 전송하게 되고, 특정 확장자의 첨부 파일은 바로 전송된다.

  • PDF

한국어 Text-to-Speech 변환을 위한 음운 변동 시스템에 관한 연구 (Implementation to phonological alteration module for a korean text-to-speech)

  • 박수현;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-38
    • /
    • 1995
  • Text-to-speech 시스템은 텍스트를 입력으로 받아 텍스트와 일치하는 음성을 출력하는 시스템으로, 인간이 자신의 모국어로 텍스트를 읽는 것과 비슷한 수준의 음성을 출력하는 데 목적이 있다. 한국어의 각 단어들은 한 단어 내에 있는 형태소들 사이에 음운 변동 현상을 일으켜 쓰여진 형태와 다르게 발음된다. 그러므로 한국어 텍스트를 자연스럽게 발음하기 위해서는 음운 변동 현상을 효율적으로 처리할 수 있어야 한다. 한국어에서 음운 변동을 일으키는 규칙은 여러 가지이고, 정확한 발음을 위해서는 이러한 규칙들이 차례대로 적용되어져야 한다. 따라서 본 논문에서는 이러한 한국어의 발음상의 특성을 고려하여 two-level 모델에 기반한 음운 변동 시스템을 구현한다.

  • PDF

이미지 검색을 위한 특징용어 기반 검색 기법 (Feature Term Based Retrieval Method for Image Retrieval)

  • 박성희;허정;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.576-578
    • /
    • 2003
  • 본 논문에서는 이미지 검색을 위한 새로운 검색 기법을 제시한다. 기존의 특징기반 검색 기법이나 주석기반 검색 기법은 특징이나 주석에 대하여 색인 형태나 질의 형태가 동일하였다. 그러나, 제안하는 검색 기법은 위의 두 전형적인 검색기법을 혼합한 것으로, 텍스트로 질의하면 질의 텍스트를 질의처리를 통해 텍스트에 포함된 특징용어를 추출하고 특징용어를 이미지가 본질적으로 가지는 특징(color, shape, texture)으로 변환한 다음 그 특징을 질의로 이용하여 특징기반 검색을 하는 기법이다. 이러한 기법은 현재 사용자에게 친숙한 텍스트 질의를 유지할 수 있게 해 주며 앞으로 음성인식을 통한 음성 질의인터페이스가 적용될 경우 더욱 효과적으로 사용될 수 있을 것이다.

  • PDF

의료분야를 위한 영어 발음열 생성 시스템 (A Generation System of English Pronunciation for the medical domain)

  • 김아름;정경석;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.793-796
    • /
    • 2004
  • 본 논문은 의료분야의 음성 인식 시스템의 발음모델의 성능 향상에 필요한 올바른 영어 단어 발음열을 얻고자 한다. 본 시스템의 텍스트는 의료 전문 용어인 영어와 한글의 조합으로 되어있어, 한국어 G2P 성능뿐만 아니라 영어 G2P의 성능도 중요한 문제가 되고 있다. 또한 본 시스템의 의료 음성 데이터가 한국 화자로써, 표기열이 영어식 발음 폰셋으로 변환되면 효율적이지 못하다. 이를 위해, 영어 G2P의 결과를 한국 화자에 적합하게 변환해주는 방법론이 필요하게 된다. 따라서 본 논문에서 제안하는 방법은 음성 텍스트에서 영어만 추출한 후, 영어 G2P 프로그램(addttp, NIST)을 이용해 발음열을 구한다. 그리고 한국 화자의 실제 음성을 통해 얻은 정답 발음열을 구하여 서로 비교한다. 비교를 위해 각 발음열의 한 폰씩 정렬을 수행한 후, 삽입, 삭제, 대치 에러가 이러나는 쌍과 좌우 바이그램 정보를 추출한다. 마지막으로, 좌우 바이그램 정보에서 best1의 에러 패턴을 통해 모든 단어에 적용한다. 이 때, 최종적으로 실보다 득이 되는 에러패턴만을 추출, 적용한다. 실험에서는 26여개의 에러 패턴을 찾을 수 있어, 8%의 올바른 발음열을 추가적으로 얻는데 성공하였다.

  • PDF

음성 인식 기반 쇼핑 어플리케이션 개발을 위한 데이터 전처리 알고리즘 (Data Preprocessing Algorithm for Developing Voice Recognition-based Shopping Applications)

  • 구연우;박은비;추서연;김유정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.1006-1008
    • /
    • 2022
  • 시각장애인이 이미지로 구성된 온라인 쇼핑몰에서 정보를 얻기 어려운 문제를 해결하기 위해, 본 논문에서는 이미지 텍스트 변환 알고리즘 연구를 진행하였다. 해당 연구를 기반으로 개발한 어플리케이션 <들리네>는 쇼핑몰 홈페이지로부터 정보를 수집하고, 이미지 속 텍스트를 추출하여 전처리 및 음성 변환 과정을 거쳐 사용자에게 제공한다. <들리네>는 사용자가 이미지 정보로 이루어진 온라인 쇼핑몰에서 명확한 정보를 편리하게 얻는 것을 목표로 한다.