• 제목/요약/키워드: text information

검색결과 4,380건 처리시간 0.027초

문장 독립 화자 인증을 위한 세그멘트 단위 혼합 계층 심층신경망 (Segment unit shuffling layer in deep neural networks for text-independent speaker verification)

  • 허정우;심혜진;김주호;유하진
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.148-154
    • /
    • 2021
  • 문장 독립 화자 인증 연구에서는 일반화 성능 향상을 위해 문장 정보와 독립적인 화자 특징을 추출하는 것이 필수적이다. 그렇지만 심층 신경망은 학습 데이터에 의존적이므로, 동일한 시계열 정보를 반복 학습할 경우, 화자 정보를 학습하는 대신 문장 정보에 과적합 될 수 있다. 본 논문에서는 이러한 과적합을 방지하기 위해 시간 축으로 입력층 혹은 은닉층을 분할 및 무작위 재배열하여 시계열 정보의 순서를 뒤섞는 세그멘트 단위 혼합 계층을 제안한다. 세그멘트 단위 혼합 계층은 입력층 뿐만 아니라 은닉층에도 적용이 가능하므로, 입력층에서의 일반화 기법에 비해 효과적이라 알려진 은닉층에서의 일반화 기법으로 활용이 가능하며, 기존의 데이터 증강 방법과 동시에 적용할 수도 있다. 뿐만아니라, 세그멘트의 단위 크기를 조절하여 혼합의 정도를 조절할 수도 있다. 본 논문에서는 제안한 방법을 적용하여 문장 독립 화자 인증 성능이 개선됨을 확인하였다.

A Study on the Impact of Speech Data Quality on Speech Recognition Models

  • Yeong-Jin Kim;Hyun-Jong Cha;Ah Reum Kang
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.41-49
    • /
    • 2024
  • 현재 음성인식 기술은 꾸준히 발전하고 다양한 분야에서 널리 사용되고 있다. 본 연구에서는 음성 데이터 품질이 음성인식 모델에 미치는 영향을 알아보기 위해 데이터셋을 전체 데이터셋과 SNR 상위 70%의 데이터셋으로 나눈 후 Seamless M4T와 Google Cloud Speech-to-Text를 이용하여 각 모델의 텍스트 변환 결과를 확인하고 Levenshtein Distance를 사용하여 평가하였다. 실험 결과에서 Seamless M4T는 높은 SNR(신호 대 잡음비)을 가진 데이터를 사용한 모델에서 점수가 13.6으로 전체 데이터셋의 점수인 16.6보다 더 낮게 나왔다. 그러나 Google Cloud Speech-to-Text는 전체 데이터셋에서 8.3으로 높은 SNR을 가진 데이터보다 더 낮은 점수가 나왔다. 이는 새로운 음성인식 모델을 훈련할 때 SNR이 높은 데이터를 사용하는 것이 영향이 있다고 할 수 있으며, Levenshtein Distance 알고리즘이 음성인식 모델을 평가하기 위한 지표 중 하나로 쓰일 수 있음을 나타낸다.

An Audio-Visual Teaching Aid (AVTA) with Scrolling Display and Speech to Text over the Internet

  • Davood Khalili;Chung, Wan-Young
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 V
    • /
    • pp.2649-2652
    • /
    • 2003
  • In this Paper, an Audio-Visual Teaching aid (AVTA) for use in a classroom and with Internet is presented. A system, which was designed and tested, consists of a wireless Microphone system, Text to Speech conversion Software, Noise filtering circuit and a Computer. An IBM compatible PC with sound card and Network Interface card and a Web browser and a voice and text messenger service were used to provide slightly delayed text and also voice over the internet for remote teaming, while providing scrolling text from a real time lecture in a classroom. The motivation for design of this system, was to aid Korean students who may have difficulty in listening comprehension while have, fairly good reading ability of text. This application of this system is twofold. On one hand it will help the students in a class to view and listen to a lecture, and on the other hand, it will serve as a vehicle for remote access (audio and text) for a classroom lecture. The project provides a simple and low cost solution to remote learning and also allows a student to have access to classroom in emergency situations when the student, can not attend a class. In addition, such system allows the student in capturing a teacher's lecture in audio and text form, without the need to be present in class or having to take many notes. This system will therefore help students in many ways.

  • PDF

GalaxyTBM을 이용한 Clostridium hylemonae의 ᴅ-Psicose 3-Epimerase (DPE) 단백질 구조 예측

  • 이현진;박지현;최연욱;이근우
    • EDISON SW 활용 경진대회 논문집
    • /
    • 제4회(2015년)
    • /
    • pp.177-183
    • /
    • 2015
  • $\text\tiny{D}$-Psicose 3-Epimerase (DPE)는 $\text\tiny{D}$-Fructose의 C3 Epimerase로써 $\text\tiny{D}$-Fructose를 $\text\tiny{D}$-Psicose로 전환해 주는 효소이다. $\text\tiny{D}$-Psicose는 설탕 대신 사용하는 감미료로 몸에 흡수되지 않아 칼로리가 없다고 알려져 있고 자연에서는 오로지 DPE에 의해서만 생산되는 희귀당이다. 이에 따라 DPE를 통한 $\text\tiny{D}$-Psicose 대량생산의 필요성이 대두되고 있는 등 이 분야에 대한 관심이 뜨거운 실정이다. 본 연구팀은 이 당과 관련된 작용기작 연구를 수행하기 위하여 아직 단백질 3차구조가 알려지지 않은 Clostridium hylemonae DPE (chDPE) 단백질의 3차 구조예측 연구를 수행 하였다. 우리는 HHsearch를 이용하여 agrobacterium tumefaciens의 DPE 외 2개의 구조를 호몰로지 모델링 연구를 위한 주형으로 선정하였다. 다음으로 PROMALS3D를 이용하여 주형들과 chDPE의 multiple sequence alignment를 수행하였고 이를 바탕으로 3차구조 예측 연구를 수행 하였다. 예측된 구조를 검증하기 위하여 ProSA와 Ramachandran plot분석을 이용하였고 Ramachandran plot에서 단백질의 94.8%에 해당하는 잔기들이 favoured regions에 위치하였다. ProSA에서는 Z-score값이 -9.3으로 X-선 결정학이나 핵자기 공명법으로 밝혀진 구조들에서 관측되는 범위 내에 위치하였다. 나아가 예측된 구조에 $\text\tiny{D}$-Psicose와 $\text\tiny{D}$-Fructose의 결합모드를 규명하기 위하여 도킹을 시도하였다. 이번 연구를 통하여 chDPE의 구조를 예측 할 수 있었고 이를 바탕으로 이 단백질의 기능을 이해하는데 도움을 줄 것으로 기대된다.

  • PDF

YOLO, EAST: 신경망 모델을 이용한 문자열 위치 검출 성능 비교 (YOLO, EAST : Comparison of Scene Text Detection Performance, Using a Neural Network Model)

  • 박찬용;임영민;정승대;조영혁;이병철;이규현;김진욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.115-124
    • /
    • 2022
  • 본 논문에서는 최근 다양한 분야에서 많이 활용되고 있는 YOLO와 EAST 신경망을 이미지 속 문자열 탐지문제에 적용해보고 이들의 성능을 비교분석 해 보았다. YOLO 신경망은 일반적으로 이미지 속 문자영역 탐지에 낮은 성능을 보인다고 알려졌으나, 실험결과 YOLOv3는 문자열 탐지에 비교적 약점을 보이지만 최근 출시된 YOLOv4와 YOLOv5의 경우 다양한 형태의 이미지 속에 있는 한글과 영문 문자열 탐지에 뛰어난 성능을 보여줌을 확인하였다. 따라서, 이들 YOLO 신경망 기반 문자열 탐지방법이 향후 문자 인식 분야에서 많이 활용될 것으로 전망한다.

국내단행본 원문정보서비스의 경제적 가치 측정에 관한 연구 (A Study on the Economic Value Measurement of Domestic Monograph Full-Text Information Services)

  • 류희경;이두영
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.111-128
    • /
    • 2006
  • 이 연구의 목적은 도서관이 데이터베이스 구축에 많은 비용을 투자할 가치가 있는지를 결정하기 위하여 원문정보서비스의 경제적 가치를 측정하는 것이다. 경제적 가치 측정을 위하여 조건부가치측정법을 적용하였다. 비시장재인 국내단행본 원문정보서비스의 가치를 측정하기 위해 가상시나리오를 설계하고 설문의 신뢰도를 높이기 위해 사전조사와 전문가의 검토, 질문방법으로 이중양분선택형을 선택하였다. 연구 결과, 국내단행본 원문정보서비스에 대해 이용자 1인당 지불하고자 하는 사용가치는 1책당 836원, 비사용가치는 연간 236원으로 측정되었다. 대학생 전체의 연간 경제적 총 가치는 831.8억원으로 산출되었다.

R&D Perspective Social Issue Packaging using Text Analysis

  • Wong, William Xiu Shun;Kim, Namgyu
    • 한국IT서비스학회지
    • /
    • 제15권3호
    • /
    • pp.71-95
    • /
    • 2016
  • In recent years, text mining has been used to extract meaningful insights from the large volume of unstructured text data sets of various domains. As one of the most representative text mining applications, topic modeling has been widely used to extract main topics in the form of a set of keywords extracted from a large collection of documents. In general, topic modeling is performed according to the weighted frequency of words in a document corpus. However, general topic modeling cannot discover the relation between documents if the documents share only a few terms, although the documents are in fact strongly related from a particular perspective. For instance, a document about "sexual offense" and another document about "silver industry for aged persons" might not be classified into the same topic because they may not share many key terms. However, these two documents can be strongly related from the R&D perspective because some technologies, such as "RF Tag," "CCTV," and "Heart Rate Sensor," are core components of both "sexual offense" and "silver industry." Thus, in this study, we attempted to discover the differences between the results of general topic modeling and R&D perspective topic modeling. Furthermore, we package social issues from the R&D perspective and present a prototype system, which provides a package of news articles for each R&D issue. Finally, we analyze the quality of R&D perspective topic modeling and provide the results of inter- and intra-topic analysis.

S&T Text Mining을 이용한 국방 유망기술 식별에 관한 연구 (A Study on the Identifying Emerging Defense Technology using S&T Text Mining)

  • 이태봉;이춘주
    • 한국국방경영분석학회지
    • /
    • 제36권1호
    • /
    • pp.39-49
    • /
    • 2010
  • 본 연구에서는 과학기술 텍스트 마이닝을 이용하여 국방 유망기술을 식별하는 방법론을 제안하고 있다. 그동안 국가차원에서 NTIS와 DTiMS를 포함한 과학기술 관련 정보체계를 구축하는데 많은 노력을 기울여왔는데 과학기술 정보체계는 연구자와 정책입안자, 또는 실무자들이 기술적 변화를 분석하고 효율적인 업무진행, 지식공유, 전략개발, 또는 조직의 경쟁력을 높이기 위한 정책개발에 활용성이 크다. 본 연구에서는 INSPEC 데이터베이스에 과학기술 텍스트마이닝 기법을 적용하여 미래 무인전투기술에 대한 지식네트워크 구조와 국방 유망기술을 식별하는 과정을 예시함으로써 구축된 과학기술 정보체계를 이용한 미래 유망기술의 식별 방법론을 제시하였다.

Interactive Typography System using Combined Corner and Contour Detection

  • Lim, Sooyeon;Kim, Sangwook
    • International Journal of Contents
    • /
    • 제13권1호
    • /
    • pp.68-75
    • /
    • 2017
  • Interactive Typography is a process where a user communicates by interacting with text and a moving factor. This research covers interactive typography using real-time response to a user's gesture. In order to form a language-independent system, preprocessing of entered text data presents image data. This preprocessing is followed by recognizing the image data and the setting interaction points. This is done using computer vision technology such as the Harris corner detector and contour detection. User interaction is achieved using skeleton information tracked by a depth camera. By synchronizing the user's skeleton information acquired by Kinect (a depth camera,) and the typography components (interaction points), all user gestures are linked with the typography in real time. An experiment was conducted, in both English and Korean, where users showed an 81% satisfaction level using an interactive typography system where text components showed discrete movements in accordance with the users' gestures. Through this experiment, it was possible to ascertain that sensibility varied depending on the size and the speed of the text and interactive alteration. The results show that interactive typography can potentially be an accurate communication tool, and not merely a uniform text transmission system.

텍스트마이닝 기법을 이용한 모바일 피트니스 애플리케이션 주요 요인 분석 : 사용자 경험 관점 (An Analysis on Key Factors of Mobile Fitness Application by Using Text Mining Techniques : User Experience Perspective)

  • 이소현;김진솔;윤상혁;김희웅
    • 한국IT서비스학회지
    • /
    • 제19권3호
    • /
    • pp.117-137
    • /
    • 2020
  • The development of information technology leads to changes in various industries. In particular, the health care industry is more influenced so that it is focused on. With the widening of the health care market, the market of smart device based personal health care also draws attention. Since a variety of fitness applications for smartphone based exercise were introduced, more interest has been in the health care industry. But although an amount of use of mobile fitness applications increase, it fails to lead to a sustained use. It is necessary to find and understand what matters for mobile fitness application users. Therefore, this study analyze the reviews of mobile fitness application users, to draw key factors, and thereby to propose detailed strategies for promoting mobile fitness applications. We utilize text mining techniques - LDA topic modeling, term frequency analysis, and keyword extraction - to draw and analyze the issues related to mobile fitness applications. In particular, the key factors drawn by text mining techniques are explained through the concept of user experience. This study is academically meaningful in the point that the key factors of mobile fitness applications are drawn by the user experience based text mining techniques, and practically this study proposes detailed strategies for promoting mobile fitness applications in the health care area.