• 제목/요약/키워드: recognition of performance

검색결과 3,854건 처리시간 0.03초

가변어휘 핵심어 검출을 위한 비핵심어 모델링 및 후처리 성능평가 (Performance Evaluation of Nonkeyword Modeling and Postprocessing for Vocabulary-independent Keyword Spotting)

  • 김형순;김영국;신영욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.225-239
    • /
    • 2003
  • In this paper, we develop a keyword spotting system using vocabulary-independent speech recognition technique, and investigate several non-keyword modeling and post-processing methods to improve its performance. In order to model non-keyword speech segments, monophone clustering and Gaussian Mixture Model (GMM) are considered. We employ likelihood ratio scoring method for the post-processing schemes to verify the recognition results, and filler models, anti-subword models and N-best decoding results are considered as an alternative hypothesis for likelihood ratio scoring. We also examine different methods to construct anti-subword models. We evaluate the performance of our system on the automatic telephone exchange service task. The results show that GMM-based non-keyword modeling yields better performance than that using monophone clustering. According to the post-processing experiment, the method using anti-keyword model based on Kullback-Leibler distance and N-best decoding method show better performance than other methods, and we could reduce more than 50% of keyword recognition errors with keyword rejection rate of 5%.

  • PDF

음성감정인식 성능 향상을 위한 트랜스포머 기반 전이학습 및 다중작업학습 (Transformer-based transfer learning and multi-task learning for improving the performance of speech emotion recognition)

  • 박순찬;김형순
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.515-522
    • /
    • 2021
  • 음성감정인식을 위한 훈련 데이터는 감정 레이블링의 어려움으로 인해 충분히 확보하기 어렵다. 본 논문에서는 음성감정인식의 성능 개선을 위해 트랜스포머 기반 모델에 대규모 음성인식용 훈련 데이터를 통한 전이학습을 적용한다. 또한 음성인식과의 다중작업학습을 통해 별도의 디코딩 없이 문맥 정보를 활용하는 방법을 제안한다. IEMOCAP 데이터 셋을 이용한 음성감정인식 실험을 통해, 가중정확도 70.6 % 및 비가중정확도 71.6 %를 달성하여, 제안된 방법이 음성감정인식 성능 향상에 효과가 있음을 보여준다.

Multimodal Parametric Fusion for Emotion Recognition

  • Kim, Jonghwa
    • International journal of advanced smart convergence
    • /
    • 제9권1호
    • /
    • pp.193-201
    • /
    • 2020
  • The main objective of this study is to investigate the impact of additional modalities on the performance of emotion recognition using speech, facial expression and physiological measurements. In order to compare different approaches, we designed a feature-based recognition system as a benchmark which carries out linear supervised classification followed by the leave-one-out cross-validation. For the classification of four emotions, it turned out that bimodal fusion in our experiment improves recognition accuracy of unimodal approach, while the performance of trimodal fusion varies strongly depending on the individual. Furthermore, we experienced extremely high disparity between single class recognition rates, while we could not observe a best performing single modality in our experiment. Based on these observations, we developed a novel fusion method, called parametric decision fusion (PDF), which lies in building emotion-specific classifiers and exploits advantage of a parametrized decision process. By using the PDF scheme we achieved 16% improvement in accuracy of subject-dependent recognition and 10% for subject-independent recognition compared to the best unimodal results.

음성명령에 의한 모바일로봇의 실시간 무선원격 제어 실현 (Real-Time Implementation of Wireless Remote Control of Mobile Robot Based-on Speech Recognition Command)

  • 심병균;한성현
    • 한국생산제조학회지
    • /
    • 제20권2호
    • /
    • pp.207-213
    • /
    • 2011
  • In this paper, we present a study on the real-time implementation of mobile robot to which the interactive voice recognition technique is applied. The speech command utters the sentential connected word and asserted through the wireless remote control system. We implement an automatic distance speech command recognition system for voice-enabled services interactively. We construct a baseline automatic speech command recognition system, where acoustic models are trained from speech utterances spoken by a microphone. In order to improve the performance of the baseline automatic speech recognition system, the acoustic models are adapted to adjust the spectral characteristics of speech according to different microphones and the environmental mismatches between cross talking and distance speech. We illustrate the performance of the developed speech recognition system by experiments. As a result, it is illustrated that the average rates of proposed speech recognition system shows about 95% above.

Multimodal Face Biometrics by Using Convolutional Neural Networks

  • Tiong, Leslie Ching Ow;Kim, Seong Tae;Ro, Yong Man
    • 한국멀티미디어학회논문지
    • /
    • 제20권2호
    • /
    • pp.170-178
    • /
    • 2017
  • Biometric recognition is one of the major challenging topics which needs high performance of recognition accuracy. Most of existing methods rely on a single source of biometric to achieve recognition. The recognition accuracy in biometrics is affected by the variability of effects, including illumination and appearance variations. In this paper, we propose a new multimodal biometrics recognition using convolutional neural network. We focus on multimodal biometrics from face and periocular regions. Through experiments, we have demonstrated that facial multimodal biometrics features deep learning framework is helpful for achieving high recognition performance.

한국어 생의학 개체명 인식 성능 비교와 오류 분석 (Performance Comparison and Error Analysis of Korean Bio-medical Named Entity Recognition)

  • 이재홍
    • 한국전자통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.701-708
    • /
    • 2024
  • 딥러닝 분야에서 트랜스포머 아키텍쳐의 출현은 자연어 처리 연구가 획기적인 발전을 가져왔다. 개체명 인식은 자연어 처리의 한 분야로 정보 검색과 같은 태스크에 중요한 연구 분야이다. 생의학 분야에서도 그 중요성이 강조되나 학습용 한국어 생의학 말뭉치의 부족으로 AI를 활용한 한국어 임상 연구 발전에 제약이 되고 있다. 본 연구에서는 한국어 생의학 개체명 인식을 위해 새로운 생의학 말뭉치를 구축하고 대용량 한국어 말뭉치로 사전 학습된 언어 모델들을 선정하여 전이 학습시켰다. F1-score로 선정된 언어 모델의 개체명 인식 성능과 태그별 인식률을 비교하고 오류 분석을 하였다. 인식 성능에서는 KlueRoBERTa가 상대적인 좋은 성능을 보였다. 태깅 과정의 오류 분석 결과 Disease의 인식 성능은 우수하나 상대적으로 Body와 Treatment는 낮았다. 이는 문맥에 기반하여 제대로 개체명을 분류하지 못하는 과분할과 미분할로 인한 것으로, 잘못된 태깅들을 보완하기 위해서는 보다 정밀한 형태소 분석기와 풍부한 어휘사전 구축이 선행되어야 할 것이다.

강인한 음성 인식 시스템을 사용한 감정 인식 (Emotion Recognition using Robust Speech Recognition System)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제18권5호
    • /
    • pp.586-591
    • /
    • 2008
  • 본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

Improved Melody Recognition Performance of a Cochlear Implant Speech Processing Strategy Using Instantaneous Frequency Encoding Based on Teager Energy Operator

  • Choi, Sung-Jin;Ryu, Sang-Baek;Kim, Kyung-Hwan
    • 대한의용생체공학회:의공학회지
    • /
    • 제31권6호
    • /
    • pp.417-426
    • /
    • 2010
  • We present a speech processing strategy incorporating instantaneous frequency (IF) encoding for the enhancement of melody recognition performance of cochlear implants. For the IF extraction from incoming sound, we propose the use of a Teager energy operator (TEO), which is advantageous for its lower computational load. From time-frequency analysis, we verified that the TEO-based method provides proper IF encoding of input sound, which is crucial for melody recognition. Similar benefit could be obtained also from the use of a Hilbert transform (HT), but much higher computational cost was required. The melody recognition performance of the proposed speech processing strategy was compared with those of a conventional strategy using envelope extraction, and the HT-based IF encoding. Hearing tests on normal subjects were performed using acoustic simulation and a musical contour identification task. Insignificant difference in melody recognition performance was observed between the TEO-based and HT-based IF encodings, and both were superior to the conventional strategy. However, the TEO-based strategy was advantageous considering that it was approximately 35% faster than the HT-based strategy.

근로자의 인적자원개발과 직무수준인지가 직무만족도에 미치는 영향 (The Effect of Workers' Human Resource Development and Recognition of Job Performance Level on their Job Satisfaction)

  • 홍성희;곽인숙
    • 가족자원경영과 정책
    • /
    • 제12권2호
    • /
    • pp.73-93
    • /
    • 2008
  • The purpose of this study was to analyze the effects of workers' human resource development and their recognition of human resource on-the-job satisfaction. A sample of 4,727 workers that was selected from Korea Labor Panel Data was analyzed by t-test and multiple regression, and was tested by causal effects among related variables. The major findings were as follows: First, the workers' recognition of their job performance level vs. educational attainment was affected by their annual income, job status, educational attainment, gender, and experiences of human resource development. Second, the workers' job satisfaction was affected by gender, age, educational attainment, health status, job status, annual income, experiences of human resource development, recognition of their job performance level vs. educational attainment, and recognition for their job availability. Third, the factors that had a causal effect on workers' job satisfaction were educational attainment, gender, age, health status, annual income, and experiences of human resource development. Above all, workers' educational attainment had a strong direct effect on job satisfaction, and annual income had a strong indirect effect on it. From these findings, it can be concluded that workers' effort and trial for development and investment of human resource played an important role in increasing job satisfaction.

  • PDF

직무자원으로서 ESG 활동 인식이 직무만족과 친사회적 행동을 통해 직무수행능력 향상에 미치는 영향, 콜센터 직원들을 대상으로 (Employees' Environment, Social, and Governance Activity Recognition as Job Resource Enhancing Job Performance via Job Satisfaction and Prosocial Behavior among Call Center Employees)

  • 김준형;박소라
    • 산업진흥연구
    • /
    • 제9권2호
    • /
    • pp.1-12
    • /
    • 2024
  • 이 연구는 콜센터직원의 ESG 활동 지각이 직무만족, 친사회적 활동 및 직무 성과에 미치는 영향을 본다. 연구를 수행하기 위하여, 국내 주요 보험사의 콜센터직원 264명으로부터 데이터를 수집한 후 SmartPLS 4.0을 사용하여 분석을 수행하였다. 분석 결과에 따르면, ESG 활동에 대한 직원 인식이 직무만족을 유의하게 향상시켰다. 하지만 ESG 활동 지각이 친사회적 행동에 미치는 영향은 유의하나 상대적으로 미미했다. 직무만족은 직원의 친사회적 행동과 직무 성과를 긍정적으로 높이는 역할을 수행하였다. 또한, 친사회적 행동은 직무 성과에 긍정적으로 높여주었다. 중요한 시사점으로는 직원의 기업 ESG 경영 활동에 대한 지각이 그들의 직무자원 역할을 한다는 것을 밝혀낸 것이다. 이러한 직원들의 지각이 직원의 태도, 행동 및 성과에 영향을 준다는 사실은 기업의 윤리적 행동을 직원에게 홍보하는 것에 대한 장점을 보여준다.