• 제목/요약/키워드: 인식 모델

검색결과 4,429건 처리시간 0.03초

KorBERT와 Popularity 정보에 기반한 한국어 개체연결 (Korean Entity Linking based on KorBERT and Popularity )

  • 허정;배경만;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.502-506
    • /
    • 2022
  • 본 논문에서는 KorBERT와 개체 인기정보(popularity)를 이용한 개체연결 기술을 소개한다. 멘션인식(mention detection)은 KorBERT를 이용한 토큰분류 문제로 학습하여 모델을 구성하였고, 개체 모호성해소(entity disambiguation)는 멘션 컨텍스트와 개체후보 컨텍스트 간의 의미적 연관성에 대한 KorBERT기반 이진분류 문제로 학습하여 모델을 구성하였다. 개체 인기정보는 위키피디아의 hyperlink, inlink, length 정보를 활용하였다. 멘션인식은 ETRI 개체명 인식기를 이용한 모델과 비교하였을 경우, ETRI 평가데이터에서는 F1 0.0312, 국립국어원 평가데이터에서는 F1 0.1106의 성능 개선이 있었다. 개체 모호성해소는 KorBERT 모델과 Popularity 모델을 혼용한 모델(hybrid)에서 가장 우수한 성능을 보였다. ETRI 평가데이터에서는 Hybrid 모델에서의 개체 모호성 해소의 성능이 Acc. 0.8911 이고, 국립국어원 평가데이터에서는 Acc. 0.793 이였다. 최종적으로 멘션인식 모델과 개체 모호성해소 모델을 통합한 개체연결 성능은 ETRI 평가데이터에서는 F1 0.7617 이고, 국립국어원 평가데이터에서는 F1 0.6784 였다.

  • PDF

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System using Speech and Gesture)

  • 김정현;노용완;권형준;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.57-62
    • /
    • 2006
  • 휴대용 단말기의 소형화 및 지능화와 더불어 차세대 PC 기반의 유비쿼터스 컴퓨팅에 대한 관심이 높아짐에 따라 최근에는 펜이나 음성 입력 멀티미디어 등 여러 가지 대화 모드를 구비한 멀티 모달 상호작용 (Multi-Modal Interaction MMI)에 대한 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 잡음 환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 인터페이스의 연구를 목적으로 Voice-XML과 Wearable Personal Station(WPS) 기반의 음성 및 내장형 수화 인식기를 통합한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System : MMIRS)을 제안하고 구현한다. 제안되어진 MMIRS는 한국 표준 수화 (The Korean Standard Sign Language : KSSL)에 상응하는 문장 및 단어 단위의 명령어 인식 모델에 대하여 음성뿐만 아니라 화자의 수화제스처 명령어를 함께 인식하고 사용함에 따라 잡음 환경에서도 규정된 명령어 모델에 대한 인식 성능의 향상을 기대할 수 있다. MMIRS의 인식 성능을 평가하기 위하여, 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어인식 모델에 대하여 음성과 수화 제스처를 연속적으로 표현하고, 이를 인식함에 있어 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교하고 분석하였으며 MMIRS는 문장형 명령어 인식모델에 대하여 잡음환경에서는 93.45%, 비잡음환경에서는 95.26%의 평균 인식율을 나타내었다.

  • PDF

음성인식 개발 프로젝트 위험 요인에 관한 연구 (A Study on Risk Factors of Speech Recognition Development Project)

  • 김선교;박준호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.733-734
    • /
    • 2020
  • 음성인식은 음향모델, 언어모델, 디코더 등의 기술을 이용한다. 음성인식은 하드웨어와 소프트웨어 구성이 정확하게 설계가 되어야 한다. 음성인식 프로젝트는 인프라 구성과 도입되는 음성인식 엔진도입, 인식률 그리고 시스템과의 연계가 중요하다. 하지만 음성인식 프로젝트는 솔루션 도입으로 인지하고 수행할 경우에는 많은 위험이 발생한다. 이 중 가장 문제가 되는 것이 인식률이다. 본 논문에서 음성인식 개발 프로젝트 수행에 도출되는 인식률을 개선하는 방안을 제시하겠다.

SNR 매핑을 이용한 환경적응 기반 음성인식 (Speech Recognition based on Environment Adaptation using SNR Mapping)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.543-548
    • /
    • 2014
  • 다 모델 기반의 음성인식기는 음성인식에서 매우 성공적임이 알려져 있다. 그것은 다양한 신호-대-잡음비(SNR)와 잡음종류에 해당하는 다수의 HMM을 사용함으로서 선택된 음향모델이 인식잡음음성에 매우 근접한 일치성을 가질 수 있기 때문이다. 그러나 실제 사용시에 HMM의 개수가 제한됨에 따라서 음향모델의 불일치는 여전히 문제로 남아 있다. 본 논문에서는 인식잡음음성과 HMM 간의 SNR 불일치를 줄이고자 이들 간의 최적의 SNR 매핑 (mapping)을 실험적으로 결정하였다. 인식잡음음성으로 부터 추정된 SNR 값을 사용하는 대신 제안된 SNR 매핑을 사용함으로서 향상된 인식결과를 얻을 수 있었다. 다 모델 기반인식기에 제안된 방법을 적용하여 Aurora 2 데이터베이스에 대해서 인식 실험한 결과 기존의 MTR 이나 다 모델 기반 음성인식기에 비해서 6.3%와 9.4%의 상대적 단어 오인식율 감소를 이룰 수 있었다.

얼굴 영역 추출 시 여유값의 설정에 따른 개성 인식 모델 정확도 성능 분석 (Performance Analysis for Accuracy of Personality Recognition Models based on Setting of Margin Values at Face Region Extraction)

  • 구욱;한규원;김봉재
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.141-147
    • /
    • 2024
  • 최근 개인의 성향을 반영한 맞춤형 서비스가 각광 받고 있다. 이와 관련하여 개인의 개성을 인식하고 활용하고자 하는 연구가 지속적으로 이루어지고 있다. 각 개인의 개성을 인식하고 평가하는 방법은 다수가 있지만, OCEAN 모델이 대표적으로 사용된다. OCEAN 모델로 각 개인의 개성을 인식할 때 언어적, 준언어적, 비언어적 정보를 이용하는 멀티 모달리티 기반 인공지능 모델이 사용될 수 있다. 본 논문에서는 비언어적 정보인 사용자의 표정을 기반으로 OCEAN을 인식하는 인공지능 모델에서 영상 데이터에서 얼굴 영역을 추출할 때 지정하는 얼굴 영역 여유값(Margin)에 따른 개성 인식 모델 정확도 성능을 분석한다. 실험에서는 2D Patch Partition, R2plus1D, 3D Patch Partition, 그리고 Video Swin Transformer에 기반한 개성 인식 모델을 사용하였다. 얼굴 영역 추출 시 여유값을 60으로 사용했을 때 1-MAE 성능이 0.9118로 가장 우수하였다. 따라서 개성 인식 모델의 성능을 최적화하기 위해서는 적절한 여유값을 설정해야 함을 확인하였다.

음소 HMM을 이용한 Keyword Spotting 시스템에서의 Non-Keyword 모델에 관한 연구 (A Study on the Non-keyword Models in the Keyword Spotting System using the Phone-Based Hidden Markov Models)

  • 이활림
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.83-87
    • /
    • 1995
  • Keyword Spotting 이란 음성인식의 한 분야로서 입력된 음성에서 미리 정해진 특정단어 또는 복수 개의 단어들 중 어느 것이 포함되어 있는지의 여부를 찾아내고 이 단어를 식별해 내는 작업을 의미한다. 음소모델을 이용하여 Keyword Spotting 시스템을 구성할 경우 새로운 keyword의 추가 또는 변경이 필요할 때 단순히 그 발음사전에 따라 음소모델들을 연결시킴으로써 keyword 모델을 구성할 수 있으므로 단어모델에 의한 방법에 비해 장점이 있다. 본 논문에서는 triphone을 기본단위로 하는 HMM 에 의해 keyword 모델을 구성하고, non-keyword 모델 및 silence 모델을 함께 사용하는 keyword spotting 시스템을 구성하였다. 이러한 시스템에서 non-keyword 모델은 keyword와 keyword가 아닌 음성을 구분 지어주는 역할을 하므로 인식성능의 향상을 위해서는 적절한 non-keyword 모델의 선택이 필요하다. 본 논문에서는 10개의 state를 갖는 단일모델, 조음방법에 의해 음소들을 clustering 한 모델, 그리고 통계적 방법에 의해 음소들을 clustering 한 모델들을 각각 non-keyword 모델로 사용하여 그 성능을 비교하였다. 6개의 keyword를 대상으로 한 화자독립 keyword spotting 실험결과, 통계적 방법에 의해 음소들을 6 또는 7개의 그룹으로 clustering 한 방법이 가장 우수한 인식성능을 나타냈다.

  • PDF

온라인 필기 숫자 인식을 위한 혼동 모델 선택 기준 (Confusion Model Selection Criterion for On-Line Handwritten Numeral Recognition)

  • 박미나;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권11호
    • /
    • pp.1001-1010
    • /
    • 2007
  • HMM은 파라미터의 수가 많을수록 모델링 성능이 향상되어 해당 클래스 데이타는 뿐만 아니라 혼동되는 다른 클래스 데이타에 대해서도 높은 확률을 출력하는 경향이 있다. 그러므로 단순히 파라미터 수를 증가 시키는 것은 변별력 향상에 도움이 되지 않는다. 본 논문에서는 혼동되는 클래스 데이터의 확률을 이용한 혼동 확률 선택 기준CMC(Confusion Model Selection Criterion)과 혼동 클래스 데이터를 구성하여 혼동 모델을 만들고 이것을 이용한 새로운 인식 방법인 RCM(Recognition using Confusion Models)을 제안하였다. 제안한 인식 방법은 혼동되는 클래스 데이타의 구성으로 혼동 데이타 집합을 만들고 이것을 이용하여 별도의 혼동 모델을 훈련한 후, 혼동 모델의 확률을 해당 표준 모델의 확률에서 차감하여 해당 클래스 데이타의 오인식 가능성을 억제한다. 모델 선택 기준 CMC를 온라인 필기 숫자 데이타를 대상으로 실험하여 기존 모델 선택 기준인 ML, ALC2, BIC와 비교 분석한 결과, 제안한 방법인 CMC가 적은 파라미터로 좋은 결과를 보였으며, 제안한 혼동 모델 인식 방법인 RCM은 93.08%의 인식률을 보여 표준 모델만을 사용한 인식한 방법보다 정인식률이 약 1.5%향상되었고, 이는 오류의 17.4%가 감소된 결과이다.

Caffe를 이용한 얼굴 인식 파이프라인 모델 구현 (Implementation of Face Recognition Pipeline Model using Caffe)

  • 박진환;김창복
    • 한국항행학회논문지
    • /
    • 제24권5호
    • /
    • pp.430-437
    • /
    • 2020
  • 제안 모델은 얼굴 검출과 랜드마크 및 얼굴 인식 알고리즘을 이용하여 인공신경망으로 학습을 통해 얼굴 예측률과 인식률을 향상하는 모델을 구현하였다. 제안 모델은 특정 인물의 얼굴 영상에서 랜드마킹을 한 후, 기존에 학습된 Caffe 모델을 이용하여 얼굴검출과 임베딩 벡터 128D를 추출하였다. 학습은 기계학습 알고리즘인 SVM (support vector machine)과 DNN (deep neural network)을 구축하여 학습하였다. 얼굴인식은 학습된 모델을 이용하여 학습된 인물 중 다른 얼굴 영상으로 테스트하였다. 실험 결과, SVM 보다는 DNN으로 학습한 결과가 우수한 예측률과 인식률을 보였다. DNN의 중간층을 증가하게 되면 예측률은 높아지나 인식률이 감소하는 현상이 발생하였다. 이것은 인식하고자 하는 대상이 적음으로써 발생하는 과적합으로 판단된다. 제안 모델은 명확한 얼굴 영상을 추가하여 학습한 결과, 높은 예측률과 인식률의 결과를 얻을 수 있음을 확인할 수 있었다. 본 연구는 좀 더 많은 얼굴 영상 데이터를 이용함으로써 보다 효과적인 딥러닝 구축을 통해 보다 향상된 인식률과 예측률을 얻을 수 있을 것이다.

실시간 음성 다이얼링 시스템 구현을 위한 연결어 인식에 관한 연구 (A Study on Connected Word Recognition for the Implementation of a Real-Time Voice Dialing System)

  • 김천영;양진우;유형근;이형준;홍진우;이강성;안태옥
    • 한국음향학회지
    • /
    • 제12권3호
    • /
    • pp.13-25
    • /
    • 1993
  • 본 논문은 음성 다이얼링 시스템을 구현하기 위한 연결어 인식에 관한 연구이다. 적용된 인식 알고리즘은 기준패턴을 생성할 때 DMS 모델을 이용한 One-stage DMS/DP 알고리즘이고, 인식 대상어는 광운대학교 부서명 150 단어이다. 연결어 인식을 실시간으로 처리하기 위한 방법으로써 본 논문에서는 음절과 단어 단위의 DMS 템플리트를 구성하여 실험하였고 이 실험결과로부터 실시간과 인식률을 고려한 최적의 인식은 단어단위 템플리트에서 20 구간의 DMS 템플리트를 구성하여 실험하였고 이 실험결과로부터 실시간과 인식률을 고려한 최적의 인식은 단어단위 템플리트에서 20구간의 DMS 모델을 적용하였을 때 수행되었고, 이때 다중화자종속과 화자독립의 인식률은 각각 97.2%, 86.8%이다. 실험된 결과를 이용하여 음성 다이얼링 모델 시스템을 DSP 전용칩인 TMS320C30 프로세서를 내장한 DSP 보오드, 486 PC와 DIAL 모뎀을 이용해서 구현하였고, 전체 다이얼링 시간은 약 7~14초가 소요되었다.

  • PDF

전화음성인식을 위한 멀티채널 음성인식 시스템 구현 (Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech)

  • 이승훈;서영주;강동규
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.

  • PDF