• 제목/요약/키워드: Lexical processing

검색결과 142건 처리시간 0.027초

한국어 음성인식 플랫폼(ECHOS)의 개선 및 평가 (Improvement and Evaluation of the Korean Large Vocabulary Continuous Speech Recognition Platform (ECHOS))

  • 권석봉;윤성락;장규철;김용래;김봉완;김회린;유창동;이용주;권오욱
    • 대한음성학회지:말소리
    • /
    • 제59호
    • /
    • pp.53-68
    • /
    • 2006
  • We report the evaluation results of the Korean speech recognition platform called ECHOS. The platform has an object-oriented and reusable architecture so that researchers can easily evaluate their own algorithms. The platform has all intrinsic modules to build a large vocabulary speech recognizer: Noise reduction, end-point detection, feature extraction, hidden Markov model (HMM)-based acoustic modeling, cross-word modeling, n-gram language modeling, n-best search, word graph generation, and Korean-specific language processing. The platform supports both lexical search trees and finite-state networks. It performs word-dependent n-best search with bigram in the forward search stage, and rescores the lattice with trigram in the backward stage. In an 8000-word continuous speech recognition task, the platform with a lexical tree increases 40% of word errors but decreases 50% of recognition time compared to the HTK platform with flat lexicon. ECHOS reduces 40% of recognition errors through incorporation of cross-word modeling. With the number of Gaussian mixtures increasing to 16, it yields word accuracy comparable to the previous lexical tree-based platform, Julius.

  • PDF

보완 대체 통신을 위한 문장생성 방법 (A Method of Sentence Generation for Augmentative and Alternative Communication)

  • 황인정;민홍기
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.323-328
    • /
    • 2005
  • 본 연구는 보완 대체 통신을 위한 문장생성에 관한 것이다. 문장생성의 목적은 언어생활이 불편한 사람들을 위한 보완 대체 통신에 사용하기 위해서이다. 보완 대체 통신은 사용자가 원하는 문장을 만들어 음성으로 출력해주는 시스템이다. 문장을 생성하기 위해서 어휘 정보를 보완대체 통신의 개념에 맞도록 변형하여 도입하였고, 어휘정보는 동사에 연결될 수 있는 명사와 조사로 이루어져 있다. 어휘정보를 이용하여 시스템을 구현하였고, 구현된 시스템으로 문장생성의 효용을 측정하였다. 구축된 시스템은 올바른 문장의 생성과 저장, 검색, 어휘입력의 기능을 갖는다.

어휘정보를 이용한 문장작성에 관한 연구 (A Study on the Sentence Generation using Lexical Information)

  • 황인정;민홍기
    • 융합신호처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.198-204
    • /
    • 2004
  • 본 연구는 언어 장애를 가진 사용자의 언어생활을 돕기 위한 문장작성 방식을 제안한 것이다. 제안한 문장작성 방법은 통신보조기기에 적용할 수 있도록 시스템으로 구현해 보았다. 통신보조기기는 개인 휴대장치로서 필요한 문장을 작성하여 출력하는 기기이다. 언어장애인들의 대표적인 의사표현 수단인 수화는 일반인들과의 의사소통에는 불편하기 때문에 다른 표현 방법이 필요하다. 자모를 모두 입력하여 문장을 작성하는 방식은 키의 수가 많기 때문에 대화할 때 시간이 많이 소용되는 불편한 방식이다. 그러므로 언어장애인을 위한 문장 작성의 가장 중요한 목적은 적절한 장소와 상황에 맞는 단어가 배열된 통신보조기기를 이용하여 적은 키의 수로 문장을 작성하는 것이다. 본 연구의 문장 작성을 구현하기 위한 어휘정보는 사용자 영역을 정하고, 그 영역에 맞는 단어와 문장을 수집하고, 수집된 어휘의 특징을 추출하여 구축되었다. 그리고 제안한 문장 작성 방식의 효용을 측정하기 위해 시스템을 이용하여 문장 작성을 위한 키의 수와 키보드 입력에 의한 자모수를 비교하였다.

  • PDF

어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소 (Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN))

  • 배영준;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.31-42
    • /
    • 2012
  • 현재까지 대부분의 한국어처리시스템에서는 가급적 많은 접미파생명사를 사전에 등재하여 처리하였다. 그러나 접미사는 생산성이 높기 때문에 모든 접미파생명사를 사전에 등재하는 것은 한계가 있다. 따라서 접미파생명사의 의미 분석을 통해서 미등재 접미파생명사를 분석할 필요가 있다. 본 논문에서는 접미파생명사의 의미 분석의 일환으로 한국어 어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 중의성 해소 방법을 제시한다. 형태 의미 주석 세종 말뭉치에서 동형이의어 접미사를 포함한 33,104개의 접미파생명사를 대상으로 실험하였다. 실험을 위해 먼저 동형이의어 접미사를 의미 태깅하였으며, 접미사 앞의 어근을 추출하여 U-WIN의 노드에 매핑시켰다. 또한 동형이의어 접미사와 결합되는 U-WIN 상의 노드들에 대해 거리 가중치를 부여하여 이를 동형이의어 접미사 중의성 해소에 사용하였다. 동형이의어 접미사 49종 중 세종말뭉치에 나타난 35개의 동형이의어 접미사를 대상으로 실험한 결과 91.01%의 정확률을 보였다.

BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법 (Predicate Recognition Method using BiLSTM Model and Morpheme Features)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.24-29
    • /
    • 2022
  • 정보 추출 및 질의응답 시스템 등 다양한 자연어 처리 분야에서 사용되는 의미역 결정은 주어진 문장과 서술어에 대해 서술어와 연관성 있는 논항들의 관계를 파악하는 작업이다. 입력으로 사용되는 서술어는 형태소 분석과 같은 어휘적 분석 결과를 이용하여 추출하지만, 한국어 특성상 문장의 의미에 따라 다양한 패턴을 가질 수 있기 때문에 모든 언어학적 패턴을 만들 수 없다는 문제점이 있다. 본 논문에서는 사전에 언어학적 패턴을 정의하지 않고 신경망 모델과 사전 학습된 임베딩 모델 및 형태소 자질을 추가한 한국어 서술어를 인식하는 방법을 제안한다. 실험은 모델의 변경 가능한 파라미터에 대한 성능 비교, 임베딩 모델과 형태소 자질의 사용 유무에 따른 성능 비교를 하였으며, 그 결과 제안한 신경망 모델이 92.63%의 성능을 보였음을 확인하였다.

양방향 LSTM을 적용한 단어의미 중의성 해소 감정분석 (Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation)

  • 기호연;신경식
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.197-208
    • /
    • 2020
  • 어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

재구성 가능한 메쉬에서 결정적 유한 자동장치 문제에 대한 상수시간 알고리즘 (A Constant Time Algorithm for Deterministic Finite Automata Problem on a Reconfigurable Mesh)

  • 김영학
    • 한국정보처리학회논문지
    • /
    • 제6권11호
    • /
    • pp.2946-2953
    • /
    • 1999
  • Finite automation is a mathematical model to represent a system with discrete inputs and outputs. Finite automata are a useful tool for solving problems such as text editor, lexical analyzer, and switching circuit. In this paper, given a deterministic finite automaton of an input string of length n and m states, we propose a constant time parallel algorithm that represents the transition states of finite automata and determines the acceptance of an input string on a reconfigurable mesh of size [nm/2]$\times$2m.

  • PDF

어휘 정보를 이용한 문장완성의 구현 (Implementation of Sentence Construction using Lexical Information)

  • 황인정;이은실;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.10-13
    • /
    • 2003
  • 본 연구는 어휘 정보를 이용하여 구어체 문장구성을 하였다. 구어체 문장구성의 목적은 언어생활이 불편한 사람들을 위한 통신보조기기에 사용하기 위해서이다. 통신보조기기는 사용자가 원하는 문장을 만들어 음성으로 출력해주는 시스템이다. 그러므로 문장을 구성하기 위해서 어휘 정보를 통신보조기기의 개념에 맞도록 변형하여 도입하였다. 어휘는 도메인별로 발췌하고 분류하였으며, 각 어휘에 대해 시소러스와 하위범주화사전을 만들었다. 어휘정보에 관한 상세한 정보는 문장구성과 재사용 그리고 문맥상 어색한 문장검출을 위해 중요한 자료가 된다.

  • PDF