• 제목/요약/키워드: 품사 결정

Search Result 49, Processing Time 0.027 seconds

Named-entity Recognition Using Bidirectional LSTM CRFs (Bidirectional LSTM CRFs를 이용한 한국어 개체명 인식)

  • Song, Chi-Yun;Yang, Sung-Min;Kang, Sangwoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.321-323
    • /
    • 2017
  • 개체명 인식은 문서 내에서 고유한 의미를 갖는 인명, 기관명, 지명, 시간, 날짜 등을 추출하여 그 종류를 결정하는 것을 의미한다. Bidirectional LSTM CRFs 모델은 연속성을 갖는 데이터에 가장 적합한 RNN기반의 심층 학습모델로서 개체명 인식 연구에 가장 우수한 성능을 보여준다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs 모델을 사용하고, 입력 자질로 단어뿐만 아니라 품사 임베딩 모델과, 개체명 사전을 활용하여 입력 자질을 구성한다. 또한 입력 자질에 대한 벡터의 크기를 최적화 하여 기본 모델보다 성능이 향상되었음을 증명하였다.

  • PDF

Automatic Korean postposition checking for Korean language learners (한국어 학습자를 위한 조사 자동 교정 방법)

  • Lee, Daniel;Kwak, Sujeong;Park, Yongmin;Kim, Bogyum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.195-200
    • /
    • 2012
  • 한국어 조사는 다른 외국어에는 대응하는 어휘가 없는 경우가 대부분이기 때문에 외국인이 한국어를 배울때 조사를 가장 어려워한다. 특히, 한국어에서 조사는 문법적 특징을 결정하는 매우 중요한 형태소이며 문장의 뜻을 매우 다르게 바꿀 수 있으므로 올바른 사용이 필수적이다. 본 논문에서는 외국민이 입력한 불완전한 한국어 문장에서 조사를 올바르게 교정하는 방법을 제안한다. 이 방법은 주어진 문장에 대해 한국어 형태소 분석기와 품사 태거를 이용하여 체언과 용언을 추출하고 이를 세종 용언 사전과 체언 사전의 문형 정보를 이용하여 올바른 조사를 부착하고 교정해 준다.

  • PDF

Deep Semantic Feature based Deceptive Opinion Spam Analysis (의미 프레임 자질 기반 의견 스팸 분석)

  • Kim, Seong-Soon;Jang, Hyeok-Yoon;Lee, Seong-Woon;Kang, Jaewoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.1001-1004
    • /
    • 2015
  • 소설미디어의 급증과 함께 온라인 리뷰의 의존성이 급증하는 가운데 사용자의 올바른 의사결정을 저해하는 기만적 의견 스팸 이슈가 새롭게 주목받고 있다. 기존의 의견 스팸 연구는 실제 리뷰와 의견 스팸 간의 차이를 어휘, 품사 또는 감정단어와 같은 표면적 자질을 통해 설명하였으나 그들간의 의미적 연결관계는 고려하지 않았다. 본 논문에서는 1) 의미적 프레임 기반의 텍스트 분석기법을 제안하고, 이를 바탕으로 2) 의견 스팸과 실제 리뷰간의 의미적 차이가 있음을 규명하며 3) 새로운 의미적 프레임 자질을 사용하여 기존의 의견 스팸 분류 성능을 향상시킬 수 있음을 보인다.

An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines (카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기)

  • Lee, Songwook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.592-595
    • /
    • 2009
  • We propose an automatic spam mail classifier for e-mail data using Support Vector Machines (SVM). We use a lexical form of a word and its part of speech (POS) tags as features. We select useful features with ${\chi}^2$ statistics and represent each feature using text frequency (TF) and inversed document frequency (IDF) values for each feature. After training SVM with the features, SVM classifies each email as spam mail or not. In experiment, we acquired 82.7% of accuracy with e-mail data collected from a web mail system.

  • PDF

Viterbi Morpheme Restoration in Korean (한국어에서 Viterbi 형태소 복원)

  • Lee, Je-seung;Kim, Jae-hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.536-539
    • /
    • 2021
  • 본 논문은 한국어에서 형태소 복원을 위한 새로운 방법을 제안한다. 일반적으로 기계학습 기반 형태소 분석에서 형태소 복원은 기분석 사전과 약간의 경험규칙을 이용한다. 이와 같은 방법은 모호성을 해결하기 위해 사전에 모든 정보를 저장하는 것이 불가능할 뿐 아니라 단음절 이형태의 모호성을 해결할 수 없을 것이다. 이러한 문제를 완화하기 위해 본 논문에서는 생성된 모호성을 Viterbi 알고리즘을 이용해서 해소한다. 본 논문의 형태소 복원 과정은 기본적으로 기분석 사전과 약간의 경험규칙을 이용하여 형태소 복원 후보를 찾고 여러 후보가 있을 경우(모호성의 생성), 그 결과를 Viterbi 알고리즘으로 이형태를 결정한다. 실험을 위해 모두의 말뭉치(형태 분석)를 사용하고, 평가는 NER 방식으로 평가한다. 그 결과 품사 부착에 대해 96.28%정도의 성능을 보여주었다.

  • PDF

BERT with subword units for Korean Morphological Analysis (BERT에 기반한 Subword 단위 한국어 형태소 분석)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.37-40
    • /
    • 2019
  • 한국어 형태소 분석은 입력된 문장 내의 어절들을 지니는 최소의 단위인 형태소로 분리하고 품사 부착하는 작업을 의미한다. 기존 한국어 형태소 분석 방법은 음절 기반 연구가 주를 이루고 이를 순차 태깅 문제로 보고 SVM, CRF혹은 Bi-LSTM-CRF 등을 이용하거나 특정 음절에서 형태소의 경계를 결정하는 전이 기반 모델을 통해 분석하는 모델 등이 연구되었다. 최근 자연어 처리 연구에서 대용량 코퍼스로부터 문맥을 고려한 BERT 등의 언어 모델을 활용한 연구가 각광받고 있다. 본 논문에서는 음절 단위가 아닌 BERT를 이용한 Sub-word 기반 형태소 분석 방법을 제안하고 기분석 사전을 통해 분석하는 과정을 거쳐 세종 한국어 형태소 분석 데이터 셋에서 형태소 단위 F1 : 95.22%, 어절 정확도 : 93.90%의 성능을 얻었다.

  • PDF

Open-domain Question Answering Using Lexico-Semantic Patterns (Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템)

  • Lee, Seung-Woo;Jung, Han-Min;Kwak, Byung-Kwan;Kim, Dong-Seok;Cha, Jeong-Won;An, Joo-Hui;Lee, Gary Geun-Bae;Kim, Hark-Soo;Kim, Kyung-Sun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.538-545
    • /
    • 2001
  • 본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.

  • PDF

A Study on Automatic Expansion of Dialogue Examples Using Logs of a Dialogue System (대화시스템의 로그를 이용한 대화예제의 자동 확충에 관한 연구)

  • Hong, Gum-Won;Lee, Jeong-Hoon;Shin, Jung-Hwi;Lee, Do-Gil;Rim, Hae-Chang
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.257-262
    • /
    • 2009
  • This paper studies an automatic expansion of dialogue examples using the logs of an example-based dialogue system. Conventional approaches to example-based dialogue system manually construct dialogue examples between humans and a Chatbot, which are labor intensive and time consuming. The proposed method automatically classifies natural utterance pairs and adds them into dialogue example database. Experimental results show that lexical, POS and modality features are useful for classifying natural utterance pairs, and prove that the dialogue examples can be automatically expanded using the logs of a dialogue system.

  • PDF

A Domain Action Classification Model Using Conditional Random Fields (Conditional Random Fields를 이용한 영역 행위 분류 모델)

  • Kim, Hark-Soo
    • Korean Journal of Cognitive Science
    • /
    • v.18 no.1
    • /
    • pp.1-14
    • /
    • 2007
  • In a goal-oriented dialogue, speakers' intentions can be represented by domain actions that consist of pairs of a speech act and a concept sequence. Therefore, if we plan to implement an intelligent dialogue system, it is very important to correctly infer the domain actions from surface utterances. In this paper, we propose a statistical model to determine speech acts and concept sequences using conditional random fields at the same time. To avoid biased learning problems, the proposed model uses low-level linguistic features such as lexicals and parts-of-speech. Then, it filters out uninformative features using the chi-square statistic. In the experiments in a schedule arrangement domain, the proposed system showed good performances (the precision of 93.0% on speech act classification and the precision of 90.2% on concept sequence classification).

  • PDF

A Swearword Filter System for Online Game Chatting (온라인게임 채팅에서의 비속어 차단시스템)

  • Lee, Song-Wook
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.7
    • /
    • pp.1531-1536
    • /
    • 2011
  • We propose an automatic swearword filter system for online game chatting by using Support Vector Machines(SVM). We collected chatting sentences from online games and tagged them as normal sentences or swearword included sentences. We use n-gram syllables and lexical-part of speech (POS) tags of a word as features and select useful features by chi square statistics. Each selected feature is represented as binary weight and used in training SVM. SVM classifies each chatting sentence as swearword included one or not. In experiment, we acquired overall 90.4% of F1 accuracy.