• Title/Summary/Keyword: 언어 분석 자질

Search Result 156, Processing Time 0.022 seconds

LKB (Linguistic Knowledge Building) 시스템을 이용한 한국어 구문분석기 구축 -한국어의 동사성/형용사성 명사 구문의 전산처리를 중심으로-

  • 류병래;은광희
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2003.06a
    • /
    • pp.79-99
    • /
    • 2003
  • 한국어의 동사성 명사와 형용사성 명사는 경동사와 결합하여 문장의 서술어 역할을 하는데 이때에 명사는 보어 자질을 경동사에 전달하고 이렇게 결합한 후에 생성되는 서술어 복합체가 술어로 역할 한다. 이번 구문분석 시스템 연구에서는 LKB 시스템을 통해 한국어에서 체언과 결합하는 격조사의 처리와 용언과 결합하는 어미의 처리 및 동사/형용사성 명사가 경동사에 보어 자질을 전달하여 술어 복합체를 이루는 현상을 집중적으로 다룬다.

  • PDF

Korean Speech Act Tagging using Previous Sentence Features and Following Candidate Speech Acts (이전 문장 자질과 다음 발화의 후보 화행을 이용한 한국어 화행 분석)

  • Kim, Se-Jong;Lee, Yong-Hun;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.23-30
    • /
    • 2007
  • 화행 분석이란 자연언어로 된 발화를 통해서 나타나는 화자의 의도를 인식하는 것으로 대화를 처리하는 여러 응용 분야에서 중요하게 요구되는 과정이다. 기존의 연구에서는 이전 발화의 화행과 현재 발화의 문장 자질을 사용하여 규칙 기반 및 통계 기반의 연구가 진행되었다. 하지만 본 논문에서는 현재 발화 이후의 후보 화행을 추정하여 이를 현재 발화의 화행을 결정하는데 사용함으로써 기존의 연구와 차별화를 두었으며, 실제로 기존 방법보다 약 4%의 성능향상을 보인 96.08%의 정확도(accuracy)를 보였다. 또한 이전 발화의 화행 정보 대신 이전 화행을 결정하는데 사용했던 문장 자질을 현재 발화의 화행 결정에 직접 사용함으로써 실제 이전 화행을 적용했을 때보다 향상된 성능을 가져왔으며, 이전 문장 자질과 후보 화행을 함께 사용하여 화행을 결정했을 경우 96.96%의 정확도를 보였다.

  • PDF

The Study of ambiguity in the 'wa/kwa' ('와/과' 구문의 중의성 연구)

  • Yoo, Hye-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.383-389
    • /
    • 2000
  • 본고는 한영번역기 개발을 위한 기초 작업으로 '와/과'구문에 나타나는 여러 가지 패턴을 정리하고 이들 구문에서 보이는 중의성 문제를 해결하고자 하였다. 이러한 작업을 위해서는 자료 수집 및 분석이 우선이기 때문에 코퍼스에서 '와/과'구문을 뽑아서 분석하여 규칙을 마련하였다. 여기에서 사용된 자질연산문법(FCG)은 자연언어처리를 위한 문법으로 변형규칙과 수형도의 개념 없이 자질을 이용한 연산 체계로서 언어처리를 하고자 하는 문법이다. 이 이론을 바탕으로 규칙을 세우고 실제 언어 자료를 뽑아서 테스트를 하여 95%의 성공률을 보여주었다. 그러나 여기서의 연구는 '와/과'구문의 처리를 위한 가장 뼈대가 되는 기초연구이며, 앞으로 좀 더 많은 처리가 이루어져야 하리라 생각된다.

  • PDF

Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews (화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축)

  • Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Choi, Seong-Yong;Shin, Dong-Heouk;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology (반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축)

  • Yoon, Jeong-Woo;Hwang, Chang-Hoe;Choi, Su-Won;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

Types and Functions of English Hedges at a syntax-pragmatics Interface (통사화용의 접합면에서 본 영어 헤지표현의 유형과 기능)

  • Hong, Sungshim
    • The Journal of the Convergence on Culture Technology
    • /
    • v.6 no.1
    • /
    • pp.381-388
    • /
    • 2020
  • This paper discusses English Hedges or Hedging Expressions on the basis of their morphosyntactic-pragramatic properties within the perspective of sociolinguistics. The term, 'Hedges' for the past decades since Lakoff(1973), has received little attention from the English grammar circles such as morphosyntax and the generative grammar theories. This paper presents a more comprehensive approach to the identification, distributions, functions, and the morphosyntactic properties of English Hedges. The earlier research on English Hedges in the 70's show that hedges are metalinguistic or mitadiscourse expressions which constitute a means for executing Politeness strategy in pragmatics. Nonetheless, research from the interface of syntactic-pragmatics has been scarce. This article suggests a more complex body of English hedges that have not been extensively discussed in the literature. Additionally, their configurational domain is to be proposed as part of the PolP with [±hedged] above CP+ (or CP beyond). The ramifications of the current study are suggested in terms of comparative linguistics, EFL/ESL studies of English for global communication, and pragmatics-sensitive machine translation studies in the forseeable future.

Analyzing ages, gender, location on Twitter using LDA (LDA를 이용한 트윗 유저의 연령대, 성별, 지역 분석)

  • Lee, Ho-Kyung;Chun, Ju-Ryong;Song, Nam-Hoon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.116-119
    • /
    • 2013
  • 요즘 많은 사람들은 트위터를 통해 짧은 문장의 트윗을 작성하여 자신의 의견이나 생각을 표현한다. 사람들이 작성한 트윗은 사용자의 연령, 성별, 지역에 따라 다른 특성이 담겨있다. 이러한 정보를 이용하여, 기업에서는 연령대, 성별, 지역에 따라 각기 다른 마케팅 전략을 세울 수 있을 것이다. 본 논문에서는 트위터 사용자들의 트윗을 분석하여 연령대, 성별, 지역을 예측하려 한다. 네이버 오픈사전의 자질, 한국전자통신연구원(ETRI)의 개체명 사전을 이용한 자질 및 한국어 형태소 분석, 음절 단위의 bigram을 클래스별 의미 있는 자질로 선택하고 LDA를 이용하여 예측된 확률분포를 활용하여 분류한 결과, 연령 72%, 성별 75%, 지역 43%의 납득할만한 예측 정확도 결과를 얻게 되었다.

  • PDF

Dependency Relation Analysis using Case Frame for Encyclopedia Question-Answering System (백과사전 질의응답을 위한 격틀 기반 의존관계 분석)

  • Lim, Soo-Jong;Jung, Eui-Suk;Jang, Myoung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.167-172
    • /
    • 2004
  • 백과사전에서 정답을 찾기 위한 정보 중의 하나로 구조분석 정보를 이용하기 위하여 의존 관계 분석을 통해 정확한 구조분석에 대한 연구를 하였다. 정답을 찾기 위한 대상이 되는 용언과 논항의 관계를 파악하기 위해 먼저 의존관계 분석의 모호성 정도를 줄이기 위해 문장을 구묶음으로 나누었고 나눠진 구묶음에서 중심어와 중심어에 해당하는 의미코드를 추출하였다. 이렇게 구분된 구묶음 간의 의존관계를 파악하기 위하여 주로 격틀과 의미코드에 의존하는 의미자질, 거리 자질, 격관계 자질, 절형태 자질을 이용하여 의존관계 모호성을 해소하였다. 백과사전의 특성상 생략되는 성분과 연속 동사 처리를 하여 보다 정확하게 백과사전 QA시스템에서 정답을 찾을 수 있는 정보를 제공하도록 하였다. 실험결과 동사구와 명사구의 의존관계는 89.43의 성능을 보였고 의존관계에 격을 부여한 경우는 78.40%의 정확율, 백과사전 후처리에 해당하는 복원은 68.23의 성능을 보인다.

  • PDF

Korean Sematic Role Labeling Using CRFs (CRFs 기반의 한국어 의미역 결정)

  • Park, Tae-Ho;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.11-14
    • /
    • 2015
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 구구조 정보와 의존 구조 정보 등의 다양한 자질에 대한 실험이 있었다. 논항은 구문 구조에서 얻을 수 있는 서술어와 논항 관계에 많은 영향을 받지만 구문 구조가 변경되어도 변하지 않는 논항의 의미로 인해 의미역 결정에 어려운 점이 있다. 본 논문에서는 한국어 의미역 결정 문제를 위해 Korean Propbank 말뭉치와 직접 구축한 의미역 말뭉치를 학습 말뭉치로 사용하였다. 본 논문에서는 이전에 연구된 구문 정보와 그 외의 자질들에 대한 성능을 검증하였다. 본 논문에서 제시하는 자질들의 성능을 검증하기 위해 CRF를 사용하였고, 제시된 새로운 자질을 사용하여 논항의 인식 및 분류에서 76.25%(F1)의 성능을 보였다.

  • PDF

Improving Korean Part-of-Speech Tagging Using The Lexical Specific Classifier (어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상)

  • Choi, Won-Jong;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.133-139
    • /
    • 2006
  • 한국어 형태소 분석 및 품사 부착을 위해 지금까지 다양한 모델들이 제안이 되었으며 어절단위 평가로 95%를 넘는 성능을 보여주는 자동 태거가 보고 되었다. 하지만 형태소 분석 및 품사 부착은 모든 자연어처리 시스템의 성능에 큰 영향을 미치므로 작은 오류도 중요하다. 본 연구에서는 대상 어절의 주변 형태소의 어휘와 품사 자질, 그리고 어절 자질을 이용하여 분류기를 학습한 후 자동 태거의 품사 부착 결과를 입력으로 받아 후처리 하는 어휘별 분류기를 제안한다. 실험 결과 어휘별 분류기를 이용한 후처리만으로 어절단위 평가 6.86%$(95.251%{\rightarrow}95.577%)$의 오류가 감소하는 성능향상을 얻었으며, 기존에 제안된 품사별 자질을 이용한 후처리 방법과 순차 결합할 경우 16.91%$(95.251%{\rightarrow}96.054%)$의 오류가 감소하는 성능 향상을 얻을 수 있었다. 특히 본 논문에서 제안하는 방법은 형태소 어휘까지 정정할 수 있기 때문에 품사별 자질을 이용한 후처리 방법의 성능을 더욱 향상시킬 수 있다.

  • PDF