• Title/Summary/Keyword: 자질추출

Search Result 218, Processing Time 0.023 seconds

Altering LCA of dependency parse trees for improving relation extraction from adjective clauses (형용사구에서의 관계추출 개선을 위한 의존구문트리의 최소공동조상 (LCA) 변경)

  • Lee, Dae-Seok;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.552-556
    • /
    • 2018
  • 본 논문에서는 텍스트에서 개체(entity) 간 관계(relation) 추출 문제에서 의존구문트리를 이용하여 자질을 추출할 때 형용사구 내에 관계가 나타나는 경우의 성능을 향상시키는 방법을 제안한다. 일률적으로 의존구문트리의 최소공동조상(LCA: Least Common Ancestor)을 이용하는 일반적인 방법보다 형용사구가 나타날 때는 형용사구의 술어를 대신 이용하는 것이 더 좋은 자질이 된다는 것을 제안하고 로지스틱 회귀분석, SVM(linear), SVM(exponential kernel)을 이용한 실험들을 통해 그 효과를 확인하였다. 이는 트리커널을 이용한 것과 같이 의존구문트리의 최소공동조상이 주요한 역할을 하는 관계추출 모델들의 성능을 높일 수 있음을 보여 준다. 수행한 실험 과정을 통해 관계추출 데이터 셋에서 형용사구 내 관계를 포함하는 문장이 전체에서 차지하는 비율이 낮을 경우 생길 수 있는 문제를 추가적으로 얻을 수 있었다.

  • PDF

Automatic Classification of Blog Posts (블로그 포스트의 자동 분류 시스템)

  • Jho, Hee-Sun;Kim, Su-Ah;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.160-162
    • /
    • 2013
  • 편리한 블로그 사용과 블로그에서의 정보 탐색을 위해서는 내용에 기반한 분류가 필요하다. 대부분의 블로그 사이트에서는 내용 기반 분류를 제공하고 있으나, 블로거들은 자신이 작성한 블로그에 대한 수동 분류를 입력하지 않는 경우가 많다. 본 논문에서는 분류가 제공되는 블로그 사이트에서 각 분류별 문서를 수집하고, 어휘빈도와 문서빈도, 분류별 빈도를 활용하여 문서 내 어휘의 자질 가중치를 부여하고, 다양한 학습기를 이용하여 분류 모델을 생성한 뒤 블로그의 특성에 적합한 자질 추출 알고리즘과 분류 알고리즘을 찾아낸다. 실험에서는 본 논문에서 고안한 CTF-IECDF와 나이브 베이즈 멀티노미얼로 조합한 분류 모델이 75.40%의 분류 정확률을 보였다.

  • PDF

Machine Learning Based Blog Text Opinion Classification System Using Opinion Word Centered-Dependency Tree Pattern Features (의견어중심의 의존트리패턴자질을 이용한 기계학습기반 한국어 블로그 문서 의견분류시스템)

  • Kwak, Dong-Min;Lee, Seung-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.337-338
    • /
    • 2009
  • 블로그문서의 의견극성분류 연구는 주로 기계학습기법에 기반한 방법이었고, 이때 주로 활용된 자질은 명사, 동사 등의 품사정보와 의견어 어휘정보였다. 하지만 하나의 의견어 어휘만을 고려한다면 그 극성을 판별하는데 필요한 정보가 충분하지 않아 부정확한 결과를 도출하는 경우가 발생할 수 있다. 본 논문에서는 여러 어휘를 동시에 고려하였을 때 보다 정확한 의견분류를 수행할 수 있을 것이라는 가정을 세웠다. 본 논문에서는 효과적인 의견어휘자질의 추출을 위하여 의견이 내포될 가능성이 높은 의견어휘를 기반으로 의존구문분석을 통해 의존트리패턴을 추출하였고, 제안하는 PF-IDF가중치를 적용하여 지지벡터기계(SVM)와 다항시행접근 단순베이지안(MNNB)알고리즘으로 비교 실험을 수행하였다. 기준시스템인 TF-IDF가중치 기법에 비해 정확도(accuracy)가 지지벡터기계에서 5%, 다항시행접근 단순베이지안에서 8.9% 향상된 성능을 보였다.

Emotion Classification in Song Lyrics using the Emotion Ontology (감정 온톨로지를 활용한 노래 가사의 감정 분류)

  • Kim, Min-Ho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.340-343
    • /
    • 2011
  • 음악 감정 분류에 관한 기존의 연구들은 템포, 박자, 음정, 음표, 리듬 등과 같은 음악의 멜로디와 관련된 자질을 이용하여 음악 감정을 분류하였다. 그러나 노래(Song)와 같이 가사를 포함한 음악은 같은 스타일의 멜로디라도 가사의 내용에 따라 음악에 대하여 청자가 느끼는 감정이 크게 다르다. 본 논문에서는 감정 온톨로지를 활용하여 노래 가사를 감정에 따라 분류하는 방법에 대하여 제안한다. 기구축 된 감정 온톨로지를 바탕으로 네 가지 통사적 규칙을 적용하여 노래 가사로부터 감정 자질을 추출한다. 추출된 감정 자질을 이용하여 Naive Bayes, HMM, SVM과 같은 기계학습 기법을 이용하여 8개 감정 그룹에 대해 58.8%의 정확도를 보였다.

Performance Improvement of Chunking Using Cascaded Machine Learning Methods (다단계 기계학습 기법을 이용한 구묶음 성능향상)

  • Jeon, Kil-Ho;Seo, Hyeong-Won;Choi, Myung-Gil;Nam, Yoo-Rim;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.107-109
    • /
    • 2011
  • 기계학습은 학습말뭉치로부터 문제를 해결하기 위한 규칙을 학습하여 모델을 생성한다. 생성된 모델의 성능을 높이기 위해서는 문제에 적합한 자질들을 많이 이용해야 하지만 많은 자질들을 사용하면 모델의 생성시간은 느려지는 것이 사실이다. 이 문제를 해결하기 위해 본 논문에서는 다단계 기법을 적용한 기계학습으로 구묶음 시스템을 제작하여 학습모델의 생성시간을 단축하고 성능을 높이는 기법을 제안한다. 많은 종류의 자질들을 두 단계로 분리하여 학습하는 기법으로 1단계에서 구의 경계를 인식하고 2단계에서 구의태그를 결정한다. 1단계의 학습자질은 어휘 정보, 품사 정보, 띄어쓰기 정보, 중심어 정보를 사용하였으며, 2단계 학습자질은 어휘 정보와 품사 정보 외에 1단계 결과에서 추출한 구의 시작 품사 정보와 끝 품사 정보, 구 정보, 구 품사 정보를 자질로 사용하였다. 평가를 위해서 본 논문에서는 ETRI 구문구조 말뭉치를 사용하였다.

  • PDF

Comparison of Product and Customer Feature Selection Methods for Content-based Recommendation in Internet Storefronts (인터넷 상점에서의 내용기반 추천을 위한 상품 및 고객의 자질 추출 성능 비교)

  • Ahn Hyung-Jun;Kim Jong-Woo
    • The KIPS Transactions:PartD
    • /
    • v.13D no.2 s.105
    • /
    • pp.279-286
    • /
    • 2006
  • One of the widely used methods for product recommendation in Internet storefronts is matching product features against target customer profiles. When using this method, it's very important to choose a suitable subset of features for recommendation efficiency and performance, which, however, has not been rigorously researched so far. In this paper, we utilize a dataset collected from a virtual shopping experiment in a Korean Internet book shopping mall to compare several popular methods from other disciplines for selecting features for product recommendation: the vector-space model, TFIDF(Term Frequency-Inverse Document Frequency), the mutual information method, and the singular value decomposition(SVD). The application of SVD showed the best performance in the analysis results.

Analysis over Extracting Physical Referring Expressions by Recursive Application over Neural Network (물리적 지시 표현 추출 및 처리를 위한 신경망의 재귀적 사용에 대한 고찰)

  • Koo, Sangjun;Lee, Kyusong;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.142-147
    • /
    • 2012
  • 본 논문에서는 신경망을 재귀적으로 사용하여 문장에서 지시 표현을 추출하고 분석하는 방법에 대해서 제안한다. 임의의 문장이 들어올 때, 문장을 구성하는 각 단어들은 통사론적 자질 벡터와 의미론적 자질 벡터로 나눌 수 있다. 이들 벡터들의 쌍을 인자로써 입력받는 신경망 구조를 제시할 수 있으며, 신경망의 출력 결과는 다시 재귀적으로 쌍인자 신경망에 입력으로써 주입된다. 신경망을 재귀적으로 학습시킴으로써, 문장 내의 지시 표현을 추출할 수 있다. 쌍인자 신경망 파싱 모델의 성능을 측정했고, 제안한 모델의 문제점과 가능성에 대해서 관찰하였다.

  • PDF

Selecting Model of Head in Support Verb Constructions for Phrase-Pattern-based Korean-to-English Machine Translation (구 단위 패턴 기반 한영 기계 번역에서의 기능동사 구문의 중심어 선택 모델)

  • Kim, Hae-Gyung;Chae, Young-Soog;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.203-208
    • /
    • 1999
  • 한국어는 잉여성과 중의성의 범 언어적인 특징과 함께 다른 언어에 비해 주어의 생략이 두드러지며 어순이 자유롭기 때문에 구문 형식의 지배를 덜 받는다는 개별적인 특성을 지닌다. 이러한 특성으로 인해 기계번역의 패턴을 추출할 때 서로 유사 가능성이 있는 패턴에 대한 고려가 없이는 같은 의미의 서로 다른 여러 개의 패턴을 모두 하나의 패턴으로 처리하는 오류를 범할 위험이 있다. 본 연구에서 사용되는 구 단위 패턴은 동사구, 명사구, 형용사구 그리고 부사구를 중심으로 한국어 패턴, 패턴 대표 카테고리, 한국어 패턴의 중심어 및 제약조건 대역영어패턴 의미코드로 나뉜다. 범 언어적인 특성의 한국어와 영어간 격차를 해소하기 위해 각각의 명사에 의미코드를 사용하여 다중 언어기반 체계를 구축하였으며. 한국어의 개별적인 특성으로 인해 발생하는 문제를 해소하기 위해 중심어 부과 자질을 사용하였다. 중심어 부과 자질에 있어서, 특히 술어기능명사를 중심어로 하는 기능동사 '하-' 구문은 다른 동사 구문의 형식과는 달리 논항의 수와 형태를 동사가 아닌 명사가 수행하게 된다. 이러한 특징에 대한 변별적인 자질 부여는 구문의 형태-통사적 특징 뿐만이 아니라 의미적인 고유의 특성까지도 잘 뒷받침하면서 패턴 추출에 월등한 효율성을 제시할 수 있다. 향후 이에 대한 연구는 전반적인 기능동사 구문뿐만이 아니라 개별적인 특징을 보이는 모든 구문에 대한 연구로 확대되어 패턴 기반 기계번역의 패턴 추출에 기본적인 정보의 역할을 담당해야 할 것이다.

  • PDF

Event Sentence Extraction for Information Extraction (정보 추출을 위한 이벤트 문장 추출)

  • Kim, Tae-Hyun;Lim, Soo-Jong;Yun, Bo-Hyun;Park, Sang-Gyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.325-331
    • /
    • 2002
  • 정보추출 시스템의 목적은 관심의 대상이 되는 특정 정보를 선택적으로 찾아내 제시하는데 있다. 따라서 도메인 정보에 의존적인 방법으로 정보추출이 이루어질 수밖에 없고, 이에 따른 도메인 정보 구축의 부담이 컸다. 이러한 부담을 줄이기 위해 본 연구에서는 특정 주제영역과 관련한 문서로부터 자동으로 이벤트 문장을 추출하는 시스템을 제안한다. 이벤트 문장이란, 특정도메인에서 다루어지는 이벤트의 구체적인 내용을 포함하고 있는 문장이다. 이러한 문장을 추출함으로써 기본적인 수준의 정보추출 요구를 만족시킬 수 있을 뿐만 아니라, 주출된 이벤트 문장을 도메인 정보 구축에 활용할 수 있을 것이다. 본 연구에서는 동사, 명사, 명사구, 및 3W 자질을 이용하여 문장추출의 성능을 최대화하기 위한 방안을 제안하고, 세 개의 평가 도메인을 대상으로 실험을 수행하였다. 실험 결과, when 및 where 자질과 동사, 명사. 명사구의 가중치를 이용하여 문장 가중치를 계산함으로써 최적의 이벤트 문장추출 성능을 얻을 수 있음을 알 수 있었다.

  • PDF

Performance Evaluation of a Naive Bayesian Classifier using various Feature Selection Methods (자질선정에 따른 Naive Bayesian 분류기의 성능 비교)

  • 국민상;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.33-36
    • /
    • 2000
  • 베이즈 확률을 이용한 분류기는 자동분류 초기부터 사용되어 아직까지 이 분야에서 가장 많이 사용되는 분류기 중 하나이다. 본 논문에서는 KTSET 문서에서 임의로 추출한 198건의 정보과학회 관련 논문의 제목 및 초록을 대상으로 베이즈 확률을 이용한 문서의 자동분류 실험을 수행하였으며, 더불어 Naive Bayesian 분류기에 가장 적합한 자질선정 방법을 찾고자 카이제곱 통계량, 상호정보량 및 기대상호정보량, 정보획득량, 역문헌빈도, 역카테고리빈도 등 6가지의 자질선정 기준을 실험하였다. 실험 결과는 카이제곱 통계량을 이용한 분류 실험의 성능이 가장 좋았고, 기대상호정보량과 정보획득량, 역카테고리빈도 또한 자질수에 큰 영향을 받지 않고 비교적 안정적인 성능을 보였다.

  • PDF