• Title/Summary/Keyword: 자질 생성

Search Result 102, Processing Time 0.067 seconds

나이브베이즈분류기의 정확도 향상을 위한 자질변수통합 (Combining Feature Variables for Improving the Accuracy of $Na\ddot{i}ve$ Bayes Classifiers)

  • 허민오;김병희;황규백;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.727-729
    • /
    • 2005
  • 나이브베이즈분류기($na\ddot{i}ve$ Bayes classifier)는 학습, 적용 및 계산자원 이용의 측면에서 매우 효율적인 모델이다. 또한, 그 분류 성능 역시 다른 기법에 비해 크게 떨어지지 않음이 다양한 실험을 통해 보여져 왔다. 특히, 데이터를 생성한 실제 확률분포를 나이브베이즈분류기가 정확하게 표현할 수 있는 경우에는 최대의 효과를 볼 수 있다. 하지만, 실제 확률분포에 존재하는 조건부독립성(conditional independence)이 나이브베이즈분류기의 구조와 일치하지 않는 경우에는 성능이 하락할 수 있다. 보다 구체적으로, 각 자질변수(feature variable)들 사이에 확률적 의존관계(probabilistic dependency)가 존재하는 경우 성능 하락은 심화된다. 본 논문에서는 이러한 나이브베이즈분류기의 약점을 효율적으로 해결할 수 있는 자질변수의 통합기법을 제시한다. 자질변수의 통합은 각 변수들 사이의 관계를 명시적으로 표현해 주는 방법이며, 특히 상호정보량(mutual information)에 기반한 통합 변수의 선정이 성능 향상에 크게 기여함을 실험을 통해 보인다.

  • PDF

한국어 초록 작성의 자동화에 관한 연구 -미생물학분야 학술지의 논문을 대상으로- (A Study on the Automatic Abstracting System for Journal Articles in Korean in the Field of Microbiology)

  • 이태영
    • 정보관리학회지
    • /
    • 제9권2호
    • /
    • pp.43-79
    • /
    • 1992
  • 자연 언어 처리 문법 중 격문법, 개념 의존 문법, PATR-II, DCG를 응용하여 미생 물학 분야에 대한 한국어 자동 초록 시스템의 구축을 연구하였다. 표본으로 선택된 초록들 을 분석하여 초록의 구조가 연구 목적 문장, 방법.결과 문장, 결론 문장 의 순으로 이루어지 는 것을 알았고 이를 초록의 이상적인 구조 형식으로 정하였다. 본문에서는 문장 발췌와 발 췌된 문장들이 초록의 문장으로 정제되도록 하는 과정에서 중요한 역할을 하는 명사 역할 자질과 그 자질을 부여하는 규칙을 개발 하였다. 그리고 발췌된 문장들을 재정렬시키기 위 한 재정렬 규칙, 초록 문장을 생성하기 위한 문장 생성 규칙을 두었다. 그리고 본 시스템의 방법론으로 작성된 자동 초록들을 평가한 결과, 본 시스템의 방법론이 저자 초록과 같은 수 준에 오르려면 정밀한 역할 자질의 확립과 문장 생성 규칙에 대한 보다 깊은 연구가 필요하 다고 사려된다.

  • PDF

텍스트 신뢰도 자질 기반 지식 질의응답 문서 품질 평가 모델 (Text-Confidence Feature Based Quality Evaluation Model for Knowledge Q&A Documents)

  • 이정태;송영인;박소영;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.608-615
    • /
    • 2008
  • 불특정 다수 사용자가 정보를 생성하는 지식 질의응답 서비스에서는 문서의 품질이 검색결과 만족도에 중요한 요소 중 하나이다. 지식 질의응답 문서의 품질 평가에 관한 기존 연구는 조회 수와 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었다. 그러나 비텍스트 정보를 이용하여 새로 작성된 문서의 품질을 평가할 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가자질로서 문서 내용 자체에 대한 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여를 간접적으로 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실제 지식 질의응답 문서를 대상으로 한 실험에서 보였으며, 추후 효과적인 품질 평가 자질로서 지식 질의응답 서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

영한 기계번역의 한국어 생성 시스템에서 조동사의 생성 (Generation of Auxiliary Verbs in a Korean Generation System of English-Korean Machine Translation)

  • 안동언;조정미;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.533-544
    • /
    • 1993
  • 기계번역에서 기능어의 번역은 각 언어가 고유의 문법적 특성과 표현방법을 가지고 있기 때문에 기능어가 가지는 의미와 문법적 기능을 자질로 표현하고 이를 통하여 해석과 생성을 한다. 한국어는 첨가어로 기능어가 매우 발달되어 있으며, 특히 조동사가 많은 문법적 기능을 담당하고 화자의 양태적 관계를 나타낸다. 따라서, 기계번역의 한국어 생성에서 조동사가 번역의 질에 상당한 영향을 미친다. 본 논문에서는 중간언어방식을 이용한 기계번역시스템의 한국어 생성에서 문법적 기능이나 양태적 관계를 나타낸 중간언어로부터 어떠한 조동사가 생성이 되어야 하고, 또한 조동사들간의 결합순서는 어떠한지를 살펴본다. 이를 위하여 Corpus를 분석하여 각 조동사 분류에 대한 대표 표층어를 선정하고 조동사간의 결합순서를 밝힌다. 조동사 생성을 위해 필요한 처리 과정과 언어적 지식베이스를 제안하고 시스템을 구현한다.

  • PDF

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템 (Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features)

  • 임정우;장윤나;손준영;이승윤;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

가사정보를 이용한 음악 추천 시스템 (Music Recommender System based on Lyrics Information)

  • 장근탁;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.42-45
    • /
    • 2010
  • 본 연구에서는 한국의 대중가요의 가사 정보를 형태소 단위로 분석하고 이 정보를 기반으로 노래의 감정을 분류하여 추천하는 시스템을 제안한다. 이 시스템을 구축하기 위해서 수집된 노래의 가사는 형태소를 분석하여 각 형태소를 자질로 결정하고, 사용되는 분류기는 ME 모델을 이용해서 학습된다. 이 학습된 분류기는 자질의 수에 따라 그 성능이 분석되고, 분류기를 사용한 추천 시스템은 랜덤하게 생성된 데이터 집합에 대해서 얼마나 정확하게 노래를 추천하는 지를 분석한다.

  • PDF

기계학습기법을 이용한 영어작문 문장 수준평가 시스템 (A English Composition Level Assessment System Using Machine Learning Techniques)

  • 엄진희;곽동민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

문헌간 유사도를 이용한 자동분류에서 미분류 문헌의 활용에 관한 연구 (Utilizing Unlabeled Documents in Automatic Classification with Inter-document Similarities)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.251-271
    • /
    • 2007
  • 문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해 보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비기 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다.

음향학적 자질을 활용한 비디오 스피치 요약의 자동 추출과 표현에 관한 연구 (Investigating an Automatic Method for Summarizing and Presenting a Video Speech Using Acoustic Features)

  • 김현희
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.191-208
    • /
    • 2012
  • 스피치 요약을 생성하는데 있어서 두 가지 중요한 측면은 스피치에서 핵심 내용을 추출하는 것과 추출한 내용을 효과적으로 표현하는 것이다. 본 연구는 강의 자료의 스피치 요약의 자동 생성을 위해서 스피치 자막이 없는 경우에도 적용할 수 있는 스피치의 음향학적 자질 즉, 스피치의 속도, 피치(소리의 높낮이) 및 강도(소리의 세기)의 세 가지 요인을 이용하여 스피치 요약을 생성할 수 있는지 분석하고, 이 중 가장 효율적으로 이용할 수 있는 요인이 무엇인지 조사하였다. 조사 결과, 강도(최대값 dB과 최소값 dB간의 차이)가 가장 효율적인 요인으로 확인되었다. 이러한 강도를 이용한 방식의 효율성과 특성을 조사하기 위해서 이 방식과 본문 키워드 방식간의 차이를 요약문의 품질 측면에서 분석하고, 이 두 방식에 의해서 각 세그먼트(문장)에 할당된 가중치간의 관계를 분석해 보았다. 그런 다음 추출된 스피치의 핵심 세그먼트를 오디오 또는 텍스트 형태로 표현했을 때 어떤 특성이 있는지 이용자 관점에서 분석해 봄으로써 음향학적 특성을 이용한 스피치 요약을 효율적으로 추출하여 표현하는 방안을 제안하였다.