• 제목/요약/키워드: 주제어 자동분류

검색결과 18건 처리시간 0.022초

자동 문서 분류를 위한 분류 주제어의 자동 증식 방법 (A Method of an Automatic Increment of Class Representatives for an Automatic Document Classification)

  • 정호석;임종태;나혜숙;민철호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2000
  • 현재의 자동 문서 분류 시스템에서는 문서분류는 지식베이스를 구축하고 전문가가 클레스의 분류 주제어를 수동 입력함으로써 이루어진다. 이것은 대단히 어렵고 번거로운 일이며 많은 시간과 노력이 소요되고 지속적으로 이루어지기 힘들다. 본 논문에서는 지식베이스와 문서의 구조적 정보, 통계적 정보, 키워드 간의 응집도를 이용하여 자동 문서 분류를 위한 분류 주제어의 자동 증식 방법을 제안한다.

  • PDF

문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자 (An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier)

  • 허준희;고수정;김태용;최준혁;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

Labeled LDA를 이용한 저자 주제어 추천 (Applying Labeled LDA to Author Keywords Recommendation)

  • 봉성용;황규백
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.385-389
    • /
    • 2010
  • 논문에 부여되는 저자 주제어(author keyword)는 논문을 분류 및 검색하는데 활용될 수 있다. 이렇게 주제어를 부여할 때 자동으로 저자 주제어를 추천한다면 사용자에게 편리성을 제공하고 저자가 직접 부여한 저자 주제어 이외에 추가적으로 주제어가 있는지도 확인할 수 있어 유용하다. 본 연구에서는 논문에 달려있는 다수의 주제어 중 하나의 주제어를 선별하여 Labeled LDA를 이용해 주제어와 초록(abstract)의 관계를 학습했다. 이후 초록이 주어지면 자동으로 저자 주제어를 부여할 수 있도록 추천하는 기법을 제안하고 그에 따른 실험을 진행했다. 본 논문에서는 실험을 통하여 기계학습을 이용한 저자 주제어의 추천이 어느 정도의 성능을 보이는지 평가하고 향후 연구의 방향을 제시한다.

  • PDF

계층적 분류체계를 위한 자동분류 기법에 관한 연구 (An Experimental Study on Text Categorization for Hierarchical Classification)

  • 이영숙;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.173-176
    • /
    • 2001
  • 이 연구는 계층적 분류체계를 기반으로 자동분류를 수행할 HiCat 알고리즘을 제안한다. HiCat 알고리즘은 DDC 지식베이스의 주제어와 기계학습을 거친 정보를 동시에 이용하고, 각 계층별로 주제적합성가중치를 구해 최종 주제범주를 결정한다. 이 알고리즘이 최적의 성능을 보이는 조건을 알아보고, 일반 분류기와의 성능 비교를 통해 HiCat 알고리즘을 평가해 보았다.

  • PDF

주제어와 미분류 문서들을 이용한 문서의 자동 분류 방법 (Automatic Text Classification Method Using Keywords and Unlabeled Text)

  • 이강일;이창환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.592-594
    • /
    • 2005
  • 문서를 분류하기 위해서는 분류주제에 맞춰 미리 분류가 된 자료(labeled data)가 필요하다. 하지만 미리 분류가 된 자료를 만들기 위해서는 사람이 직접 그 문서의 의미를 해석하고 일일이 분류를 해야 하기 때문에 시간이 많이 소모가 된다. 본 논문에서는 비록 사랑이 직접 분류한 자료를 이용하는 것에 비해서 분류 정확도는 조금 떨어지지만, 대신 주제어와 미분류 문서(unlabeled data)를 이용해서 문서를 분류하는 방법을 제시하려고 한다. 이와 같은 주제어와 미분류 문서의 경우에는 구하기가 쉽고, 사랑이 일일이 분류하는 작업이 필요로 하지 않기 때문에 비용과 시간이 크게 절약이 된다는 장정이 있다.

  • PDF

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

용어 자동분류를 사용한 검색어 범주화의 분석적 고찰 (An Analytic Study on the Categorization of Query through Automatic Term Classification)

  • 이태석;정도헌;문영수;박민수;현미환
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.133-138
    • /
    • 2012
  • 검색 창을 통해 입력된 검색어는 정보이용자가 의미 있는 자료를 찾아내는 적극적인 활동의 산물이다. 따라서 검색로그는 정보이용자의 관심사항을 알 수 있는 중요한 분석 데이터이다. 본 연구의 목적은 입력한 검색어의 범주화 결과와 엑세스한 문서의 범주가 어느 정도 유사한 상관관계를 가지는지 분석적으로 고찰해보는 것이다. KISTI(한국과학기술정보연구원)의 NDSL(과학기술정보센터) 사이트의 2009년 검색로그의 검색세션을 식별하고 검색세션단위로 검색어와 이용 자료를 추출한 후, 검색어에 대해 어떤 주제 분류에 속하는 용어인지 자동분류기로 식별한 결과가 실제 이용한 자료의 주제 분야와 잘 맞는지 비교하였다. 그 결과 상위 100개 검색어 분류에 대한 유사도 평균이 58.8%로 파악되었다. 결국 전체적인 유사도는 58.8%이하이며, 관련 연구에서 수행한 자료의 자동분류 검색성능 전문가 평가 결과인 76.8%에 비해 낮다. 이것은 검색어로 쓰인 용어가 다른 연구 분야의 관심 용어로 새롭게 주목 받고 있기 때문이라는 사실을 알 수 있었다.

상호운용적 분류체계 관리를 위한 반자동 분류체계 관리방안 (Semi-Automatic Management of Classification Scheme with Interoperability)

  • 이원구;신성호;김광영;정도헌;윤화묵;성원경;이민호
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.466-474
    • /
    • 2011
  • 과학기술의 융 복합현상은 21세기 지식 기반 경제하에서 더욱 활발하게 진행됨에 따라 과학기술 분야를 적절히 분류해내고, 미래의 신성장 분야까지 포용할 수 있는 체계를 만드는 것이 결코 쉽지 않다. 이에, 본 연구에서는 각 콘텐츠 관리 서비스 기관이 분류체계 간 상호운용성을 갖을 수 있도록 반자동적인 입수/관리 분류체계 이력관리 및 입수-관리 분류체계 간 매핑 방안을 시스템적 측면에서 제시하였으며, 이를 통해, 기존의 수작업 방식에서 발생할 수 있는 관리적 어려움과 비용적 발생을 최소화할 수 있을 것이다.

비음수 행렬 분해와 동적 분류 체계를 사용한 자동 이메일 다원 분류 (Automatic Email Multi-category Classification Using Dynamic Category Hierarchy and Non-negative Matrix Factorization)

  • 박선;안동언
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권5호
    • /
    • pp.378-385
    • /
    • 2010
  • 이메일 사용의 증가로 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 늘고 있다. 현재의 이메일 분류는 SVM, 베이지안 분류자, 규칙 기반 분류자 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 그러나 이러한 지도 학습 방법들은 적합한 이메일을 인식하기 위하여서 사용자가 규칙이나 색인어 목록을 작성해야 한다. 비지도 학습 방법으로 군집을 이용한 다원 분류 방법은 메일의 분류 주제를 설정해주어야 한다. 본 논문에서는 비음수 행렬 분해(NMF, Non-negative Matrix Factorization)를 기반으로 한 자동 분류 주제 생성 방법과, 동적 분류 체계(DCH, Dynamic Category Hierarchy) 방법을 이용한 분류 주제 내에 이메일을 재구성하는 방법을 결합한 새로운 이메일 다원 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 다원 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 사용자가 분류 결과를 만족하지 못하면 분류 주제 내의 이메일을 동적으로 재구성하여 분류의 정확률을 높인다.

AttentionMesh를 활용한 국가과학기술표준분류체계 소분류 키워드 자동추천에 관한 연구 (A Study on Automatic Recommendation of Keywords for Sub-Classification of National Science and Technology Standard Classification System Using AttentionMesh)

  • 박진호;송민선
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.95-115
    • /
    • 2022
  • 이 연구의 목적은 국가과학기술표준분류체계의 소분류 용어를 기계학습 알고리즘을 적용하여 기술키워드 변환하는 것이 목적이다. 이를 위해 본 연구에서는 주제어 추천에 적합한 학습 알고리즘으로 AttentionMeSH를 활용했다. 원천데이터는 한국과학기술기획평가원이 정제한 2017년부터 2020년까지 4개년 연구현황 파일을 사용하였다. 학습은 과제명, 연구목표, 연구내용, 기대효과와 같이 연구내용을 잘 표현하고 있는 4개 속성을 사용했다. 그 결과 임계치(threshold)가 0.5일 때 MiF 0.6377이라는 결과가 도출됨을 확인하였다. 향후 실제 업무에 기계학습을 활용하고, 기술키워드 확보를 위해서는 용어관리체계 구축과 다양한 속성들의 데이터 확보가 필요할 것으로 보인다.