• 제목/요약/키워드: 문서군집

검색결과 127건 처리시간 0.02초

군집분석을 이용한 양파 감성사전 구축 (Construction of Onion Sentiment Dictionary using Cluster Analysis)

  • 오승원;김민수
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2917-2932
    • /
    • 2018
  • 우리나라 식생활에 밀접한 관련을 가지고 있는 채소인 양파의 수급불균형 해결을 위한 생산량 예측 모형 개발의 노력이 많은 연구를 통해 이뤄지고 있다. 하지만 양파의 수확기와 저장 가능성을 고려해 봤을 때 생산량 예측만으로는 수급불균형 해결이 어렵다. 따라서 본 논문에서는 양파의 생산량 정보와 가격의 다양한 요인이 포함되어 있으며 일상에서 쉽게 접할 수 있는 인터넷 기사를 이용하여 가격 예측을 위한 감성사전을 구축하고자 한다. 양파 기사는 2012년부터 2016년까지의 데이터를 사용하였고 도매시장 가격을 통한 문서구분을 통해 4가지 TF-IDF를 비교하여 적합한 TF-IDF를 사용하였다. 분석을 위하여 분할적 군집분석 중 k-means 군집, 밀도기반군집(DBSCAN; density based spatial cluster applications with noise), 가우시안혼합분포군집(GMM; Gaussian mixture model) 군집을 통하여 가격에 대한 긍정/부정 단어를 구분한 결과 GMM 군집이 의미 있는 긍정, 부정, 무정의 3개의 사전으로 구성되었다. 구축된 사전의 합리성을 비교하기 위하여 가격 상승 기사와 가격 하락 기사의 분류에 로지스틱 회귀분석을 적용한 결과 85.7%의 정확도로 구축된 사전의 합리성을 확인할 수 있었다.

인과관계 문맥정보를 사용한 용어 군집화 연구 (Term Clustering based on Causal Context Information)

  • 장두성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.25-31
    • /
    • 2004
  • 단서구문 및 어휘 쌍 확률 등을 이용하면 일정한 영역의 문서에서 사용된 용어의 원인이 되거나 결과를 나타나는 관련어들을 찾을 수 있다. 본 논문에서는 이러한 각 용어의 선행 원인과 후행 결과를 인과관계 정보라고 정의한다. 인과관계 정보가 유사한 용어들은 서로 유사한 개념에 속한다고 가정한다면, 용어의 직/간접적 인과관계로서 용어 온톨로지에서 그 용어가 속할 집합을 결정하는데 도움을 줄 수 있다. 본 논문에서는 각 용어의 인과관계가 용어 군집화를 위한 유용한 문맥 정보의 하나라는 것을 실험을 통해 증명하였다. 속성으로 사용된 인과관계는 대용량의 코퍼스로부터 비지도식 학습방법을 통해 자동 습득하였으며, 그 정확도는 74.84%를 보였다. 1659개 용어에 대한 군집화 실험 결과 70.02%의 정확도를 보였으며, 어휘 유사도만을 사용한 경우에 비해 32.9%의 적용도 향상을 보였다.

  • PDF

군집화 기법을 이용한 능동적 학습의 최초학습예제 선정 (Selecting Initial Training Set for Active Learning by Clustering)

  • 강재호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.16-18
    • /
    • 2003
  • 기계학습의 분류(classification) 기술을 실제 문제에 적용하기 위해서는 카테고리(category)를 부여한 학습예제를 상당수 준비하여야 한다. 예제에 카테고리를 부여(labeling)하는 작업에는 무시할 수 없는 시간과 인력을 필요로 한다. 능동적 학습(active learning)은 동일한 수의 학습예제로 최대한의 성능을 달성하기 위하여 카테고리를 부여할 학습예제를 선별하는 전략이다. 능동적 학습은 현재까지 파악된 정보에 기반하여 분류기(classifier)를 생성하고, 생성된 분류기를 활용하여 카테고리를 부여받았을 때 가장 이득이 큰 예제들을 선정하여 사용자에게 문의하는 과정을 반복하여 수행한다. 만일 능동적 학습의 첫 학습단계에서 학습에 보다 유용한 예제들을 최초학습예제집합으로 선정한다면 같은 수의 학습예제로 더 나은 성능을 달성할 수 있을 것이다. 본 논문에서는 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 일반적인 가정에 기반하여 예제들을 군집화(clustering)한 후, 생성된 각 군집을 대표할 수 있는 예제로 최초학습예제집합으로 구성하는 방안을 제안한다. 제안한 방안을 문서분류 문제를 대상으로 실험해 본 결과 최초학습예제들을 임의로 선정하는 방식보다 정확도가 높은 분류기를 생성할 수 있음을 확인하였다.

  • PDF

사용자 군집을 이용한 개인화 된 웹 페이지 추천 (The personalized web page using the Users clustering method)

  • 이은경;이기현;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.241-243
    • /
    • 2002
  • 기존의 웹 로그를 이용한 추천 System에서의 추천 문서 집합은 웹 페이지의 연관성과 웹 문서 사이의 거리를 이용하여 사용자들에게 추천 문서 집합을 제공해 주는 방식을 사용하였다. 이 방법에 의하면 추천 폐이지로 제공되는 페이지는 사용자별 연관성이 고려되지 않으므로 모든 사용자들이 웹 페이지의 연관성안을 이용한 폐이지를 추천 받는다. 따라서 처음 웹사이트를 방문한 새로운 사용자들에게는 추천해주는 폐이지는 사용자가 보고 있는 웹 페이지의 연관성에 의한 웹 페이지만을 추천 받게 되므로 생각하지 못했던 폐이지나 비슷한 취향을 가진 사용자들이 방문을 했던 페이지에 대해서는 추천 받지 못한다는 문제점을 가지고 있다. 따라서 본 논문에서는 동일한 폐이지를 방문한 사용자별로 클러스터링 하여 같은 그룹에 속한 사용자들의 브라우징 패턴 정보를 발견, 분석화 하여 DB에 저장하였으며, 새로운 사용자에 대해서 웹 페이지 추천 집합을 제공하였다.

  • PDF

Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류 (Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm)

  • 고수정;이정현
    • 한국멀티미디어학회논문지
    • /
    • 제4권2호
    • /
    • pp.171-181
    • /
    • 2001
  • 기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.

  • PDF

의미특징의 포괄적 중요도를 이용한 포괄적 문서 요약 (Generic Summarization Using Generic Important of Semantic Features)

  • 박선;이종훈
    • 한국항행학회논문지
    • /
    • 제12권5호
    • /
    • pp.502-508
    • /
    • 2008
  • 인터넷의 급속한 확산과 대량 정보의 이동은 문서요약을 더욱 필요 하고 있다. 본 논문은 비음수 행렬 인수분해로 얻어진 비음수 의미 가변 행렬과 의미특징의 포괄적 중요도를 이용하여 문장을 추출하여서 포괄적 문서요약을 하는 새로운 방법을 제안하였다. 제안된 방법은 인간의 인식 과정과 유사한 비음수 제약을 사용한다. 이 결과 주제의 군집방법이나 잠재의미분석을 사용한 비지도 학습방법에 비해 더욱 의미 있는 문장을 선택하여 문서를 요약할 수 있다. 실험결과 제안방법이 다른 방법들에 비하여 좋은 성능을 보인다.

  • PDF

NMF와 EMD를 이용한 영문자 활자체 폰트분류 (Font Classification using NMF and EMD)

  • 이창우;강현;정기철;김항준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.688-690
    • /
    • 2004
  • 최근 전자화된 문서 영상을 효율적으로 관리하고 검색하기 위한 문서구조분석 방법과 문서의 자동 분류에 관한 많은 연구가 발표되고 있다. 본 논문에서는 NMF(non-negative matrix factorization) 알고리즘을 사용하여 폰트를 자동으로 분류하는 방법을 제안한다. 제안된 방법은 폰트의 구분 특징들이 공간적으로 국부성을 가지는 부분으로 표현될 수 있다는 가정을 바탕으로, 전체의 폰트 이미지들로부터 각 폰트들의 구분 특징인 부분을 학습하고, 학습된 부분들을 특징으로 사용하여 폰트를 분류하는 방법이다. 학습된 폰트의 특징들은 계층적 군집화 알고리즘을 이용하여 템플릿을 생성하고, 테스트 패턴을 분류하기 위하여 템플릿 패턴과의 EMD(earth mover's distance)를 사용한다. 실험결과에서 폰트 이미지들의 공간적으로 국부적인 특징들이 조사되고, 그 특징들의 폰트 식별을 위한 적절성을 보였다. 제안된 방법이 기존의 문자인식. 문서 검색 시스템들의 전처리기로 사용되면. 그 시스템들의 성능을 향상시킬 것으로 기대된다.

  • PDF

HSI 컬러 공간과 신경망을 이용한 내용 기반 이미지 검색 (Content-based Image Retrieval Using HSI Color Space and Neural Networks)

  • 김광백;우영운
    • 한국전자통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.152-157
    • /
    • 2010
  • 컴퓨터와 인터넷의 발달로 정보의 형태가 다양화 되어 문서 위주의 자료들로부터 이미지, 오디오, 비디오, 음성 등의 모습으로 혼합되어 가고 있다. 하지만 대부분의 검색은 문서 위주로 하기 때문에 이미지, 오디오, 비디오 등은 파일의 이름이 명확하게 설정되어 있지 않을 경우에는 검색을 할 수 없다. 이러한 문제점을 해결하기 위해 문서가 아닌 내용을 기반으로 검색하는 방법을 내용 기반 검색이라고 한다. 그리고 이미지의 내용을 기반으로 검색하는 방법을 내용 기반 이미지 검색이라고 한다. 본 논문에서는 HSI 컬러 공간, ART2 알고리즘, SOM 알고리즘을 이용한 내용 기반 이미지 검색 방법을 제안한다. 제안하는 방법은 학습 대상을 선정하기 위해 원 영상의 특징을 분할한다. 그리고 사용자가 학습 대상을 선정하도록 하기 위해 분할된 특징을 SOM 알고리즘에 적용하여 비슷한 특징을 가지는 영상들로 군집화 한다. 군집화된 영상들에 대해 사용자가 학습 대상을 선정하여 ART2 알고리즘에 적용하여 학습한다. 제안한 방법을 적용하여 이미지 검색을 실험한 결과 제안된 방법은 하나의 이미지가 여러 개의 키워드를 가질 수 있기 때문에 이미지에 포함된 정보를 효과적으로 검색하는 것을 확인하였다.

개념간 관계의 추출과 명명을 위한 통계적 접근방법 (A Statistical Approach for Extracting and Miming Relation between Concepts)

  • 김희수;최익규;김민구
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.479-486
    • /
    • 2005
  • 온톨로지는 차세대 시맨틱 웹을 위한 논리의 기반을 구성하기 위해 제안되었다. 이러한 온톨로지는 특정 분야에 대한 지식을 정형화된 형태로 표현함으로써 기계에 의한 지식의 이해를 가능하게 하고, 이를 사용하여 사용자의 요구에 알맞은 지능화된 서비스를 제공할 수 있게 한다. 하지만, 온톨로지의 구축과 유지는 많은 사람의 시간과 노력을 요구한다. 본 고에서는 온톨로지 구축 방법의 일환으로, 문서로부터 온톨로지를 구성하는 개념간의 관계를 정의하는 자동화된 방법을 제안한다. 본 고에서 제안된 방법은 특정 분야의 문서에 존재하는 개념을 기반으로 개념간의 연관 규칙을 형성하는 개념 쌍을 찾고, 두 개념 사이에 존재하는 내용의 군집화를 통해 두 개념간의 관계를 설명하는 패턴을 찾는다. 마지막으로 패턴간의 군집화를 사용하여 개념 사이의 일반화된 관계를 명시한다. 본 고에서는 제안된 방법을 검증하기 위한 방법으로 TREC(Text REtrieval Conference)에서 제공하는 문서집합을 사용하여 개념간의 관계를 추출, 평가하였으며, 그 결과 제안된 방법은 개념간의 관계를 설명하는 유용한 정보를 제공할 수 있음을 보여준다.

문서 영상 내 테이블 영역에서의 단어 추출 (Word Extraction from Table Regions in Document Images)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.369-378
    • /
    • 2005
  • 문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자연로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 In개의 테이블 영상에 대해 실험한 결과, $99.16\%$의 단어 추출 성공률을 얻을 수 있었다.