• 제목/요약/키워드: Document clustering

검색결과 224건 처리시간 0.035초

XML 문서 검색을 위한 구조 기반 클러스터링 (Structure-based Clustering for XML Document Retrieval)

  • 황정희;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1357-1366
    • /
    • 2004
  • 웹에서 효율적인 정보 관리와 데이터 교환을 위해 XML의 중요성이 증가함에 따라 XML의 구조 통합과 구조 검색에 대한 연구가 진행되고 있다. 구조가 정의되어 있는 XML 문서의 구조 검색은 스키마 또는 DTD를 통해 가능하다 그러나 DTD나 스키마가 정의되어 있지 않은 XML 문서에 대한 검색은 기존의 검색 방법을 적용할 수 없다. 그러므로 이 논문에서는 구조 정보가 주어지지 않은 많은 양의 XML 문서를 대상으로 구조를 빠르게 검색하기 위한 기반 연구로써 새로운 클러스터링 기법을 제안한다. 먼저 각 문서로부터 빈발한 구조의 특성을 추출한다. 그리고 추출된 빈발 구조를 문서의 대표 구조로 하여 유사 구조기반의 클러스터링을 수행한다. 이것은 서로 다른 구조의 전체 문서를 대상으로 검색하는 것보다 신속하게 구조 검색을 할 수 있도록 한다. 또한 유사한 구조들로 그룹화되어 있는 클러스터들을 기반으로 XML 문서에 대한 구조 검색을 수행한다. 아울러 구조 검색의 적용 방법을 기술하고, 그에 대한 결과의 예를 보여 제안 기법의 효율성을 증명한다.

공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘 (Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification)

  • 홍성삼;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.1-10
    • /
    • 2019
  • 빅 데이터에서 텍스트 마이닝은 많은 수의 데이터로부터 많은 특징 추출하기 때문에, 클러스터링 및 분류 과정의 계산 복잡도가 높고 분석결과의 신뢰성이 낮아질 수 있다. 특히 텍스트마이닝 과정을 통해 얻는 Term document matrix는 term과 문서간의 특징들을 표현하고 있지만, 희소행렬 형태를 보이게 된다. 본 논문에서는 탐지모델을 위해 텍스트마이닝에서 개선된 GA(Genetic Algorithm)을 이용한 특징 추출 방법을 설계하였다. TF-IDF는 특징 추출에서 문서와 용어간의 관계를 반영하는데 사용된다. 반복과정을 통해 사전에 미리 결정된 만큼의 특징을 선택한다. 또한 탐지모델의 성능 향상을 위해 sparsity score(희소성 점수)를 사용하였다. 스팸메일 세트의 희소성이 높으면 탐지모델의 성능이 낮아져 최적화된 탐지 모델을 찾기가 어렵다. 우리는 fitness function에서 s(F)를 사용하여 희소성이 낮고 TF-IDF 점수가 높은 탐지모델을 찾았다. 또한 제안된 알고리즘을 텍스트 분류 실험에 적용하여 성능을 검증하였다. 결과적으로, 제안한 알고리즘은 공격 메일 분류에서 좋은 성능(속도와 정확도)을 보여주었다.

카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화 (Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images)

  • 송영자;최영우
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.205-214
    • /
    • 2006
  • 이미지에 포함된 텍스트는 이미지의 내용을 함축적이고 구체적으로 표현하는 정보로서 이러한 정보를 실시간에 찾아내서 인식한다면 다양한 응용에 활용할 수 있다. 본 논문에서는 카메라로 취득한 다양한 종류의 이미지로부터 텍스트를 추출하는 방법과 추출된 영역에서 텍스트를 분리하는 방법을 새롭게 제안한다. 텍스트 영역 추출을 위해서 RGB 색 공간에서 색 분산을 특징으로 제안하며, 텍스트 영역 분리를 위해서 RGB 색 공간에서 개선된 K-means 병합을 제안한다. 실험은 디지털 카메라와 핸드폰 카메라로 취득한 다양한 종류의 문서유형 이미지와 실내외의 일반적인 자연이미지를 사용하였으며, ICDAR 콘테스트[1] 이미지의 일부도 사용하였다.

연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구 (A Clustering Technique Using Association Rules for The Library and Information Science Terminology)

  • 승현우;박미영
    • 한국문헌정보학회지
    • /
    • 제37권2호
    • /
    • pp.89-105
    • /
    • 2003
  • 본 논문에서는 대량의 웹 문서로부터 연관된 지식정보를 검색하기 위한 전문 검색엔진을 개발하기 위하여 텍스트에서 추출된 전문 용어를 효율적으로 클러스터링하기 위한 방법을 제안하고자 한다. 즉, 일반적인 용어들간의 무의미한 연관 규칙이 양산되는 것을 방지하기 위하여 전문 용어로 구성된 지식베이스 테이블을 이용하여 의미 있는 용어들간의 연관 규칙을 생성한다. 연관 규칙은 하나의 논문에서 사용된 전문 용어들의 집합을 트랜잭션 단위로 구성하여 Apriori 알고리즘을 적용하여 생성된다. 하나의 용어로부터 생성된 연관 규칙 집합은 해당 전문 용어와 관련된 클러스터로 구성된다.

대한민국 정권별 아동복지정책 관련 뉴스 기사 분석: K-평균 군집 분석 (Analysis of News Articles on Child Welfare Policies in South Korea: K-Means Clustering)

  • 김은주;김성광;박빛나
    • 동서간호학연구지
    • /
    • 제29권2호
    • /
    • pp.185-195
    • /
    • 2023
  • Purpose: The purpose of this study is to analyze changes of child welfare policies and provide insights based on the collection and classification of newspaper articles. Methods: Articles related to child welfare policies were collected from 1990, during the Kim, Young-sam administration, to May 9, 2022, under the Moon, Jae-in administration. K-Means clustering and keyword Term Frequency-Inverse Document Frequency analysis were utilized to cluster and analyze newspaper articles with similar themes. Results: The administrations of Kim, Young-sam, Kim, Dae-jung, Roh, Moo-hyun, and Park, Geun-hye were classified into two clusters, and the Lee, Myung-bak and Moon, Jae-in administrations were classified into three clusters. Conclusion: South Korea's child welfare policies have focused on ensuring the safety and healthy development of children through diverse policies initiatives over the years. However, challenges related to child protection and child abuse persist. This requires additional resources and budget allocation. It is important to establish a comprehensive support system for children and families, including comprehensive nursing support.

XML 문서 클러스터링을 이용한 개선된 연관규칙 (Advanced Association Rules using XML Document Clustering)

  • 김의찬;이재민;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.181-183
    • /
    • 2004
  • 기존의 연관규칙을 생성하는 알고리즘의 문제점을 개선하기 위해 본 논문에서는 XML 문서 클러스터링을 이용하였다. XML 문서 클러스터링을 이용하여 데이터베이스 탐색 횟수 일 조인 개수를 줄여서 수행 속도를 향상시키고, 또한 클러스터링을 통해 얻은 클러스터에서 규칙을 찾기 때문에 기존의 연관규칙 생성 방법에서는 찾지 못했던 규칙들도 찾아낼 수 있다 본 논문에서 사용하는 클러스터링 방법은 XML문서 검색을 위한 3차원 비트맵 인덱싱인 xPlaneb를 사용하여 구현하였다.

  • PDF

문서임베딩 기반 모바일 앱 분류 및 이를 이용한 마켓 분석 (Mobile App Clustering and Analyzing using Document Embedding)

  • 윤여찬;박수명;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.378-381
    • /
    • 2018
  • 스마트폰이 출시된 이후로 수많은 어플리케이션이 모바일로 출시되고 있다. 본 논문에서는 모바일 앱을 자동으로 분류하는 방법에 대하여 제안한다. 제안한 방법은 딥러닝 기반의 문서 임베딩 방법을 기반으로 효과적으로 앱을 분류한다. 본 논문에서는 또한 제안한 방법을 이용하여 독점도, 포화도, 인기순위를 기준으로 실제 마켓을 분석한다.

  • PDF

전문 웹 사이트에서의 통계적 기법과 태그 정보를 이용한 문서 분류 (Web Document Clustering Using Statistical Techniques & Tag Information on the Specific-Domain Web site)

  • 조은휘;변영태
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.297-302
    • /
    • 2002
  • 특정 영역에 대해 사용자에게 관련 정보를 제공하는 서비스를 위해 정보 에이전트를 개발하고 있다. 이 시스템은 웹 상에서 문서를 수집해 오는데 특정 영역과 관련한 지식베이스를 토대로 하고 있는데, 이들 중 몇몇 전문 사이트 내의 정보가 많이 포함되어 있음을 볼 수 있다. 그러므로 전문 사이트 내의 관련 문서 수집은 중요한 의의가 있다. 본 논문에서는 이들 전문 사이트 내의 전문 문서 수집을 위해 문서간의 유사성을 토대로 클러스터링 한다. 즉, 문서내의 텀(term)과 HTML 태그(tag), 지식베이스의 WordNet 계층구조를 data로 하고 SVD(Singular Value Decomposition)을 사용하여 문서간의 관계를 밝혀내었다.

  • PDF

웹 디렉토리 서비스를 위한 문서 클러스터링 (Document Clustering for Web Directory Service)

  • 이문기;권오욱;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.351-353
    • /
    • 2000
  • 대부분의 검색 엔진에서의 사용자의 정보 검색 요구에서 나타나는 키워드 장벽의 문제점을 해결하고 사용자의 정보 검색 과정에 도움을 주기 위해 디렉토리 서비스를 제공한다. 하지만 디렉토리 서비스에서 새로운 웹 사이트를 지속적으로 인덱스하여 하나의 주제어에 너무 많은 수의 웹 사이트가 부여되어 있으면 사용자의 검색 편의를 위해서 재분류하여 세분류할 필요가 있다. 따라서 본 논문에서는 한 주제어에 과다하게 부여된 웹 사이트들을 세분류하기 위해 기존의 문서 클러스터링 기법을 사용하여 클러스터링 할 때 생기는 문제점을 보완한 문서 클러스터링 시스템을 소개한다.

  • PDF

의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링 (Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information)

  • 강동혁;주길홍;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.175-177
    • /
    • 2001
  • 기존의 문서 클러스터링 알고리즘은 모든 문서가 각각 하나의 클러스터에만 할당되도록 설계되어 문서에 여러 개의 주제가 포함되어 있을지라도 문서는 유사도 비교에 의해 오직 하나의 플러스터에 포함된다는 단점이 있다. 본 연구에서는 이러한 문서 플러스터링 방법의 한계를 파악하기 위해 문서가 여러 개의 클러스터에 포함될 수 있는 계층적 중복 문서 클러스터링을 제안한다. 또한, 문서 클러스터링의 정확도를 높이기 위해서 불용어 제거 알고리즘을 이용해 불용어를 제거하여 클러스터링에 사용되는 키워드를 선별하고, 단어가중치 산출을 위한 TF*NHDF 공식을 제안한다.

  • PDF