• 제목/요약/키워드: 계층적 문서 클러스터링

검색결과 34건 처리시간 0.015초

MD-TIX: XML 질의의 효율적 처리를 위한 다차원 타입상속 색인기법 (MD-TIX: Multidimensional Type Inheritance Indexing for Efficient Execution of XML Queries)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제10권9호
    • /
    • pp.1093-1105
    • /
    • 2007
  • 본 논문에서는 XML 데이터베이스의 색인구조로 다차원 화일구조를 이용하는 다차원 타입상속 색인기법인 MD-TIX를 제안한다. 일차원 색인구조를 이용하는 기존의 XML 데이터베이스 색인기법에서는 타입상속계층과 중첩요소가 포함된 복합 형태의 질의들에 대한 처리를 잘 지원하지 못한다. MD-TIX에서는 XML 데이터베이스의 중첩요소에 대한 색인기법을 위하여 이차원 타입상속 계층 색인기법(2D-THI)을 다차원으로 확장하여 사용한다. 2D-THI는 타입상속 계층의 단순요소에 대한 색인기법으로 킷값 도메인과 타입식별자 도메인으로 구성된 이차원 도메인 공간상에서 요소들의 클러스터링을 다루는 색인기법이다. 본 논문의 MD-TIX에서는 색인된 중첩요소를 표현하는 경로상의 각 타입상속 계층마다 하나의 타입식별자 도메인을 할당하여 구성된 다차원 도메인 공간상에서 색인 엔트리들의 클러스터링을 다룬다. 따라서 HD-TIX에서는 기존의 색인기법에서 지원하기 어려운 질의의 대상 범위가 타입상속 계층상의 임의의 타입들로 제한되거나, 질의에 포함된 복합요소들의 도메인이 타입상속 계층상의 임의의 타입들로 제한되는 경우에도 잘 지원할 수 있다.

  • PDF

음향 DB 구축을 위한 한국어 의성어 군집화 (Korean Onomatopoeia Clustering for Sound Database)

  • 김명관;신영석;김영래
    • 한국멀티미디어학회논문지
    • /
    • 제11권9호
    • /
    • pp.1195-1203
    • /
    • 2008
  • 한글 문서에서 의성어는 자연적 혹은 인공적 소리를 인간의 언어로 표현하는 것으로서, 대상과 가장 가깝게 느껴지는 의성어 단어로 표현할 수 있으며 또한 음향 도서관구축 등 멀티미디어 데이터를 분류하는 기준으로 활용할 수 있다. 이 연구에서 우리는 말뭉치에서 의성어들의 출현빈도를 구하고, 실험에서 사용할 의성어 100개를 선별하였다. 의성어의 관계를 분류하기 위하여 유사도 및 거리 매트릭스의 특징을 추출하고, 이후에 주성분 분석 방법(PCA)을 사용하여 의성어 특성의 차원을 낮추었으며 의성어들의 관계를 벡터 공간에 표현하였다. 비계층적 클러스터링 방법 들을 비교하여 k-means 알고리즘을 사용하였다. 결과로 의성어를 분류하였고 분류 결과를 통해 의성어들의 특성을 반영할 수 있었다.

  • PDF

온톨로지 학습에 의한 유사 웹 서비스 오퍼레이션 발견 방법 (Discovery Methods of Similar Web Service Operations by Learning Ontologies)

  • 이용주
    • 정보처리학회논문지D
    • /
    • 제18D권2호
    • /
    • pp.133-142
    • /
    • 2011
  • 시맨틱 웹 서비스 기술의 성공을 보장하기 위해서는 품질 좋은 온톨로지의 사용이 필수적이다. 하지만 온톨로지 사용의 중요성에도 불구하고 현재 웹 서비스를 위한 온톨로지는 거의 존재하지 않으며 이들의 구축도 쉬운 일이 아니다. 이러한 문제는 오늘날 웹 서비스의 확산과 발전을 가로막는 큰 저해 요인이 되고 있다. 본 논문에서는 웹 서비스를 개발할 때 자동으로 생성되는 WSDL 문서만 가지고 항목 간 숨어있는 시맨틱 정보를 찾아내어 온톨로지를 자동 구축하고, 이를 이용한 유사 웹 서비스 오퍼레이션 발견 방법을 제안한다. 핵심 내용은 WSDL 입출력 항목들로부터 의미적으로 같은 개념들을 묶고, 각 항목들 간의 계층관계를 형성하여 자동적으로 시맨틱 온톨로지를 구축한다. 그리고 새로운 유사도 측정 방법을 통해 우선순위별 유사 오퍼레이션을 발견하며, 발견된 오퍼레이션들 중 가장 적합한 오퍼레이션을 선택하여 웹 서비스 조합에 직접 활용할 수 있는 웹 서비스 오퍼레이션 검색 시스템을 구현한다.

경계범주 자동탐색에 의한 확장된 학습체계 구성방법 (Construction Scheme of Training Data using Automated Exploring of Boundary Categories)

  • 최윤정;지정규;박승수
    • 정보처리학회논문지B
    • /
    • 제16B권6호
    • /
    • pp.479-488
    • /
    • 2009
  • 본 논문은 기존의 목표항목만을 위주로 한 학습체계에서 발생하는 오분류 문제의 해결을 위해 기존의 학습체계에 경계항목을 자동으로 탐 색하여 포함시켜 확대시키는 방법을 제안하고 있다. 여러 주제에 걸쳐 다양한 내용을 다루는 복잡한 문서들은 확실히 어느 범주로 분류해야 할 지 판가름하기 어려운 성질인 모호성이 강하다. 이러한 경우 모든 경우들을 정확히 구분할 수 있는 최적의 경계를 찾는 일은 더욱 어려운 일이 다. 복잡하고 불확실성이 높은 데이터들의 특징은 대부분 분류 경계영역에 위치하므로 이러한 분류경계의 데이터들을 새로운 학습 항목으로 인 식시키도록 하는 것이 필요하다. 본 연구에서는 주어진 목표항목 사이의 경계항목을 자동으로 탐색하여 학습체계에 추가하는 학습 체계 확장 알고리즘을 제시하고, 의도적인 학습오류를 발생시킨 후 기존방법과의 비교실험을 수행함으로써 제안방법의 정확성과 안정성을 비교하였다. 실 험결과 경계범주를 포함하여 학습 체계를 확장시켰을 때의 예측력은 기존 0.70에서 0.86으로 약 24% 향상 되었고, 오류를 포함시켰을 때의 예 측력은 기존 0.52에서 0.79로 약 49% 향상되었다.