• 제목/요약/키워드: Cluster Retrieval

검색결과 88건 처리시간 0.022초

날씨 마케팅 적용을 위한 기후 데이터의 군집 분석 (Cluster Analysis of Climate Data for Applying Weather Marketing)

  • 이양구;김원태;정영진;김광득;류근호
    • 한국공간정보시스템학회 논문지
    • /
    • 제7권3호
    • /
    • pp.33-44
    • /
    • 2005
  • 최근 환경오염으로 인한 날씨의 변화, 자원 고갈에 따른 국제 유가의 상승 등 날씨 및 에너지 문제가 기업이나 국가 심지어 개인의 일상생활, 경제활동에 크나큰 영향을 미치고 있다. 이와 같은 이유로 대체에너지 중 태양 에너지 개발에 필요한 일사량 관리와 기후 데이터의 변화 특성 등을 근거로 지역성 규명에 관한 연구가 많이 이루어지고 있다. 그러나 아직까지는 데이터 마이닝을 이용한 지역적 특성에 따른 군집 및 체계적인 분석 데이터 검색 서비스가 효과적으로 제공되지 않고 있다. 따라서 이 논문에서는 국내에서 측정된 기후데이터를 저장 및 관리하기 위한 데이터를 모델링하고, k-means 기법을 이용하여 국내 기후 데이터를 지역적 특성에 따라 군집함으로써 체계적인 데이터 정보를 제공한다. 그리고 이러한 정보들이 날씨 마케팅에 어떻게 적용되는가에 대한 사례를 보인다. 제안 시스템은 기업의 날씨 마케팅 연구 및 이에 영향을 미치는 요소와 분석 정보를 제공할 수 있는 기본 데이터베이스 구축에 유용하게 활용될 것이다.

  • PDF

PC 클러스터 기반 병렬 한국어 정보검색 시스템 (PC Cluster-based Parallel Korean Information Retrieval System)

  • 김진혁;장한국;최참아;류광렬;정상화;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.160-162
    • /
    • 1999
  • 대용량의 정보를 다루는 정보검색 시스템은 정보 처리 과정에서 디스크 접근 시간이 큰 오버헤드로 작용한다. 본 논문에서는 단일 기계에서 작동하는 정보검색 시스템이 가지는 이러한 문제점을 해결하기 위해 PC 클러스터 기반 정보검색 시스템을 구현하였다. 색인어 간의 동시 등장 빈도 정보를 이용한 Greedy De-clustering 알고리즘으로 클러스터에 색인어 역파일을 병렬 분산하여 저장하고, SCI 기반의 효율적인 통신 시스템을 구축하여 클러스터 노드간의 통신이 원활하게 하였다. 따라서 사용자 질의어를 처리할 때 질의어별로 가져오는 색인어 역파일의 디스크 접근 시간이 감소하는 효과를 얻을 수 있었으며, 기존의 단일 기계에서 수행되는 정보 검색 시스템보다 수행속도가 2.3배 빠른 시스템을 구현하였음을 실험을 통해 확인하였다.

  • PDF

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

LSI를 이용한 문서 클러스터링 (The Document Clustering using LSI of IR)

  • 고지현;최영란;유준현;박순철
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 춘계학술대회 논문집
    • /
    • pp.330-335
    • /
    • 2002
  • 정보검색시스템에서 가장 중요한 것은 사용자의 요구에 부합하는 결과를 도출하는 것이다. 이를 위하여 사용자의 질의와 연관된 모든 문서들을 추출하게 되는데, 이 많은 결과 문서들 중에서 사용자가 원하는 문서는 소수이고, 원하는 문서를 찾는 것도 쉽지 않다. 따라서 적절한 결과 문서를 도출하기 위하여 연관된 문서들끼리 그룹화 시키는 클러스터링 방법이 많이 이용된다. 본 논문에서는 기존의 문서내의 색인어 보다는 그 의미에 기반하여 클러스터링 하였다. 이를 위하여 LSI 모델을 적용하였고, 문서 클러스터링 방법으로 많이 사용하고 있는 K-Means 알고리즘을 이용한 클러스터링과의 차이점을 비교, 분석하였다.

  • PDF

유사성 계수를 이용한 군집화 문제에서 유전자와 국부 최적화 알고리듬의 적용 (Application of Genetic and Local Optimization Algorithms for Object Clustering Problem with Similarity Coefficients)

  • 임동순;오현승
    • 대한산업공학회지
    • /
    • 제29권1호
    • /
    • pp.90-99
    • /
    • 2003
  • Object clustering, which makes classification for a set of objects into a number of groups such that objects included in a group have similar characteristic and objects in different groups have dissimilar characteristic each other, has been exploited in diverse area such as information retrieval, data mining, group technology, etc. In this study, an object-clustering problem with similarity coefficients between objects is considered. At first, an evaluation function for the optimization problem is defined. Then, a genetic algorithm and local optimization technique based on heuristic method are proposed and used in order to obtain near optimal solutions. Solutions from the genetic algorithm are improved by local optimization techniques based on object relocation and cluster merging. Throughout extensive experiments, the validity and effectiveness of the proposed algorithms are tested.

유전자 알고리즘을 이용한 CORBA 기반의 재사용 클래스 라이브러리 구현 (Implementation of Reusable Class Library based on CORBA using Genetic Algorithm)

  • 이병정;문병로;우치수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권2호
    • /
    • pp.209-222
    • /
    • 1999
  • 개발 과정의 생산성과 프로그램의 신뢰성을 향상시키기 위하여 소프트웨어 재사용이 매우 중요하며 , 효과적인 재사용을 위해서 세밀한 분류 방법과 정확한 검색 방법에 기반한 객체 지향 재사용 라이브러리가 필수적이다. 본 연구에서는 재사용 라이브러리의 다중 클러스터링(multi-way clustering) 분류 방법과 클러스터 기반 선형 검색(cluster-based linear retrieval) 방법에 유전자 알고리즘(genetic algorithm)을 적용한다. 다중 클러스터링은 부품들이 할당된 클러스터 개수, 클러스터 내부 유사도 그리고 클러스터들 사이의 유사도를 최적화하는 클러스터링을 찾아 부품을 세밀히 분류하는 것이고, 클러스터 기반 선형 검색은 주어진 질의와 유사한 부품을 많이 포함하는 클러스터를 검색하는 것이다. 본 논문에서는 유전자 알고리즘이 시뮬레이티드 어닐링 알고리즘(simulated annealing algorithm) 보다 우수한 해를 찾는 것을 실험을 통하여 보이고, 또한 본 알고리즘을 이용한 CORBA 기반의 재사용 클래스 라이브러리(RCL)를 기술한다.

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

대용량 멀티미디어 데이터의 내용 기반 검색을 위한 고확장 지원 색인 기법 (A Scalable Index for Content-based Retrieval of Large Scale Multimedia Data)

  • 최현화;이미영;이규철
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.726-730
    • /
    • 2009
  • 카메라 기술의 발전 및 사용자 중심의 인터넷 패러다임인 웹 2.0을 토대로 멀티미디어 데이터가 급증하면서, 멀티미디어 검색은 인터넷 서비스로서 그 중요성이 날로 증가되고 있다. 현재 멀티미디어 검색은 단순한 키워드(keyword) 검색에 의존하고 있는 실정으로, 정보 검색의 정확도 및 사용자의 만족도를 충족시키기 위해서는 내용 기반 검색 지원이 필요하다. 본 논문에서는 대용량의 멀티미디어 데이터의 내용 기반 검색을 지원하기 위하여, 데이터의 분포에 따른 다중 길이의 시그니처를 기반으로 한 새로운 분산 인덱스 구조를 제안한다. 제안하는 인덱스 구조는 고차원 데이터의 클러스터링에 따라 데이터의 분포를 분석하여 서로 다른 요약 파일을 분산 생성하고, 이를 기반으로 유사 검색을 병렬로 수행할 수 있도록 설계되었다. 그리하여, 클러스터 환경 하에서 고차원 데이터의 분산 저장이 용이하고, 각 노드들은 서로 다른 시그니처 파일을 기반으로 검색을 병렬 수행함으로써 효율적인 검색을 지원한다.

  • PDF

워크플로우 환경에서의 대규모 서열 유사성 검색 웹 서비스에 관한 연구 (A Study on Web Services for Sequence Similarity search in the Workflow Environment)

  • 정진영
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.41-49
    • /
    • 2008
  • 최근 생물정보학에서의 워크플로우 관리 도구를 이용한 생명 현상에 대한 연구가 활발하게 진행되고 있다. 워크플로우 관리 도구는 서비스의 재사용과 공유를 통해 연구자들이 서로 협업할 수 있는 기반으로 MyGrid 프로젝트의 Taverna를 비롯하여 Kepler, BioWMS 등의 다양한 워크플로우 관리 도구들이 오픈소스로 개발되어 사용 되고 있다. 이러한 워크플로우 관리 도구는 공간적으로 떨어진 서로 다른 서비스들을 웹 서비스 기술을 기반으로 하나의 작업공간에서 연구 과정을 모델링하고 자동화 할 수 있도록 해준다. 생물정보학에서 사용되는 많은 도구와 데이터베이스들이 웹 서비스 형태로 제공되어 워크플로우 관리 도구에서 사용되고 있다. 이러한 상황에서 생물정보학에서 기본으로 사용되는 서열 유사성 검색에 대한 웹 서비스의 개발과 안정적인 서비스 제공은 생물정보학 분야에서 필수적이라 할 수 있다. 본 논문에서는 리눅스 클러스터를 기반으로 생물학 서열 데이터의 유사성 검색 속도를 향상시키는 한편, 이를 웹 서비스 형태로 개발하여 워크플로우 관리 도구와의 연동하여 단시간에 서열 유사성 검색을 가능하게 하였다.

  • PDF

XML 문서의 공통 구조를 이용한 클러스터링 기법 (A Clustering Technique using Common Structures of XML Documents)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.650-661
    • /
    • 2005
  • 인터넷의 성장으로 인해 반구조적인 문서의 표준인 XML 문서의 사용이 증가하고 있고 이에 따라 XML 문서의 통합과 검색을 위한 연구가 많이 진행되고 있다. 효율적인 문서의 통합과 검색을 위한 기초 작업은 유사 구조의 XML 문서를 클러스터링 하는 것이다. 기존 연구의 XML 문서 클러스터링에서는 문서간의 구조적 유사도를 이용하여 클러스터를 생성한다. 그러나 이러한 방법은 문서간의 구조적 유사성외 정확한 측정 기준을 만들기 어렵고, 반복적인 유사도의 비교로 인해 처리 속도가 느리다는 단점이 있다. 이러한 문제점을 개선하기 위하여 이 논문에서는 많은 데이타에도 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 적용하는 새로운 클러스터링 방법을 제안한다. 이 논문에서 제안하는 클러스터링 방법은 하나의 DTD나 XML 스키마를 공유하는 문서 집합이 아닌 스키마가 없는 다양한 구조의 XML 문서들을 대상으로 공통 구조를 이용한다. 공통 구조를 이용하기 위하여 XML 문서의 트리 모델에서 구조를 분리하여 빈발 구조를 추출하고 이를 기반으로 클러스터링을 수행한다. 아울러, 기존 연구와의 비교 및 실험을 통해 제안 기법의 효율성을 보인다.