• 제목/요약/키워드: Scalable information

검색결과 960건 처리시간 0.023초

준구조적 데이타베이스에서의 정규경로표현 최적화를 위한 질의전지 기법 (A Query Pruning Technique for Optimizing Regular Path Expressions in Semistructured Databases)

  • 박창원;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.217-229
    • /
    • 2002
  • 정규경로표현은 전통적 스키마를 가정하지 않는 준구조적 데이타에 대해 질의를 고안하기 위한 기본적 질의 요소이다. 그리고 질의전지는 정규경로표현의 처리에 있어 불필요한 탐색을 제거하기 위한 중요한 최적화 기법이다. 그러나 기존 질의전지는 다중 정규경로표현들은 완전히 최적화하지 못하는 경우가 많으며, 기존 질의전지의 결과를 후처리하는 기존의 방법은 지수적으로 증가하는 많은 부분결과들의 조합들을 확인해야 한다. 본 논문에서는 전처리 단계와 전지 단계로 구성된 두 단계 질의전지라 부르는 새로운 기법을 소개한다. 우리의 두 단계 질의전지는 다중 정규경로표현의 최적화에 효과적이며, 지수적으로 증가하는 많은 부분결과들의 조합들을 화인하지 않는다는 점에서 기존의 방법보다 더 확장성이 있다.

하둡과 하이브를 이용한 BGP 아카이브 데이터의 포렌직 분석 툴 (Yet Another BGP Archive Forensic Analysis Tool Using Hadoop and Hive)

  • 이연희;이영석
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.541-549
    • /
    • 2015
  • 지속적으로 축적되는 BGP 아카이브 파일은 데이터의 규모로 인해 관리와 분석 방법에 대한 기술적인 어려움에 처해 있다. 최근 오픈소스 분산 컴퓨팅 기반인 하둡 (Hadoop)의 발전에 힘입어 대량의 데이터를 효율적으로 다루는 것이 가능해졌다. 본 논문에서는 대량의 BGP 아카이브 데이터로부터 민첩한 분석 방법을 제공하고 저가의 컴퓨터를 이용하여 성능 확장이 가능한 하둡 기반의 BGP 분석 아키텍쳐 (BGPdoop)를 제안한다. BGPdoop은 여러 지점에서 수집하여 오랜 기간 축적된 대량의 BGP 아카이브 데이터의 효율적인 관리와 분석을 위하여 데이터의 구조와 접근 방법을 정의하고, 유연하고 민첩한 질의 기반의 BGP 분석 방법을 제시한다. 20대 노드로 구성된 테스트베드를 이용한 규모확장성 실험에서 4대 노드 대비 5배의 단위 시간당 증가된 처리량을 확인했다. 또한 하이브 (Hive) 질의를 이용한 BGP 라우팅의 포렌식 분석 사례를 통해 본 논문의 제안방법에 대한 타당성을 제시한다.

The XP-table: 다중 연속 XPath 질의의 집단 처리를 위한 실행시간 효율적인 영역 기반 구조체 (The XP-table: Runtime-efficient Region-based Structure for Collective Evaluation of Multiple Continuous XPath Queries)

  • 이현호;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.307-318
    • /
    • 2008
  • XML 메시지 중계기에서의 주요 이슈들 중 하나는 XML 스트림에 대한 다중 연속 XPath질의를 효율적으로 처리하는 방안이다. 본 연구는 이 문제를 효과적으로 해결하기 위한 시스템을 제안한다. 제안되는 시스템에서는 XPath 질의집합을 XP-table이라는 새로운 영역 기반 데이터 구조로 변환한다. XP-table은 대상 질의들의 공통적인 선택조건들을 공유하며, 실행시간 질의 수행 전에 구축된다. XML 스트림은 XP-table과의 효율적 매칭을 위해 스트림 릴레이션(SR)으로 실행시간에 변환된다. 제안된 시스템에서는 XML의 구조적 특성을 반영한 XP-table과 SR 간의 효과적인 매칭 전략이 제시된다. 또한, YFilter나 LazyDFA와 같은 기존 방법론과의 비교를 포함한 일련의 실험들을 통해, 제안 시스템이 질의 처리의 실행시간 부하를 줄임으로써 시간 효율성이 중요한 스트림 환경에서의 안정적 데이타 처리 능력을 보여준다.

세그먼트 기반의 XML 문서 필터링 (XML Document Filtering based on Segments)

  • 권준호;;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.368-378
    • /
    • 2008
  • 최근 XML 문서 필터링에 기반한 출판-구독(publish-subscribe) 시스템이 많은 관심을 받고 있다. 전형적인 출판-구독 시스템에서, 구독자들은 XPath 언어로 명세된 프로파일로 자신들의 관심을 표현하고, 새로운 내용들은 사용자 프로파일에 대하여 매칭 여부를 판단하여 관심을 가지고 있는 사용자들에게만 배달된다. 구독자의 수와 그들의 프로파일이 증가할수록, 시스템의 확장성이 출판-구독 시스템의 중요한 성공 요소가 된다. 이 논문에서는 FiST 시스템을 확장한 세그먼트 기반의 XML 문서 필터링 시스템인 SFiST 시스템을 제안한다. SFiST 시스템은 XML 문서 필터링에서 중복된 처리를 없애기 위해서 가지형 패턴의 사용자 프로파일에서 세그먼트를 추출하여 해시 기반의 세그먼트 테이블에 저장하고 유지한다. 이 세그먼트는 사용자 프로파일을 터스 시퀀스 형태로 표현하는데 이용되고, 효율적인 필터링을 위한 컴팩트 시퀀스 인덱스에도 사용된다. 실험을 통하여 세그먼트 기반의 SFiST 시스템이 이전의 연구인 FiST 시스템보다 좋은 성능을 가지고 있음을 보였다.

S-PARAFAC: 아파치 스파크를 이용한 분산 텐서 분해 (S-PARAFAC: Distributed Tensor Decomposition using Apache Spark)

  • 양혜경;용환승
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.280-287
    • /
    • 2018
  • 최근 추천시스템과 데이터 분석 분야에서 고차원 형태의 텐서를 이용하는 연구가 증가하고 있다. 이는 고차원의 데이터인 텐서 분석을 통해 더 많은 잠재 요소와 잠재 패턴을 추출가능하기 때문이다. 그러나 고차원 형태인 텐서는 크기가 방대하고 계산이 복잡하기 때문에 텐서 분해를 통해 분석해야한다. 기존 텐서 도구들인 rTensor, pyTensor와 MATLAB은 단일 시스템에서 작동하기 때문에 방대한 양의 데이터를 처리하기 어렵다. 하둡을 이용한 텐서 분해 도구들도 있지만 처리 시간이 오래 걸린다. 따라서 본 논문에서는 인 메모리 기반의 빅데이터 시스템인 아파치 스파크를 기반으로 하는 텐서 분해 도구인 S-PARAFAC을 제안한다. S-PARAFAC은 텐서 분해 방법 중 PARAFAC 분해에 초점을 맞춰 아파치 스파크에 적합하게 변형하여 텐서 분해를 빠르게 분산 처리가능 하도록 하였다. 본 논문에서는 하둡을 기반의 텐서 분해 도구와 S-PARAFAC의 성능을 비교하여 약 4~25배 정도의 좋은 성능을 보였다.

SAN 논리볼륨 관리자를 위한 매핑 기법 (A Mapping Method for a Logical Volume Manager in SAN Environment)

  • 남상수;송석일;유재수;김창수;김명준
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권6호
    • /
    • pp.718-731
    • /
    • 2003
  • 높은 가용성, 확장성, 시스템 성능의 요구를 만족시키기 위해 SAN(Storage Area Network)이 등장했다. 대부분의 SAM 운영 S/W들은 SAN을 보다 효과적으로 활용하기 위해서 SAN에 부착된 물리적 저장장치들을 가상적으로 하나의 커다란 볼륨으로 보이게 하는 저장장치 가상화 개념을 지원한다. 저장장치 가상화의 핵심적인 역할을 하는 것이 바로 논리볼륨 관리자이다. 논리볼륨 관리자는 논리주소를 물리 주소로 매핑 시킴으로서 저장장치 가상화를 실현한다. 이 논문에서는 논리볼륨 관리자를 위한 효율적이고 유연한 매핑기법을 설계하고 구현한다. 더불어 매핑 테이블 기반 매핑 방법에서 유연한 매핑을 돕기 위한 자유공간 관리기법을 설계하고 구현한다. 이 논문의 매핑기법은 특정 시점의 볼륨이미지를 유지할 수 있는 스냅샷과 시스템을 정지시키지 않고 SAN에 저장장치를 추가 또는 삭제할 수 있는 온라인 재구성 기능을 지원한다. 또한 이 논문에서 제안한 기법에 대한 성능 평가를 수행하여 제안하는 기법이 매핑 관리자로서 의미가 있음을 보인다.

논리볼륨 관리자를 위한 자유공간관리자의 설계 및 구현 (Design and Implementation of a Freespace Manager for a Logical Volume Manager)

  • 최영희;유재수;오재철
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 추계공동학술대회
    • /
    • pp.520-532
    • /
    • 2002
  • 높은 가용성, 확장성, 시스템 성능의 요구를 만족시키기 위해 SAN(Storage Area Network)이 등장했다. SAN을 보다 효과적으로 활용할 수 있도록, 대부분의 SAN 운영체제들은 SAN에 부착된 물리적 저장장치들을 가상적으로 하나의 커다란 볼륨으로 보이게 하는 저장장치 가상화 개념을 지원한다. 저장장치 가상화의 핵심적인 역할을 하는 것이 바로 논리볼륨 관리자이다. 자유공간 관리자는 논리볼륨의 자유공간들에 대한 정보를 유지관리 하면서 디스크 할당요구에 적절히 디스크를 할당해주는 역할을 한다. 이때 얼마나 단편화를 최소화하면서 효과적으로 자유공간에 대한 정보를 관리하는가는 전체 볼륨관리자의 성능을 결정하는 중요한 요인이 된다. 이 논문에서는 유연한 매핑을 돕기 위해 자유공간 관리 기법을 설계하고 구현한다. 이 논문의 자유공간 관리기법은 논리블록에 대한 물리블록 할당 외에도 스냅샷과 재구성을 위한 공간할당 및 해제를 효과적으로 처리한다.

  • PDF

HiMang: Highly Manageable Network and Service Architecture for New Generation

  • Choi, Tae-Sang;Lee, Tae-Ho;Kodirov, Nodir;Lee, Jae-Gi;Kim, Do-Yeon;Kang, Joon-Myung;Kim, Sung-Su;Strassner, John;Hong, James Won-Ki
    • Journal of Communications and Networks
    • /
    • 제13권6호
    • /
    • pp.552-566
    • /
    • 2011
  • The Internet is a very successful modern technology and is considered to be one of the most important means of communication. Despite that success, fundamental architectural and business limitations exist in the Internet's design. Among these limitations, we focus on a specific issue, the lack of manageability, in this paper. Although it is generally understood that management is a significant and important part of network and service design, it has not been considered as an integral part in their design phase. We address this problem with our future Internet management architecture called highly manageable network and service architecture for new generation (HiMang), which is a novel architecture that aims at integrating management capabilities into network and service design. HiMang is highly manageable in the sense that it is autonomous, scalable, robust, and evolutionary while reducing the complexity of network management. Unlike any other management framework, HiMang provides management support for the revolutionary networks of the future while maintaining backward compatibility for existing networks.

An Impact of Addressing Schemes on Routing Scalability

  • Ma, Huaiyuan;Helvik, Bjarne E.;Wittner, Otto J.
    • Journal of Communications and Networks
    • /
    • 제13권6호
    • /
    • pp.602-611
    • /
    • 2011
  • The inter-domain routing scalability issue is a major challenge facing the Internet. Recent wide deployments of multihoming and traffic engineering urge for solutions to this issue. So far, tunnel-based proposals and compact routing schemes have been suggested. An implicit assumption in the routing community is that structured address labels are crucial for routing scalability. This paper first systematically examines the properties of identifiers and address labels and their functional differences. It develops a simple Internet routing model and shows that a binary relation T defined on the address label set A determines the cardinality of the compact label set L. Furthermore, it is shown that routing schemes based on flat address labels are not scalable. This implies that routing scalability and routing stability are inherently related and must be considered together when a routing scheme is evaluated. Furthermore, a metric is defined to measure the efficiency of the address label coding. Simulations show that given a 3000-autonomous system (AS) topology, the required length of address labels in compact routing schemes is only 9.12 bits while the required length is 10.64 bits for the Internet protocol (IP) upper bound case. Simulations also show that the ${\alpha}$ values of the compact routing and IP routing schemes are 0.80 and 0.95, respectively, for a 3000-AS topology. This indicates that a compact routing scheme with necessary routing stability is desirable. It is also seen that using provider allocated IP addresses in multihomed stub ASs does not significantly reduce the global routing size of an IP routing system.

MapReduce 기반 분산 이미지 특징점 추출을 활용한 빠르고 확장성 있는 이미지 검색 알고리즘 (A Fast and Scalable Image Retrieval Algorithms by Leveraging Distributed Image Feature Extraction on MapReduce)

  • 송환준;이진우;이재길
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1474-1479
    • /
    • 2015
  • IoT 시대를 맞아 모바일 기기의 급격한 성능 향상에 힘입어 폭발적으로 증가하는 멀티미디어 빅데이터의 빠른 처리가 요구되고 있다. 하지만, 이런 환경의 대격변 속에서도 이미지 검색 연구 분야에서는 정확도 향상에 주로 초점을 맞춘 나머지, 고해상도 멀티미디어 데이터 Query에 대한 빠른 처리 측면에서는 제대로 대응하지 못하고 있다. 이에 우리는 이미지 검색만을 분산화한 선행연구와 달리 MapReduce 기반 분산 이미지 특징점 추출 기법을 활용하여 정확도는 유지하면서 빠른 응답시간을 확보하며, BIRCH 인덱싱을 기반으로 메모리 확장성까지 해결한 새로운 분산 이미지 검색 알고리즘을 제안한다. 그리고 제안하는 분산 이미지 검색 알고리즘의 정확도, 처리시간, 확장성에 대한 실험을 통해 뛰어난 성능을 확인한다.