• 제목/요약/키워드: MapReduce model

검색결과 158건 처리시간 0.023초

맵리듀스에서 집계 질의 스트림의 효율적인 처리 기법 (Efficient Processing of an Aggregate Query Stream in MapReduce)

  • 최현진;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.73-80
    • /
    • 2014
  • 맵리듀스는 빅데이터 분석 및 처리에 널리 사용되는 프로그래밍 모델이다. 빅데이터 분석을 위해 흔히 사용되는 질의 중 하나는 집계 질의(aggregate query)이다. 본 논문에서는 여러 사용자가 동시에 여러 집계 질의를 계속해서 요청하는 경우, 맵리듀스를 사용하여 이들 질의를 효율적으로 처리하는 방법을 제안한다. 제안 방법은 각 집계 질의를 개별적으로 처리하지 않고, 여러 집계 질의를 묶어 하나의 최적화된 맵리듀스 잡(job)으로 만들어 일괄 처리한다. 그 결과로 제안 방법은 단순 방법에 비해 시간당 처리하는 질의 수를 크게 증가시킨다. 성능 평가를 통해, 제안 방법은 단순 방법에 비해 질의 처리 속도를 크게 향상시킴을 보인다.

Pattern mining for large distributed dataset: A parallel approach (PMLDD)

  • Pal, Amrit;Kumar, Manish
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권11호
    • /
    • pp.5287-5303
    • /
    • 2018
  • Handling vast amount of data found in large transactional datasets is an obvious challenge for the conventional data mining algorithms. Addressing this challenge, our paper proposes a parallel approach for proper decomposition of mining problem into sub-problems in order to find frequent patterns from these datasets. The proposed, Pattern Mining for Large Distributed Dataset (PMLDD) approach, ensures minimum dependencies as well as minimum communications among sub-problems. It establishes a linear aggregation of the intermediate results so that it can be adapted to large-scale programming models like MapReduce. In this context, an algorithmic structure for MapReduce programming model is presented. PMLDD guarantees an efficient load balancing among the sub-problems by a specific selection criterion. Further, it optimizes the number of required iterations over the dataset for mining frequent patterns as compared to the existing approaches. Finally, we believe that our approach is scalable enough to handle larger datasets in terms of performance evaluation, and the result analysis justifies all these mentioned concerns.

VotingRank: A Case Study of e-Commerce Recommender Application Using MapReduce

  • Ren, Jian-Ji;Lee, Jae-Kee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.834-837
    • /
    • 2009
  • There is a growing need for ad-hoc analysis of extremely large data sets, especially at e-Commerce companies which depend on recommender application. Nowadays, as the number of e-Commerce web pages grow to a tremendous proportion; vertical recommender services can help customers to find what they need. Recommender application is one of the reasons for e-Commerce success in today's world. Compared with general e-Commerce recommender application, obviously, general e-Commerce recommender application's processing scope is greatly narrowed down. MapReduce is emerging as an important programming model for large-scale data-parallel applications such as web indexing, data mining, and scientific simulation. The objective of this paper is to explore MapReduce framework for the e-Commerce recommender application on major general and dedicated link analysis for e-Commerce recommender application, and thus the responding time has been decreased and the recommender application's accuracy has been improved.

브이월드 3D 지도 서비스 성능 향상을 위한 3D 타일 적용 방안 연구 (3D Tile Application Method for Improvement of Performance of V-world 3D Map Service)

  • 김태훈;장한솔;유성환;고준희
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.55-61
    • /
    • 2017
  • 2012년 시범 서비스를 시작한 한국형 공간정보 오픈플랫폼 브이월드는 전국의 2차원, 3차원 지도 및 행정정보를 손쉽게 활용할 수 있도록 다양한 서비스를 제공하고 있다. 그 중 3차원 지도 서비스는 건물 단위로 모델링 되어있어 모델 요청과 이를 화면에 그리는 드로우 콜(draw call)이 개별 건물 모델에 대해 필요하다. 이로 인해 발생하는 다수의 모델 요청과 드로우 콜이 central processing unit(CPU)와 graphic processing unit(GPU) 간의 전송 및 전환 과정에서 발생하는 대기 시간 증가를 야기해 3차원 지도 서비스의 성능이 감소한다. 본 논문에서는 다수의 모델 요청 및 드로우 콜로 인해 발생하는 3차원 지도 서비스의 성능 저하를 줄이기 위한 성능 개선안을 제안한다. 이를 위해, 단일 건물 모델이 아닌 여러 건물 모델을 타일로 병합한 3차원 타일 모델을 적용하여 모델 파일에 대한 요청수와 드로우 콜을 줄이고자 하였다. 추가적으로 쿼드트리(quadtree) 알고리즘을 적용하여 화면에 그릴 영역에 필요한 모델의 탐색 시간 감소를 통해 모델 파일을 불러오는 요청 시간을 줄이고자 하였다. 이는 브이월드의 3차원 지도 서비스의 성능을 향상에 기여할 것으로 예상된다.

전화통화 빅데이터 분석에 관한 연구 (A Study on Phon Call Big Data Analytics)

  • 김정래;정찬기
    • 정보화연구
    • /
    • 제10권3호
    • /
    • pp.387-397
    • /
    • 2013
  • 본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

HMIPv6에서의 고속 매크로 핸드오프 지원 방안 (A Fast Handoff between MAPs in Hierarchical Mobile IPv6)

  • 신태일;문영성
    • 대한전자공학회논문지TC
    • /
    • 제43권2호
    • /
    • pp.16-21
    • /
    • 2006
  • Internet Engineering Task Force(IETF)는 효율적인 이동성 지원을 위해 Hierarchical Mobile IPv6(HMIPv6)를 제안하였다. HMIPv6는 Mobility Anchor Point(MAP) 도메인 내에서 기존 Mobile IP(MIP)에서 모바일 노드의 이동시 마다 필수적이었던 시그널링 오버헤드와 Binding Update(BU)로 인한 지연을 줄 일수 있는 방법을 제공한다 하지만 MAP과 MAP사이를 이동하는 사용자에 대해서는 아무런 대비책을 제시하지 않고 있기 때문에 실시간 응용프로그램의 사용에 있어서 이 경우 상당한 지연이 발생한다. 본 논문은 MAP과 MAP사이를 이동하는 사용자에 대해서도 사용자의 통신에 대한 영향을 최소화할 수 있도록 핸드오프 지연시간을 단축할 수 있는 고속 핸드오프를 제안하고 수학적 모델을 통하며 기존의 HMIPv6와 비교하였다.

A MapReduce-based Artificial Neural Network Churn Prediction for Music Streaming Service

  • Chen, Min
    • International Journal of Computer Science & Network Security
    • /
    • 제22권1호
    • /
    • pp.55-60
    • /
    • 2022
  • Churn prediction is a critical long-term problem for many business like music, games, magazines etc. The churn probability can be used to study many aspects of a business including proactive customer marketing, sales prediction, and churn-sensitive pricing models. It is quite challenging to design machine learning model to predict the customer churn accurately due to the large volume of the time-series data and the temporal issues of the data. In this paper, a parallel artificial neural network is proposed to create a highly-accurate customer churn model on a large customer dataset. The proposed model has achieved significant improvement in the accuracy of churn prediction. The scalability and effectiveness of the proposed algorithm is also studied.

A Design of DBaaS-Based Collaboration System for Big Data Processing

  • Jung, Yean-Woo;Lee, Jong-Yong;Jung, Kye-Dong
    • International journal of advanced smart convergence
    • /
    • 제5권2호
    • /
    • pp.59-65
    • /
    • 2016
  • With the recent growth in cloud computing, big data processing and collaboration between businesses are emerging as new paradigms in the IT industry. In an environment where a large amount of data is generated in real time, such as SNS, big data processing techniques are useful in extracting the valid data. MapReduce is a good example of such a programming model used in big data extraction. With the growing collaboration between companies, problems of duplication and heterogeneity among data due to the integration of old and new information storage systems have arisen. These problems arise because of the differences in existing databases across the various companies. However, these problems can be negated by implementing the MapReduce technique. This paper proposes a collaboration system based on Database as a Service, or DBaaS, to solve problems in data integration for collaboration between companies. The proposed system can reduce the overhead in data integration, while being applied to structured and unstructured data.

Z-map 기반 NC 검증모델을 이용한 칩부하 제어 (Chip Load Control Using A NC Verification Model Based on Z-Map)

  • 백대균;고태조;김희술
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2000년도 추계학술대회 논문집
    • /
    • pp.801-805
    • /
    • 2000
  • This paper presents a new method of tool path optimization. A NC verification model based Z-map was utilized to obtain chip load in feed per tooth. This developed software can regenerate a NC program from cutting condition and the NC program that was generated in CAM. The regenerated NC program has not only all same data of the ex-NC program but also the new feed rates in every block. The new NC data can reduce the cutting time and manufacture precision dies with the same chip load in feed per tooth. This method can also prevent tool chipping and make constant tool wear. This paper considered the effects of acceleration and deceleration in feed rate change.

  • PDF

A New Approach to Web Data Mining Based on Cloud Computing

  • Zhu, Wenzheng;Lee, Changhoon
    • Journal of Computing Science and Engineering
    • /
    • 제8권4호
    • /
    • pp.181-186
    • /
    • 2014
  • Web data mining aims at discovering useful knowledge from various Web resources. There is a growing trend among companies, organizations, and individuals alike of gathering information through Web data mining to utilize that information in their best interest. In science, cloud computing is a synonym for distributed computing over a network; cloud computing relies on the sharing of resources to achieve coherence and economies of scale, similar to a utility over a network, and means the ability to run a program or application on many connected computers at the same time. In this paper, we propose a new system framework based on the Hadoop platform to realize the collection of useful information of Web resources. The system framework is based on the Map/Reduce programming model of cloud computing. We propose a new data mining algorithm to be used in this system framework. Finally, we prove the feasibility of this approach by simulation experiment.