• Title/Summary/Keyword: 하둡 시스템

Search Result 169, Processing Time 0.027 seconds

A Webtoon Recommendation System Using Personal Propensity in Hadoop (하둡에서 개인 성향을 이용한 웹툰 추천 시스템)

  • Lee, Keon-Ho;Yoon, Won-Tak;Hwang, Dong-Hyun;Park, Doo-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.408-411
    • /
    • 2016
  • 최근 국내의 콘텐츠 생산률이 증가함에 따라, 많은 사람들이 즐길 수 있는 콘텐츠들이 많아 졌다. 하지만 사람들은 많아진 콘텐츠로 인해, 오히려 원하는 정보를 빠른 시간에 얻는 것이 힘들어졌다. 이러한 문제를 해결하기 위해 다양한 방식의 새로운 서비스들이 제공 되고 있다. 추천 시스템 중에서 웹툰을 추천해주는 알고리즘으로 협업필터링 방법이 가장 많이 사용되고 있다. 협업필터링 방법에는 희박성과 확장성, 투명성의 문제점들을 가지고 있다. 따라서 본 논문에서는 협업 필터링 방법의 희박성 문제를 보완하고자 개인의 성향을 반영하여 효율이 좋은 웹툰 추천 시스템을 제안하고, 하둡 시스템에서 구현한다.

Performance Comparison of DW System Tajo Based on Hadoop and Relational DBMS (하둡 기반 DW시스템 타조와 관계형 DBMS의 성능 비교)

  • Liu, Chen;Ko, Junghyun;Yeo, Jeongmo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.9
    • /
    • pp.349-354
    • /
    • 2014
  • Since Hadoop which is the Big-data processing platform was announced, SQL-on-Hadoop is the spotlight as the technique to analyze data using SQL on Hadoop. Tajo created by Korean programmers has recently been promoted to Top-Level-Project status by the Apache in April and has been paid attention all around world. Despite a sensible change caused by Hadoop's appearance in DW market, researches of those performance is insufficient. Thus, this study has been conducted to help choose a DW solution based on SQL-on-Hadoop as progressing the test on comparison analysis of RDBMS and Tajo. It has shown that Tajo based on Hadoop is more superior than RDBMS if it is used with accurate strategy. In addition, open-source project Tajo is expected not only to achieve improvements in technique due to active participation of many developers but also to be in charge of an important role of DW in the filed of data analysis.

Lambda Architecture Used Apache Kudu and Impala (Apache Kudu와 Impala를 활용한 Lambda Architecture 설계)

  • Hwang, Yun-Young;Lee, Pil-Won;Shin, Yong-Tae
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.9 no.9
    • /
    • pp.207-212
    • /
    • 2020
  • The amount of data has increased significantly due to advances in technology, and various big data processing platforms are emerging, to handle it. Among them, the most widely used platform is Hadoop developed by the Apache Software Foundation, and Hadoop is also used in the IoT field. However, the existing Hadoop-based IoT sensor data collection and analysis environment has a problem of overloading the name node due to HDFS' Small File, which is Hadoop's core project, and it is impossible to update or delete the imported data. This paper uses Apache Kudu and Impala to design Lambda Architecture. The proposed Architecture classifies IoT sensor data into Cold-Data and Hot-Data, stores it in storage according to each personality, and uses Batch-View created through Batch and Real-time View generated through Apache Kudu and Impala to solve problems in the existing Hadoop-based IoT sensor data collection analysis environment and shorten the time users access to the analyzed data.

Data Transmitting and Storing Scheme based on Bandwidth in Hadoop Cluster (하둡 클러스터의 대역폭을 고려한 압축 데이터 전송 및 저장 기법)

  • Kim, Youngmin;Kim, Heejin;Kim, Younggwan;Hong, Jiman
    • Smart Media Journal
    • /
    • v.8 no.4
    • /
    • pp.46-52
    • /
    • 2019
  • The size of data generated and collected at industrial sites or in public institutions is growing rapidly. The existing data processing server often handles the increasing data by increasing the performance by scaling up. However, in the big data era, when the speed of data generation is exploding, there is a limit to data processing with a conventional server. To overcome such limitations, a distributed cluster computing system has been introduced that distributes data in a scale-out manner. However, because distributed cluster computing systems distribute data, inefficient use of network bandwidth can degrade the performance of the cluster as a whole. In this paper, we propose a scheme that compresses data when transmitting data in a Hadoop cluster considering network bandwidth. The proposed scheme considers the network bandwidth and the characteristics of the compression algorithm and selects the optimal compression transmission scheme before transmission. Experimental results show that the proposed scheme reduces data transfer time and size.

Design and Implementation of a Hadoop-based Efficient Security Log Analysis System (하둡 기반의 효율적인 보안로그 분석시스템 설계 및 구현)

  • Ahn, Kwang-Min;Lee, Jong-Yoon;Yang, Dong-Min;Lee, Bong-Hwan
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.8
    • /
    • pp.1797-1804
    • /
    • 2015
  • Integrated log management system can help to predict the risk of security and contributes to improve the security level of the organization, and leads to prepare an appropriate security policy. In this paper, we have designed and implemented a Hadoop-based log analysis system by using distributed database model which can store large amount of data and reduce analysis time by automating log collecting procedure. In the proposed system, we use the HBase in order to store a large amount of data efficiently in the scale-out fashion and propose an easy data storing scheme for analysing data using a Hadoop-based normal expression, which results in improving data processing speed compared to the existing system.

Improving Performance based on Processing Analysis of Big data log file (벅데이터 로그파일 처리 분석을 통한 성능 개선 방안)

  • Lee, Jaehan;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.539-541
    • /
    • 2016
  • 최근 빅데이터 분석을 위해 아파치 하둡(Apache Hadoop) 기반 에코시스템(Ecosystern)이 다양하게 활용되고 있다. 본 논문에서는 수집된 로그 데이터를 가공하여 데이터베이스에 로드하는 과정을 효율적으로 처리하기 위한 성능 평가를 수행한다. 이를 기반으로 텍스트 파일의 로그 데이터를 자바 코드로 개발된 프로그램에서 JDBC를 이용하여 오라클(Oracle) 데이터베이스에 삽입(Insert)하는 과정의 성능을 개선하기 위한 방안을 제안한다. 대용량 로그 파일의 효율적인 처리를 위해 하둡 에코시스템을 이용하여 처리 속도를 개선하고, 최근 인메모리(In-Mernory) 처리 방식으로 빠른 처리 속도로 인해 각광받고 있는 아파치 스파크(Apache Spark)를 이용한 처리와의 성능 평가를 수행한다. 이 연구를 통해 최적의 로그데이터 처리 시스템의 구축 방안을 제안한다.

A Design of Spark Based System for Extracting Hierarchical Relationships from RDB View Definitions (RDB 뷰 정의로부터 상하위 관계를 추출하는 스파크 기반 시스템 설계)

  • Ahn, Jinhyun;Im, Dong-Hyuk;Kim, Hong-Gee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.80-81
    • /
    • 2016
  • 기계가 읽을 수 있는 형태의 정보로 구성된 시맨틱웹 환경이 주목을 받고 있다. 온톨로지는 정보를 구조적으로 표현하는 방법론의 일종으로 시맨틱웹에서 중요한 역할을 한다. 사람이 일일이 정보를 처음부터 온톨로지로 만드는 것은 쉽지 않기 때문에 관계형 데이터베이스를 온톨로지로 자동으로 변환하는 연구가 진행되고 있다. 최근 하둡을 활용하여 관계형 데이터베이스의 뷰 정의로부터 상하위 관계를 추출하는 연구가 제안 됐다. 하지만, 하둡은 디스크 기반이기 때문에 속도가 느리다는 단점이 있다. 본 논문에서는 관계형 데이터베이스의 뷰 정의로부터 상하위 관계를 추출하는 과정을 인메모리 분산 처리 시스템인 스파크에서 수행하는 방법을 제안한다. 주어진 뷰 정의에 있는 테이블 이름으로 분산시킨 후 각각에서 독립적으로 상하위 관계를 추출한다.

A performance comparison for Apache Spark platform on environment of limited memory (제한된 메모리 환경에서의 아파치 스파크 성능 비교)

  • Song, Jun-Seok;Kim, Sang-Young;Lee, Jung-June;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.67-68
    • /
    • 2016
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 다양한 분산 시스템 플랫폼이 등장하고 있다. 그 중 아파치 스파크(Apache Spark)는 하둡 플랫폼의 속도저하 단점을 보완하기 위해 인 메모리 처리를 지원하여 대용량 데이터를 효율적으로 처리하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만, 아파치 스파크의 작업은 메모리에 의존적이므로 제한된 메모리 환경에서 전체 작업 성능은 급격히 낮아진다. 본 논문에서는 메모리 용량에 따른 아파치 스파크 성능 비교를 통해 아파치 스파크 동작을 위해 필요한 적정 메모리 용량을 확인한다.

  • PDF

Development of CEP-based Real Time Analysis System Using Hospital ERP System (병원 ERP시스템을 적용한 CEP 기반 실시간 분석시스템 개발)

  • Kim, Mi-Jin;Yu, Yun-Sik;Seo, Young-Woo;Jang, Jong-Wook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.290-293
    • /
    • 2015
  • 개개인의 데이터가 비즈니스적으로 중요하지 않을 수 있지만, 대량으로 모으면 그 안에 숨겨진 새로운 정보를 발견할 가능성이 있는 데이터의 집합체로 빅데이터 분석 활용 사례는 점차 늘어나는 추세이다. 빅데이터 분석 기술 중 전통적인 데이터 분석방법인 하둡(Hadoop)은 예전부터 현재에 이르기까지 정형 비정형 빅데이터 분석에 널리 사용되고 있는 기술이다. 하지만 하둡은 배치성 처리 시스템으로 데이터가 많아질수록 응답 지연이 발생할 가능성이 높아, 현재 기업 경영환경과 시장환경에 대한 엄청난 양의 고속 이벤트 데이터에 대한 실시간 분석이 어려운 상황이다. 본 논문에서는 급변하는 비즈니스 환경에 대한 대안으로 오픈소스 CEP(Complex Event Processing)기반 기술을 사용하여 초당 수백에서 수십만건 이상의 이벤트 스트림을 실시간으로 지연 없이 분석가능하게 하는 실시간 분석 시스템을 개발하여 병원 ERP시스템에 적용하였다.

  • PDF

Hadoop-based Large Data Management and Analysis for Parking Enforcement System (주정차 단속 시스템을 위한 하둡 기반 대용량 데이터 관리 및 분석)

  • Baek, Na-Eun;Song, Youngho;Shin, Jaehwan;Chang, Jae-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.429-432
    • /
    • 2017
  • 자동차 보급률 증가로 인해 교통 혼잡, 불법 주정차 등의 사회적 문제가 발생하고 있다. 특히 불법 주정차는 교통 혼잡, 주차 공간 부족 등 부가적인 문제를 발생시키고 있다. 따라서 각 지방자치단체에서는 불법 주정차 문제를 해결하기 위한 방안을 연구하고 있다. 그러나 이러한 방안은 초기 비용 발생 및 인력 부족 등의 한계가 있다. 한편, 정보통신의 발달에 따라 공공 업무에도 대량의 공공데이터를 효율적으로 처리하기 위한 연구가 진행되고 있다. 하지만 이러한 연구 또한 빅데이터 처리 플랫폼 부족 및 분석 시스템이 미흡한 한계가 존재한다. 따라서 본 논문에서는 불법 주정차 데이터와 같은 공공 데이터를 효율적으로 처리하기 위해, 주정차 단속 시스템을 위한 하둡 기반 대용량 데이터 관리 및 분석 시스템을 제안한다. 제안하는 시스템은 첫째, 주차단속을 수행할 때 주차단속 데이터를 하이브(Hive)를 통해 저장하고, 단속된 차량의 차주를 검색하여 단속임을 알리거나 과태료를 부과한다. 둘째, 웹 인터페이스를 통해 수집된 주차단속 데이터에 대한 다양한 분석을 수행하고, 분석된 데이터에 대한 R을 이용한 시각화를 제공한다.