• 제목/요약/키워드: HADOOP

검색결과 394건 처리시간 0.022초

Analyzing Box-Office Hit Factors Using Big Data: Focusing on Korean Films for the Last 5 Years

  • Hwang, Youngmee;Kim, Kwangsun;Kwon, Ohyoung;Moon, Ilyoung;Shin, Gangho;Ham, Jongho;Park, Jintae
    • Journal of information and communication convergence engineering
    • /
    • 제15권4호
    • /
    • pp.217-226
    • /
    • 2017
  • Korea has the tenth largest film industry in the world; however, detailed analyses using the factors contributing to successful film commercialization have not been approached. Using big data, this paper analyzed both internal and external factors (including genre, release date, rating, and number of screenings) that contributed to the commercial success of Korea's top 10 ranking films in 2011-2015. The authors developed a WebCrawler to collect text data about each movie, implemented a Hadoop system for data storage, and classified the data using Map Reduce method. The results showed that the characteristic of "release date," followed closely by "rating" and "genre" were the most influential factors of success in the Korean film industry. The analysis in this study is considered groundwork for the development of software that can predict box-office performance.

An Efficient Log Data Processing Architecture for Internet Cloud Environments

  • Kim, Julie;Bahn, Hyokyung
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제8권1호
    • /
    • pp.33-41
    • /
    • 2016
  • Big data management is becoming an increasingly important issue in both industry and academia of information science community today. One of the important categories of big data generated from software systems is log data. Log data is generally used for better services in various service providers and can also be used to improve system reliability. In this paper, we propose a novel big data management architecture specialized for log data. The proposed architecture provides a scalable log management system that consists of client and server side modules for efficient handling of log data. To support large and simultaneous log data from multiple clients, we adopt the Hadoop infrastructure in the server-side file system for storing and managing log data efficiently. We implement the proposed architecture to support various client environments and validate the efficiency through measurement studies. The results show that the proposed architecture performs better than the existing logging architecture by 42.8% on average. All components of the proposed architecture are implemented based on open source software and the developed prototypes are now publicly available.

맵리듀스를 사용한 디컴바인드 분산 VQ 코드북 생성 방법 (Decombined Distributed Parallel VQ Codebook Generation Based on MapReduce)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권3호
    • /
    • pp.365-371
    • /
    • 2014
  • 빅 데이터(Big Data)시대로 접어들면서 기존의 IT 환경에서 만들어진 알고리즘들은 하둡과 같은 분산 아키텍처에 그대로 적용할 수 없거나 효율이 떨어진다. 따라서, 맵리듀스와 같은 분산 프레임워크를 적용한 새로운 알고리즘들이 필요하다. 벡터 양자화에 많이 사용되는 Lloyd의 알고리즘도 맵리듀스를 사용하여 개발이 이루어지고 있다. 본 논문에서는 기존의 맵리듀스를 사용한 분산 VQ 코드북 생성 알고리즘을 수정하여 좀 더 빠른 분석 결과를 보일 수 있는 디컴바인드 분산 VQ 코드북 생성 알고리즘을 제안하였다. 제안하는 알고리즘을 빅 데이터에 적용한 결과 기존 방법보다 높은 성능을 보인 것을 확인할 수 있었다.

하둡 기반 불법 주·정차 데이터 관리 및 분석 시스템 개발 (Development of Hadoop-based Illegal Parking Data Management and Analysis System)

  • 장진수;송영호;백나은;장재우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.167-170
    • /
    • 2017
  • 자동차 보급 증가로 인한 주차 공간 부족 문제는 불법 주정차 차량 발생의 원인이 되어, 교통 체증을 야기하는 심각한 사회문제가 되었다. 따라서 각 지방자치단체에서는 불법 주정차 문제 해결을 위한 법안을 마련하기 위해 노력하고 있으며, 불법 주정차문제를 해결하기 위한 연구가 진행되고 있다. 한편, 정보통신의 발달에 의해 데이터의 양이 매우 빠른 속도로 증가하고 있으며, 아울러 공공 데이터의 양도 매우 빠른 속도로 증가하고 있다. 따라서 공공 빅데이터를 효율적으로 처리하기 위한 연구가 필요하다. 그러나 현재 공공 빅데이터 관리 및 분석을 수행하기 위한 효율적인 시스템을 구축하는 데는 아직 미흡한 실정이다. 따라서 본 논문에서는 불법 주정차 데이터와 같은 공공데이터를 효율적으로 분석하고 효과적인 주 정차 단속을 위한 하둡 기반 불법 주 정차 데이터 관리 및 분석 시스템을 제안한다.

  • PDF

Adaptable I/O System based I/O Reduction for Improving the Performance of HDFS

  • Park, Jung Kyu;Kim, Jaeho;Koo, Sungmin;Baek, Seungjae
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.880-888
    • /
    • 2016
  • In this paper, we propose a new HDFS-AIO framework to enhance HDFS with Adaptive I/O System (ADIOS), which supports many different I/O methods and enables applications to select optimal I/O routines for a particular platform without source-code modification and re-compilation. First, we customize ADIOS into a chunk-based storage system so its API semantics can fit the requirement of HDFS easily; then, we utilize Java Native Interface (JNI) to bridge HDFS and the tailored ADIOS. We use different I/O patterns to compare HDFS-AIO and the original HDFS, and the experimental results show the design feasibility and benefits. We also examine the performance of HDFS-AIO using various I/O techniques. There have been many studies that use ADIOS, however our research is expected to help in expanding the function of HDFS.

웹 컨텐츠 선호도 측정을 위한 대용량 웹로그 분석기 구현 (Implementation of big web logs analyzer in estimating preferences for web contents)

  • 최은정;김명주
    • 디지털산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.83-90
    • /
    • 2012
  • With the rapid growth of internet infrastructure, World Wide Web is evolving recently into various services such as cloud computing, social network services. It simply go beyond the sharing of information. It started to provide new services such as E-business, remote control or management, providing virtual services, and recently it is evolving into new services such as cloud computing and social network services. These kinds of communications through World Wide Web have been interested in and have developed user-centric customized services rather than providing provider-centric informations. In these environments, it is very important to check and analyze the user requests to a website. Especially, estimating user preferences is most important. For these reasons, analyzing web logs is being done, however, it has limitations that the most of data to analyze are based on page unit statistics. Therefore, it is not enough to evaluate user preferences only by statistics of specific page. Because recent main contents of web page design are being made of media files such as image files, and of dynamic pages utilizing the techniques of CSS, Div, iFrame etc. In this paper, large log analyzer was designed and executed to analyze web server log to estimate web contents preferences of users. With mapreduce which is based on Hadoop, large logs were analyzed and web contents preferences of media files such as image files, sounds and videos were estimated.

맵리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법 (A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce)

  • 손인국;류은경;박준호;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.11-12
    • /
    • 2013
  • 최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리시스템으로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스에서 테스크 할당은 데이터의 로컬리티를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 로컬리티로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 로컬리티를 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 제안하는 기법은 기존 기법에 비해 모든 노드의 데이터 이동이 감소하여 접근빈도의 분포가 균형적인 것을 확인하였다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 약 8% 감소하는 것을 확인하였다.

  • PDF

빅데이터를 이용한 APT 공격 시도에 대한 효과적인 대응 방안 (Effective Countermeasure to APT Attacks using Big Data)

  • 문형진;최승현;황윤철
    • 중소기업융합학회논문지
    • /
    • 제6권1호
    • /
    • pp.17-23
    • /
    • 2016
  • 최근에 스마트 폰을 비롯한 다양한 단말기를 통한 인터넷 서비스가 가능해졌다. ICT 발달로 인해 기업과 공공기관에서 크고 작은 해킹사고가 발생하는데 그 공격의 대부분은 APT공격으로 밝혀졌다. APT공격은 공격의 목적을 달성하기 위해 지속적으로 정보를 수집하고, 장기간 동안 공격대상의 취약점을 분석하거나 악성코드를 다양한 방법으로 감염시키고, 잠복하고 있다가 적절한 시기에 자료를 유출하는 공격이다. 본 논문에서는 APT 공격자가 짧은 시간에 타겟 시스템에 침입하기 위해 빅데이터 기술을 이용하는 정보 수집 기법을 살펴보고 빅데이터를 이용한 공격기법을 보다 효율적으로 방어할 수 있는 기법을 제안하고 평가한다.

클라우드 컴퓨팅 환경에서 PCR Primer 검색 시스템 설계 및 개발 (Design and Implementation of a PCR Primer Search System on Cloud Computing Environments)

  • 박준호;임종태;김동주;이윤정;류은경;안민제;차재홍;유석종;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2012년도 춘계 종합학술대회 논문집
    • /
    • pp.269-270
    • /
    • 2012
  • 유전자 증폭을 위한 정확한 PCR Primer의 디자인은 핵심적인 기반 기술이다. 기존 연구를 통해 각 유전자별 특이적인 PCR Primer를 디자인할 수 있는 도구가 제안되었으나, 유전체 정보를 활용한 대단위의 디자인작업을 수행하기에는 적합하지 않았다. 본 논문에서는 클라우드 컴퓨팅 환경에서 대규모의 유전체를 대상으로 특이적인 PCR Primer를 디자인하고 검색할 수 있는 시스템을 설계하고 구현한다. 제안하는 시스템은 Hadoop 플랫폼에서의 MapReduce 프레임워크를 기반으로 설계 및 구현하여 유전자 서열검색을 대규모로 수행할 수 있도록 하였다. 5만개의 질의를 이용한 성능 평가 결과, 제안하는 기법은 기존 BLAST를 이용한 검색방법에 비해 약 3배의 성능 향상을 보였다.

  • PDF

맵리듀스 기반 대용량 개인정보 분산 암호화 처리 시스템 (The Distributed Encryption Processing System for Large Capacity Personal Information based on MapReduce)

  • 김현욱;박성은;어성율
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.576-585
    • /
    • 2014
  • 대량의 개인정보가 수집되어 활용됨에 따라 개인정보 유출 등의 보안 문제가 발생하고 있다. 이에 최근에는 수집된 개인정보를 암호화 하여 저장하고 활용하는 방법이 사용되고 있다. 본 논문에서는 기존에 수집된 대량의 개인정보를 단시간에 암호화하기 위한 방법으로 맵리듀스 기반의 분산 암호화 처리 방법을 제안하고, 시스템을 설계하고 구현하였다. 또한 맵리듀스 기반의 분산 암호화 처리 방법의 성능을 검증을 위해 테스트 환경을 구축하여 비교 실험을 진행하였다. 실험 결과 토큰 서버의 암호화 처리 시간이 순차처리 대비 평균 시간 효율이 약 15.3% 정도 향상 하였으며, 병렬처리대비 약 3.13%정도 향상되는 것을 확인 하였다.