DOI QR코드

DOI QR Code

A Design and Development of Big Data Indexing and Search System using Lucene

루씬을 이용한 빅데이터 인덱싱 및 검색시스템의 설계 및 구현

  • Received : 2014.10.01
  • Accepted : 2014.10.14
  • Published : 2014.12.31

Abstract

Recently, increased use of the internet resulted in generation of large and diverse types of data due to increased use of social media, expansion of a convergence of among industries, use of the various smart device. We are facing difficulties to manage and analyze the data using previous data processing techniques since the volume of the data is huge, form of the data varies and evolves rapidly. In other words, we need to study a new approach to solve such problems. Many approaches are being studied on this issue, and we are describing an effective design and development to build indexing engine of big data platform. Our goal is to build a system that could effectively manage for huge data set which exceeds previous data processing range, and that could reduce data analysis time. We used large SNMP log data for an experiment, and tried to reduce data analysis time through the fast indexing and searching approach. Also, we expect our approach could help analyzing the user data through visualization of the analyzed data expression.

최근 소셜 미디어 사용의 증가, 산업간 융합의 확대, 다양한 스마트 기기의 보급을 통한 인터넷의 이용이 증가하면서 수많은 데이터를 발생시키고 있다. 이들 데이터들은 크기가 매우 크고, 형식이 다양하며, 순환속도가 매우 빨라 기존의 데이터 처리기술만으로는 관리와 분석이 어려운 실정이다. 즉, 수십 테라에 이르는 데이터의 폭증 및 데이터의 다양화에 따라 빠르게 분석하는 기술이 미흡하며, 이러한 문제점들을 해결하기 위한 새로운 기술적 방안이 절실히 요구되고 있다. 이러한 빅데이터의 처리기술에 대한 많은 연구가 최근 활성화 되고 있으며, 본 연구에서는 이러한 관점에서 빅데이터 플랫폼의 효과적인 인덱싱 엔진의 설계 및 구현에 관하여 기술한다. 즉, 기존의 데이터 처리기술의 범위를 초과하는 대규모의 데이터 집합을 효율적으로 관리하고, 인덱싱을 통한 검색속도의 향상으로 데이터 분석 시 소요되는 시간 단축을 연구목표로 한다. 본 연구의 실험을 위해서는 대규모 SNMP(Simple Network Management Prtocool) 로그 데이터를 사용하였으며, 효율적 데이터의 인덱싱을 통한 빠른 검색으로 데이터 분석시의 시간을 최대한 단축하고자 하였다. 또한 분석된 데이터의 표현의 가시화를 통하여 사용자의 데이터 분석에도 도움이 될 것으로 기대한다.

Keywords

References

  1. J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. Byers, "Big data: The next frontier for innovation, competition, and productivity", McKinsey Report, 2011.
  2. S. Lee, W. Sung, S. Park, "Future of Big Data Technology", KOFST Issue Paper, 2012-03.
  3. B. Chung, H. Kim, W. Choi, "Future social and big data Technology", IT Series. NIPA, 2012.
  4. E. Hatcher, O. Gospodnetic, and M. McCandless, "Lucene in action", Manning Publications, Aug. 2010.
  5. R. Kuc, "Apache Solr 4 Cookbook", Packt Publishing, Jan. 2013.
  6. F. Junqueira and B. Reed, "ZooKeeper : Distributed Process Coordination.", O'Reilly Media, Inc., Nov. 2013.
  7. R. Kuc and M. Rogozinski, "ElasticSearch Server", O'Reilly Media, Inc., Feb. 2013.
  8. Lakshman, Avinash, and P. Malik. "Cassandra: a decentralized structured storage system." ACM SIGOPS Operating Systems Review 44.2 (2010): 35-40.
  9. J. Luciani, "Lucandra/Solandra: A Cassandra-based Lucene backend.", http://blog.sematext.com/2010/02/09/lucandra-a-cassandr a-based-lucene-backend/
  10. D. Yin and D. Liu, "Content-based Image Retrieval based on Hadoop", Mathematical Problems in Engineering, Vol. 2013, Article ID 684615, (2013)
  11. A. Narang, V. Agarwal, M. Kedia, and V. Garg, "Highly Scalable Algorithm for Distributed Real-Time Text Indexing", International Conference on High Performance Computing (HiPC), pp. 332-341 (2009)
  12. QIAO, Yuan-yuan, et al. "Offline traffic analysis system based on Hadoop." The Journal of China Universities of Posts and Telecommunications 20.5 (2013): 97-103.
  13. D. Mauro and K. Schmidt, "Essential SNMP", O'Reilly Media, Inc., Sep. 2005.
  14. Fock, Frank, and J. Katz. "SNMP4J-The Object Oriented SNMP API for Java Managers and Agents.", http://snmp4j.org/index.html
  15. K. McCloghrie, M. Rose. "RFC 1066-Management Information Base for Network Management of TCP/IP-based Internets.", TWG, Aug. 1988.

Cited by

  1. Non-structured Data Integration Access Policy Using Hadoop 2018, https://doi.org/10.1007/s11277-017-5112-4