• Title/Summary/Keyword: 데이터 분석 및 검색

Search Result 793, Processing Time 0.031 seconds

A Design and Development of Big Data Indexing and Search System using Lucene (루씬을 이용한 빅데이터 인덱싱 및 검색시스템의 설계 및 구현)

  • Kim, DongMin;Choi, JinWoo;Woo, ChongWoo
    • Journal of Internet Computing and Services
    • /
    • v.15 no.6
    • /
    • pp.107-115
    • /
    • 2014
  • Recently, increased use of the internet resulted in generation of large and diverse types of data due to increased use of social media, expansion of a convergence of among industries, use of the various smart device. We are facing difficulties to manage and analyze the data using previous data processing techniques since the volume of the data is huge, form of the data varies and evolves rapidly. In other words, we need to study a new approach to solve such problems. Many approaches are being studied on this issue, and we are describing an effective design and development to build indexing engine of big data platform. Our goal is to build a system that could effectively manage for huge data set which exceeds previous data processing range, and that could reduce data analysis time. We used large SNMP log data for an experiment, and tried to reduce data analysis time through the fast indexing and searching approach. Also, we expect our approach could help analyzing the user data through visualization of the analyzed data expression.

A Scalable Index for Content-based Retrieval of Large Scale Multimedia Data (대용량 멀티미디어 데이터의 내용 기반 검색을 위한 고확장 지원 색인 기법)

  • Choi, Hyun-HWa;Lee, Mi-Young;Lee, Kyu-Chul
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2009.05a
    • /
    • pp.726-730
    • /
    • 2009
  • The proliferation of the web and digital photography has drastically increased multimedia data and has resulted in the need of the high quality internet service based on the moving picture like user generated contents(UGC). The keyword-based search on large scale images and video collections is too expensive and requires much manual intervention. Therefore the web search engine may provide the content-based retrieval on the multimedia data for search accuracy and customer satisfaction. In this paper, we propose a novel distributed index structure based on multiple length signature files according to data distribution. In addition, we describe how our scalable index technique can be used to find the nearest neighbors in the cluster environments.

  • PDF

Histogram Comparing Technique for Similarity Search in Time-Series Data (시계열 데이터의 유사성 검색을 위한 히스토그램 비교법)

  • 임동혁;김창룡;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.331-333
    • /
    • 1999
  • 데이터웨어하우스의 주된 용도는 비즈니스 의사결정이며, 이를 위한 경향 및 패턴을 찾는 문제는 매우 중요한 연구분야이다. 경향 및 패턴은 데이터웨어하우스 내의 데이터간의 상호관계를 분석함으로써 찾을 수 있는데, 이를 위한 유사성 검색기법 중 특히 뛰어난 3가지 기법들을 자세히 알아보고, 이들에 모두 적용 가능한 히스토그램 비교법을 제안하였다. 제안된 히스토그램 비교법을 이용하면 유클리디안 거리측정의 부담을 대폭 줄여, 전체 처리시간을 비약적으로 감소시킬 수 있다.

  • PDF

Developing Graphic Interface for Efficient Online Searching and Analysis of Graph-Structured Bibliographic Big Data (그래프 구조를 갖는 서지 빅데이터의 효율적인 온라인 탐색 및 분석을 지원하는 그래픽 인터페이스 개발)

  • You, Youngseok;Park, Beomjun;Jo, Sunhwa;Lee, Suan;Kim, Jinho
    • The Journal of Bigdata
    • /
    • v.5 no.1
    • /
    • pp.77-88
    • /
    • 2020
  • Recently, many researches habe been done to organize and analyze various complex relationships in real world, represented in the form of graphs. In particular, the computer field literature data system, such as DBLP, is a representative graph data in which can be composed of papers, their authors, and citation among papers. Becasue graph data is very complex in storage structure and expression, it is very difficult task to search, analysis, and visualize a large size of bibliographic big data. In this paper, we develop a graphic user interface tool, called EEUM, which visualizes bibliographic big data in the form of graphs. EEUM provides the features to browse bibliographic big data according to the connected graph structure by visually displaying graph data, and implements search, management and analysis of the bibliographc big data. It also shows that EEUM can be conveniently used to search, explore, and analyze by applying EEUM to the bibliographic graph big data provided by DBLP. Through EEUM, you can easily find influential authors or papers in every research fields, and conveniently use it as a search and analysis tool for complex bibliographc big data, such as giving you a glimpse of all the relationships between several authors and papers.

A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering (오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구)

  • Minji Jung;Saebyeok Lee;Youngjune Kim;Cheolhun Heo;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

A Security Log Analysis System using Logstash based on Apache Elasticsearch (아파치 엘라스틱서치 기반 로그스태시를 이용한 보안로그 분석시스템)

  • Lee, Bong-Hwan;Yang, Dong-Min
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.2
    • /
    • pp.382-389
    • /
    • 2018
  • Recently cyber attacks can cause serious damage on various information systems. Log data analysis would be able to resolve this problem. Security log analysis system allows to cope with security risk properly by collecting, storing, and analyzing log data information. In this paper, a security log analysis system is designed and implemented in order to analyze security log data using the Logstash in the Elasticsearch, a distributed search engine which enables to collect and process various types of log data. The Kibana, an open source data visualization plugin for Elasticsearch, is used to generate log statistics and search report, and visualize the results. The performance of Elasticsearch-based security log analysis system is compared to the existing log analysis system which uses the Flume log collector, Flume HDFS sink and HBase. The experimental results show that the proposed system tremendously reduces both database query processing time and log data analysis time compared to the existing Hadoop-based log analysis system.

A Study on Efficiency of Privacy-preserving Search in Cloud Storage using SGX (SGX를 활용한 클라우드 환경에서의 프라이버시 보존 데이터 검색 효율성에 대한 고찰)

  • Koo, Dongyoung;Hur, Junbeom
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.380-382
    • /
    • 2020
  • 네트워크에 존재하는 저장 공간을 필요에 따라 유연하게 대여하여 사용할 수 있는 클라우드 스토리지 서비스는 데이터의 일관성 유지, 저렴한 유지관리 비용 등 여러 장점에 힘입어 널리 활용되고 있다. 하지만 클라우드 시스템은 데이터 소유자에 의한 관리가 이루어지지 않으므로 민감한 데이터의 노출에 의한 피해 또한 다수 발생하고 있는데, 이를 해결하기 위하여 암호화 등을 통한 프라이버시 보존을 위한 연구가 꾸준히 진행되고 있다. 본 연구에서는 프라이버시가 보존된 상태에서 클라우드에 저장된 데이터를 검색함에 있어, 대수적 난제에 근거를 둔 접근 제어 기능을 내포한 소프트웨어 기반의 검색 가능한 암호화 (searchable encryption) 기법과 최근 많은 관심을 받고 있는 하드웨어 기반 클라우드 데이터 검색의 효율성 및 기능에 대한 비교 분석을 수행한다. 이를 통하여 하드웨어 기반 기법의 활용을 통한 성능 향상 가능성을 확인하고 잠재적 보안 위협을 검토한다.

Design and Implementation of Saving and Searching Functions of a UDDI Repository System Based on UDDI for Grid Services (그리드 서비스를 위한 UDDI Repository 시스템의 저장 및 검색 기능의 설계 및 구현)

  • 송인혁;이정훈;임효상;황규영;박형우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.169-171
    • /
    • 2004
  • UDDI는 인터넷에 분산되어 있는 웹서비스에 대한 메타 정보를 저장하고 이에 대한 다양한 검색 기능을 제공함으로써 서비스 요청자가 원하는 서비스를 손쉽게 발견할 수 있도록 하는 Repository 시스템이다[1]. 본 논문에서는 Repository 시스템의 데이터 구조 및 아키텍쳐 설계에 관한 선행 연구를 바탕으로 UDDI 3.0 표준 명세를 따르는 Repository 시스템의 저장 및 검색 기능을 설계하고 구현한다. 본 논문은 이를 위해 XML 형태의 UDDI 데이터를 데이터베이스에 효율적으로 저장하기 위한 저장 구조 설계를 설명하고 이를 통한 효율적인 UDDI 저장 기능의 설계와 구현에 관하여 설명한다. 또한 표준에서 명시하는 다양한 검색 방법을 분석하고 저장된 웹서비스 정보를 효율적으로 발견할 수 있도록 하는 검색 기능의 설계와 구현에 관해서 설명한다.

  • PDF

Comparison and Analyzing System for Protein Tertiary Structure Database expands LOCK (LOCK을 확장한 3차원 단백질 구조비교 및 분석시스템의 설계 및 구현)

  • Jung Kwang Su;Han Yu;Park Sung Hee;Ryu Keun Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.2 s.98
    • /
    • pp.247-258
    • /
    • 2005
  • Protein structure is highly related to its function and comparing protein structure is very important to identify structural motif, family and their function. In this paper, we construct an integrated database system which has all the protein structure data and their literature. The structure queries from the web interface are compared with the target structures in database, and the results are shown to the user for future analysis. To constructs this system, we analyze the Flat-File of Protein Data Bank. Then we select the necessary structure data and store as a new formatted data. The literature data related to these structures are stored in a relational database to query the my kinds of data easily In our structure comparison system, the structure of matched pattern and RMSD valure are calculated, then they are showed to the user with their relational documentation data. This system provides the more quick comparison and nice analyzing environment.

A Study on the Implementation of Ontology Retrieval Service Platform Based on RDF (RDF 기반 온톨로지 검색 서비스 플랫폼 구현에 관한 연구)

  • Shin, Yutak;Jo, Jaechoon
    • Journal of Convergence for Information Technology
    • /
    • v.10 no.1
    • /
    • pp.139-148
    • /
    • 2020
  • As the internet and computer technology are developed, there is a need for service of traditional culture that can effectively search and create culture, history, and tradition-related materials in online contents. In this paper, we developed an RDF-based ontology retrieval service platform and verified usability and validity. This platform is divided into triple search, keyword search, network graph search, story search and management, curation management module. Based on this, the search results can be visualized based on the relationship between data, network graph search and story search can be used to easily understand the relationship between the keywords. An platform evaluation was conducted for verification, and it was evaluated that an intelligent search that can easily identify the relationship between information and shorten the analysis and search time than the existing search function.