• 제목/요약/키워드: Big data analytics

검색결과 284건 처리시간 0.028초

외국인 관광객 재방문율 향상과 소비 활성화를 위한 빅데이터 기반의 탐색적 연구 (Exploratory research based on big data for Improving the revisit rate of foreign tourists and invigorating consumption)

  • 안성현;박성택
    • 산업융합연구
    • /
    • 제18권6호
    • /
    • pp.19-25
    • /
    • 2020
  • 빅데이터 분석은 오늘날 다양한 산업 및 공공분야에서 필수적으로 활용되고 있다. 이에 본 연구에서는 빅데이터 분석을 활용하여 국내 관광 서비스 개선 방안을 LDA분석 방법을 통해 모색하고자 한다. 특히 외국인 방문객이 가장 많은 서울을 중심으로 관광객의 만족도를 높이고 이를 통해 재방문을 향상시킬 수 있고 서비스를 개선할 수 있는 탐색적 접근을 시도하였다. 본 연구에서는 서울시와 한국관광공사의 통계 자료 및 SNS 등의 인터넷 정보들을 R을 통해 수집 및 분석을 진행하였다. 그리고 LDA를 포함한 텍스트 마이닝 기법을 활용하였다. 분석 결과 외국인들의 한국을 방문하는 목적 중 하나는 식도락 관광이었다. 이에 식도락 관광을 중심으로 서비스의 질을 높이기 위한 방안을 도출하고자 한다.

빅데이터 기반의 IoT 이상 장애 탐지 시스템 설계 (Design of Anomaly Detection System Based on Big Data in Internet of Things)

  • 나성일;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권2호
    • /
    • pp.377-383
    • /
    • 2018
  • 사물인터넷(IoT) 서비스는 스마트 환경이 발전하면서 다양한 데이터를 생산하고 있다. 이 데이터는 사용자의 상황을 판단하는 중요한 데이터로 사용된다. 그렇기 때문에 센서의 이상 상태를 실시간으로 모니터링하고 이상 데이터를 탐지하는 것이 중요하다. 하지만 데이터 구조와 프로토콜이 다양하기 때문에 표준화된 데이터 구조로 변환하는 과정이 필요하다. 그럼으로써 데이터의 품질을 보장하고 정확한 분석을 통해 서비스의 품질까지 좋아지는 효과를 기대할 수 있다. 본 논문은 수집된 센서의 이상탐지를 위해 빅데이터 기반의 이상탐지 시스템을 제안한다. 제안한 시스템은 이상탐지를 위해 데이터 표준화 전처리와 시계열 기반의 이상탐지가 우수한 SVM(Support Vector Machine) 모델을 적용하였다. 실험에서는 전처리와 전처리되지 않은 데이터를 각각 학습시키고 비교하였다. 그 결과, 전처리된 데이터는 이상 장애를 정확히 탐지하고 예측하였다.

빅데이터 분석을 통한 외국인 관광객을 위한 최적 경로 도출 (A Study on Deriving an Optimal Route for Foreign Tourists through the Analysis of Big Data)

  • 박성택;김영기
    • 융합정보논문지
    • /
    • 제9권10호
    • /
    • pp.56-63
    • /
    • 2019
  • 본 연구는 외국인의 국내 관광의 최적의 경로 도출하는데 그 목적이 있다. 이를 위해 국내관광 관련 포털 사이트 데이터를 참고하여 빅데이터 분석 툴인 R을 활용하여 분석을 시도하였다. 분석결과 국내 방문 외국인의 가장 방문 빈도수가 높은 곳과 최단시간 경로, 최저 비용의 경로를 도출하였다. 이를 통해 관광상품의 성공요인은 한국만의 특유한 문화가 보이는 곳으로 상품을 구성해야 한다는 결론을 도출하게 되었다. 본 연구의 결과는 국내 관광 상품을 기획하는 단계에서 실무적인 지침으로 활용이 가능할 것으로 보인다.

하둡과 맵리듀스 (Hadoop and MapReduce)

  • 박정혁;이상열;강다현;원중호
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.1013-1027
    • /
    • 2013
  • 대용량 데이터 분석의 필요성이 급격히 증대되면서 이를 가능케 해 주는 플랫폼인 하둡과 그 내부적인 계산 모형인 맵리듀스에 대한 관심 또한 늘고 있다. 본고에서는 R 등의 통계 프로그래밍에 익숙한 데이터 분석가가 하둡을 사용하고자 할 때 알아야 할 기본 개념들을 R과 하둡을 결합하는 몇가지 예제와 함께 소개한다.

Towards Effective Entity Extraction of Scientific Documents using Discriminative Linguistic Features

  • Hwang, Sangwon;Hong, Jang-Eui;Nam, Young-Kwang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1639-1658
    • /
    • 2019
  • Named entity recognition (NER) is an important technique for improving the performance of data mining and big data analytics. In previous studies, NER systems have been employed to identify named-entities using statistical methods based on prior information or linguistic features; however, such methods are limited in that they are unable to recognize unregistered or unlearned objects. In this paper, a method is proposed to extract objects, such as technologies, theories, or person names, by analyzing the collocation relationship between certain words that simultaneously appear around specific words in the abstracts of academic journals. The method is executed as follows. First, the data is preprocessed using data cleaning and sentence detection to separate the text into single sentences. Then, part-of-speech (POS) tagging is applied to the individual sentences. After this, the appearance and collocation information of the other POS tags is analyzed, excluding the entity candidates, such as nouns. Finally, an entity recognition model is created based on analyzing and classifying the information in the sentences.

분산병렬처리 환경에서 오토매핑 기법을 통한 NoSQL과 RDBMS와의 연동 (Interoperability between NoSQL and RDBMS via Auto-mapping Scheme in Distributed Parallel Processing Environment)

  • 김희성;이봉환
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2067-2075
    • /
    • 2017
  • 최근 빅데이터가 주목받게 되면서 빅데이터를 처리하기 위한 시스템들도 중요하게 여겨지고 있다. 빅데이터 처리 시스템으로 분산파일시스템인 Hadoop과 비정형 데이터 처리를 위한 NoSQL 데이터 스토어가 주목받고 있다. 하지만 아직까지 NoSQL을 사용함에 있어 어려움이나 불편함도 존재한다. 저용량 데이터인 경우 NoSQL의 MapReduce는 불필요한 작업시간을 소모하게 되며, RDBMS 보다 상대적으로 많은 데이터 탐색 시간이 소요되기도 한다. 본 논문에서는 이러한 NoSQL의 문제점을 해결하기 위해 NoSQL과 RDBMS 간의 연동 기법을 제안하였다. 개발한 오토매핑 기법은 처리할 데이터의 양에 따라 적합한 데이터베이스를 사용하게 하여 결과적으로 검색시간을 빠르게 할 수 있다. 실험 결과 제안한 데이터베이스 연동 기법은 특정 데이터 셋의 경우 검색시간을 최대 35%까지 줄일 수 있다.

Crime hotspot prediction based on dynamic spatial analysis

  • Hajela, Gaurav;Chawla, Meenu;Rasool, Akhtar
    • ETRI Journal
    • /
    • 제43권6호
    • /
    • pp.1058-1080
    • /
    • 2021
  • Crime is not a completely random event but rather shows a pattern in space and time. Capturing the dynamic nature of crime patterns is a challenging task. Crime prediction models that rely only on neighborhood influence and demographic features might not be able to capture the dynamics of crime patterns, as demographic data collection does not occur frequently and is static. This work proposes a novel approach for crime count and hotspot prediction to capture the dynamic nature of crime patterns using taxi data along with historical crime and demographic data. The proposed approach predicts crime events in spatial units and classifies each of them into a hotspot category based on the number of crime events. Four models are proposed, which consider different covariates to select a set of independent variables. The experimental results show that the proposed combined subset model (CSM), in which static and dynamic aspects of crime are combined by employing the taxi dataset, is more accurate than the other models presented in this study.

Building Energy Time Series Data Mining for Behavior Analytics and Forecasting Energy consumption

  • Balachander, K;Paulraj, D
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.1957-1980
    • /
    • 2021
  • The significant aim of this research has always been to evaluate the mechanism for efficient and inherently aware usage of vitality in-home devices, thus improving the information of smart metering systems with regard to the usage of selected homes and the time of use. Advances in information processing are commonly used to quantify gigantic building activity data steps to boost the activity efficiency of the building energy systems. Here, some smart data mining models are offered to measure, and predict the time series for energy in order to expose different ephemeral principles for using energy. Such considerations illustrate the use of machines in relation to time, such as day hour, time of day, week, month and year relationships within a family unit, which are key components in gathering and separating the effect of consumers behaviors in the use of energy and their pattern of energy prediction. It is necessary to determine the multiple relations through the usage of different appliances from simultaneous information flows. In comparison, specific relations among interval-based instances where multiple appliances use continue for certain duration are difficult to determine. In order to resolve these difficulties, an unsupervised energy time-series data clustering and a frequent pattern mining study as well as a deep learning technique for estimating energy use were presented. A broad test using true data sets that are rich in smart meter data were conducted. The exact results of the appliance designs that were recognized by the proposed model were filled out by Deep Convolutional Neural Networks (CNN) and Recurrent Neural Networks (LSTM and GRU) at each stage, with consolidated accuracy of 94.79%, 97.99%, 99.61%, for 25%, 50%, and 75%, respectively.

빅 데이터를 활용한 고프코어 룩에 대한 인식 (The Perception of Gorpcore Look Using Big Data)

  • 김지우;김정미
    • 한국의상디자인학회지
    • /
    • 제25권4호
    • /
    • pp.77-92
    • /
    • 2023
  • The purpose of this study is to investigate the public perception of Gorpcore through Big Aata analytics. The study was conducted based on the collection of Big Data on the word 'Gorpcore' through Textom from July 24, 2017 to March 31, 2023. As a result, 63,386 words were collected from a total of 18,879 posts, and the top 50 words were determined based on frequency of appearance. Based on the collected words, centrality measures and CONCOR algorithm were performed in Ucinet 6. The research results are as follows. 1) The frequency of appearance was high in the order of 'Gorpcore look', 'fashion', 'coordination', 'clothes', 'outdoor', 'Musinsa', 'look', 'trend', 'brand' and 'ahjussi (middle-aged old man in Korean)'. These words had high TF-IDF scores, which leads to the conclusion that these are key words that are recognized as important. 2) Network centrality shows that 'Gorpcore look', 'fashion', 'outdoor', 'coordination', 'clothes', 'trend', 'look' and 'style' have a high correlation with other words. Through this, it was found that the public thinks it is important to create a variety of fashions by styling high-performance outdoor wear and casual wear, and that they are highly interested in clothes and in brands leading the Gorpcore trend. 3) As a result of the CONCOR algorithm, four significant groups were formed. The words that appear in each group are as follows. Group 1 - 'outdoor', 'Gorp', 'Normcore', 'hiking', 'functionality', 'new', 'sports', 'casual wear', 'activity', 'generation', 'collaboration'. Group 2 - 'fashion', 'trend', 'look', 'brand', 'style', 'shoes', 'ugly', 'item', 'trend', 'product', 'Salomon', 'padded jacket', 'stylishness', 'utilization', 'Winter', 'street', 'design', 'retro', 'popular', 'styling'. Group 3 - 'Gorpcore look', 'coordination', 'Musinsa', 'windbreaker', 'recommendation', 'Arcteryx', 'pants', 'man'. Group 4 - 'clothes' 'ahjussi', 'jacket', 'launching', 'spring', 'The North Face', 'collection', 'utility', 'jumper'. As a result, it can be seen that the Gorpcore is also regarded as a part of outdoor, fashion, coordination, and casual wear.

KNIME 분석 플랫폼 기반 스마트 미터 빅 데이터 클러스터링 (Clustering of Smart Meter Big Data Based on KNIME Analytic Platform)

  • 김용길;문경일
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.13-20
    • /
    • 2020
  • 빅 데이터 관련 주요 논제 중의 하나는 방대한 시간 기반 또는 원격 측정 데이터의 가용성에 관한 문제이다. 현재 저비용 획득 및 저장 장치의 등장은 더 세밀한 분석에 사용될 상세한 시간 데이터를 얻을 수 있어서 배후 시스템에 대해 여러 가지 지식을 갖거나 미래의 이벤트를 더 정확히 예측할 수 있다. 특히, 스마트 미터가 설치된 수많은 가정 및 기업 등을 대상으로 전기 사용에 관한 고객 맞춤형 계약을 정의하는 것은 다른 무엇보다도 중요한 문제이다. 수많은 스마트 미터 데이터를 바탕으로 공통적인 전력 소비 형태를 몇 가지 그룹으로 구분할 필요가 있다. 이에 본 연구에서는 스마트 미터 측정 관련 공개 데이터와 자바 기반 공개 소스인 KNIME 플랫폼을 사용하여 스마트 미터 관련 빅 데이터 변환과 클러스터링을 나타낸다. 빅 데이터 구성 요소는 공개 소스는 아니지만, 시험판으로 사용할 수 있다. 스마트 미터 빅 데이터를 가져오고, 정리하고, 변환한 후 전력 사용량 행위와 관련된 각 미터 ID의 해석과 클러스터링에 적합한 DTW 접근 방식을 통해 전력 사용 행위에 관한 스마트 계약을 정의할 수 있다.