• 제목/요약/키워드: analyzing unstructured data

검색결과 107건 처리시간 0.028초

교통정보 추론을 위한 비정형데이터 분석과 다중패턴저장 기법 (Unstructured Data Analysis and Multi-pattern Storage Technique for Traffic Information Inference)

  • 김용훈;김부일;정목동
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.211-223
    • /
    • 2018
  • To understand the meaning of data is a common goal of research on unstructured data. Among these unstructured data, there are difficulties in analyzing the meaning of unstructured data related to corpus and sentences. In the existing researches, the researchers used LSA to select sentences with the most similar meaning to specific words of the sentences. However, it is problematic to examine many sentences continuously. In order to solve unstructured data classification problem, several search sites are available to classify the frequency of words and to serve to users. In this paper, we propose a method of classifying documents by using the frequency of similar words, and the frequency of non-relevant words to be applied as weights, and storing them in terms of a multi-pattern storage. We use Tensorflow's Softmax to the nearby sentences for machine learning, and utilize it for unstructured data analysis and the inference of traffic information.

An Efficient Design and Implementation of an MdbULPS in a Cloud-Computing Environment

  • Kim, Myoungjin;Cui, Yun;Lee, Hanku
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권8호
    • /
    • pp.3182-3202
    • /
    • 2015
  • Flexibly expanding the storage capacity required to process a large amount of rapidly increasing unstructured log data is difficult in a conventional computing environment. In addition, implementing a log processing system providing features that categorize and analyze unstructured log data is extremely difficult. To overcome such limitations, we propose and design a MongoDB-based unstructured log processing system (MdbULPS) for collecting, categorizing, and analyzing log data generated from banks. The proposed system includes a Hadoop-based analysis module for reliable parallel-distributed processing of massive log data. Furthermore, because the Hadoop distributed file system (HDFS) stores data by generating replicas of collected log data in block units, the proposed system offers automatic system recovery against system failures and data loss. Finally, by establishing a distributed database using the NoSQL-based MongoDB, the proposed system provides methods of effectively processing unstructured log data. To evaluate the proposed system, we conducted three different performance tests on a local test bed including twelve nodes: comparing our system with a MySQL-based approach, comparing it with an Hbase-based approach, and changing the chunk size option. From the experiments, we found that our system showed better performance in processing unstructured log data.

Product Recommendation System based on User Purchase Priority

  • Bang, Jinsuk;Hwang, Doyeun;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제18권1호
    • /
    • pp.55-60
    • /
    • 2020
  • As personalized customer services create a society that emphasizes the personality of an individual, the number of product reviews and quantity of user data generated by users on the internet in mobile shopping apps and sites are increasing. Such product review data are classified as unstructured data. Unstructured data have the potential to be transformed into information that companies and users can employ, using appropriate processing and analyses. However, existing systems do not reflect the detailed information they collect, such as user characteristics, purchase preference, or purchase priority while analyzing review data. Thus, it is challenging to provide customized recommendations for various users. Therefore, in this study, we have developed a product recommendation system that takes into account the user's priority, which they select, when searching for and purchasing a product. The recommendation system then displays the results to the user by processing and analyzing their preferences. Since the user's preference is considered, the user can obtain results that are more relevant.

비정형 공사감리문서 정보와 이항 로지스틱 회귀분석을 이용한 건축 현장 비용성과 평가 프레임워크 개발 (Cost Performance Evaluation Framework through Analysis of Unstructured Construction Supervision Documents using Binomial Logistic Regression)

  • 김창원;송태근;이기석;유위성
    • 한국건축시공학회지
    • /
    • 제24권1호
    • /
    • pp.121-131
    • /
    • 2024
  • 공사감리문서는 프로젝트의 수행과정을 제3의 독립적인 위치에서 모니터링한 종합적인 점검의견이라는 주요한 비정형 정보를 제공할 수 있다. 이와 같은 비정형 정보는 최근 분석방법론의 고도화에 따라 다양한 시사점을 제공할 수 있는 유의미한 자료로 평가받고 있다. 이에 본 연구는 건축공사의 최종 감리보고서 내 비정형 데이터를 대상으로 다양한 방법론을 활용하여 비용성과를 평가할 수 있는 프레임워크를 제시하였다. 세부적으로는 텍스트마이닝과 사회연결망분석을 통해 감리보고서 내 주요 키워드들을 도출하고, 해당 데이터들을 이항 로지스틱 회귀분석을 통해 분석하여 비용성과를 평가하였다. 그 결과, 감리보고서 내 비정형 데이터를 이용하여 추정된 비용성과 예측 정확도는 약 73% 수준으로 높게 도출되었다. 본 연구의 결과는 향후 건설산업에서 발생되는 다양한 비정형 데이터의 분석을 위한 기초자료로 활용이 가능할 것으로 예상된다.

장비점검 일지의 비정형 데이터분석을 통한 고장 대응 효율화 사례 연구 (Unstructured Data Analysis using Equipment Check Ledger: A Case Study in Telecom Domain)

  • 주연진;김유신;정승렬
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.127-135
    • /
    • 2020
  • 비정형 데이터의 수집, 분석 그리고 활용에 대한 필요성이 대두되고 있지만 여전히 비정형 데이터를 효과적으로 활용하지 못하고 있는 실정이다. 본 연구에서는 국내 유수 이동통신 기업의 통신 시설장비 점검 시스템에 기록된 비정형데이터를 분석하여 장비고장 대응과 예방에 적극 활용할 수 있는 기반을 만들고자 하였고, 약 220만 건의 작업일지 데이터를 텍스트 마이닝을 통해 구조화/정형화 하였다. 이를 위해 장비 고장과 관련된 4가지 분석 프레임, 고장인지, 고장원인, 고장대상, 조치결과를 구성하였고 분석 결과로는 크게 3가지의 효율화 방안과 관련한 인사이트를 얻을 수 있었다. 첫 번째로는 신속한 조치를 통한 시간 단축을 도모하고, 두 번째로는 고장장비 Unit 수요를 예측하고, 마지막으로 현장 출동의 최소화를 지원할 수 있을 것으로 기대되었다. 결론적으로, 본 사례연구는 통신시설 장비 고장 대응을 위해 데이터 분석 대상을 정형 데이터뿐만 아니라 장비일지라는 비정형 빅데이터로도 범위를 확장했으며, 이를 분석에 활용하기 위해 처음으로 텍스트 마이닝을 시도를 했다는데 의의를 가진다. 또한 N사는 정형 데이터 뿐 만아니라 년 80만 건씩 축적되던 비정형 데이터의 활용 가치를 확인할 수 있던 기회를 가졌으며, 향후 비정형 데이터의 활용 방안에 대한 발전방향 그리고 추후의 정형 데이터와의 연계 분석 방안 등에 대한 가이드를 확보할 수 있었다.

The Impact of Transforming Unstructured Data into Structured Data on a Churn Prediction Model for Loan Customers

  • Jung, Hoon;Lee, Bong Gyou
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4706-4724
    • /
    • 2020
  • With various structured data, such as the company size, loan balance, and savings accounts, the voice of customer (VOC), which is text data containing contact history and counseling details was analyzed in this study. To analyze unstructured data, the term frequency-inverse document frequency (TF-IDF) analysis, semantic network analysis, sentiment analysis, and a convolutional neural network (CNN) were implemented. A performance comparison of the models revealed that the predictive model using the CNN provided the best performance with regard to predictive power, followed by the model using the TF-IDF, and then the model using semantic network analysis. In particular, a character-level CNN and a word-level CNN were developed separately, and the character-level CNN exhibited better performance, according to an analysis for the Korean language. Moreover, a systematic selection model for optimal text mining techniques was proposed, suggesting which analytical technique is appropriate for analyzing text data depending on the context. This study also provides evidence that the results of previous studies, indicating that individual customers leave when their loyalty and switching cost are low, are also applicable to corporate customers and suggests that VOC data indicating customers' needs are very effective for predicting their behavior.

텍스트 데이터 시각화를 위한 MVC 프레임워크 (A MVC Framework for Visualizing Text Data)

  • 최광선;정교성;김수동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.39-58
    • /
    • 2014
  • 빅데이터의 중요성에 대한 인식이 확산되고, 관련한 기술이 발전됨에 따라, 최근에는 빅데이터의 처리와 분석의 결과를 어떻게 시각화할 것인지가 매우 관심 받는 주제로 부각되고 있다. 이는 분석된 결과를 보다 명확하고 효과적으로 전달하는 데에 있어서 데이터의 시각화가 매우 효과적인 방법이기 때문이다. 시각화는 분석 시스템과 사용자가 소통하기 위한 하나의 그래픽 사용자 인터페이스(GUI)를 담당하는 역할을 한다. 통상적으로 이러한 GUI 부분은 데이터의 처리나 분석의 결과와 독립될 수록 시스템의 개발과 유지보수가 용이하며, MVC(Model-View-Controller)와 같은 디자인 패턴의 적용을 통해 GUI와 데이터 처리 및 관리 부분 간의 결합도를 최소화하는 것이 중요하다. 한편 빅데이터는 크게 정형 데이터와 비정형 데이터로 구분할 수 있는데 정형 데이터는 시각화가 상대적으로 용이한 반면, 비정형 데이터는 시각화를 구현하기가 복잡하고 다양하다. 그럼에도 불구하고 비정형 데이터에 대한 분석과 활용이 점점 더 확산됨에 따라, 기존의 전통적인 정형 데이터를 위한 시각화 도구들의 한계를 벗어나기 위해 각각의 시스템들의 목적에 따라 고유의 방식으로 시각화 시스템이 구축되는 현실에 직면해 있다. 더욱이나 현재 비정형 데이터 분석의 대상 중 대부분을 차지하고 있는 텍스트 데이터의 경우 언어 분석, 텍스트 마이닝, 소셜 네트워크 분석 등 적용 기술이 매우 다양하여 하나의 시스템에 적용된 시각화 기술을 다른 시스템에 적용하는 것이 용이하지 않다. 이는 현재의 텍스트 분석 결과에 대한 정보 모델이 서로 다른 시스템에 적용될 수 있도록 설계되지 못하는 경우가 많기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위하여 다양한 텍스트 데이터 분석 사례와 시각화 사례들의 공통적 구성 요소들을 식별하여 표준화된 정보 모델인 텍스트 데이터 시각화 모델을 제시하고, 이를 통해 시각화의 GUI 부분과 연결할 수 있는 시스템 모델로서의 시각화 프레임워크인 TexVizu를 제안하고자 한다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

소규모학습그룹의 학습자 맞춤형 교육을 위한 비정형데이터분석 연구 (A study on the analysis of unstructured data for customized education of learners in small learning groups)

  • 민연아;임동균
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.89-95
    • /
    • 2020
  • 이러닝 시장이 확대됨에 따라 인공지능 기반의 학습자 맞춤형 교육에 대한 관심이 높아지고 있다. 학습자 맞춤형 교육은 학습자 분석을 위한 대량의 데이터 및 학습 콘텐츠 등의 필수 구성요소가 필요하며 이러한 데이터 수집을 위한 시간과 비용 측면의 노력이 필요하다. 본 논문에서는 소규모 학습그룹에서의 효율적으로 학습자 맞춤형 학습이 가능하도록, python 모듈들을 사용하여 비정형 학습자 데이터를 분석하였으며 이를 토대로 제시된 학습알고리즘을 통하여 학습자의 학습연속성을 유지하도록 하였다. 본 논문을 통하여 제시된 비정형 학습데이터분석을 통하여 학습관련 비정형 데이터를 정량화 하여 측정 가능하도록 하였으며 학습자 맞춤교육 제공을 위한 키워드 분석 시 90% 이상 데이터가 유의미함을 확인하였다.

플립드러닝 성과를 예측하기 위한 설문조사 기반의 비정형 데이터 분석 (Survey-based unstructured data analysis to predict flipped learning performance)

  • 김차영;김윤
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.519-524
    • /
    • 2023
  • 본 연구는 IT 관련 다양한 교양과목의 플립드 러닝 적용에 있어서 운영에 대한 경험을 정리하면서, 구체적인 적용 방법을 제안한다. 그동안은 플립드 러닝에 대한 다양한 전략과 학습자 반응을 분석하는 연구들이 대부분이었다. 현재는 플립드러닝 수업을 운영하는 주체자인 교수자들이 해당 과목들을 운영하면서, 즉각적인 피드백과 적용을 할 수 있는 방안에 대한 연구가 필요한 시점이다. 이에 관한 연구들이 점차 나오고 있는데, 일반적으로 교수자 본인들의 수업 운영의 구조를 개발하거나, 토론 수업과 접목하거나, 다양한 콘텐츠 개발하기 등과 같은 다양한 전략을 적용 후, 결과를 통한 참고 자료에 대한 공유 연구가 대부분이다. 본 연구는 즉각적인 피드백을 받을 수 있는 설문조사인 비정형 데이터를 기반으로 분석하여, 다양한 전략이 해당 과목에서 어떻게 적용되고, 결과를 얻을 수 있는지 수업 운영과 동시에 분석할 수 있는 방법을 제안한다.