• Title/Summary/Keyword: Big data Processing

Search Result 1,063, Processing Time 0.03 seconds

Development of Artificial Intelligence-based Legal Counseling Chatbot System

  • Park, Koo-Rack
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.3
    • /
    • pp.29-34
    • /
    • 2021
  • With the advent of the 4th industrial revolution era, IT technology is creating new services that have not existed by converging with various existing industries and fields. In particular, in the field of artificial intelligence, chatbots and the latest technologies have developed dramatically with the development of natural language processing technology, and various business processes are processed through chatbots. This study is a study on a system that provides a close answer to the question the user wants to find by creating a structural form for legal inquiries through Slot Filling-based chatbot technology, and inputting a predetermined type of question. Using the proposal system, it is possible to construct question-and-answer data in a more structured form of legal information, which is unstructured data in text form. In addition, by managing the accumulated Q&A data through a big data storage system such as Apache Hive and recycling the data for learning, the reliability of the response can be expected to continuously improve.

A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data (대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템)

  • Son, Siwoon;Kim, Dasol;Moon, Yang-Sae;Choi, Hyung-Jin
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.58-68
    • /
    • 2018
  • Distributed computing helps to efficiently store and process large data on a cluster of multiple machines. The performance of distributed computing is greatly influenced depending on the state of the servers constituting the distributed system. In this paper, we propose a self-diagnosis system that collects log data in a distributed system, detects anomalies and visualizes the results in real time. First, we divide the self-diagnosis process into five stages: collecting, delivering, analyzing, storing, and visualizing stages. Next, we design a real-time self-diagnosis system that meets the goals of real-time, scalability, and high availability. The proposed system is based on Apache Flume, Apache Kafka, and Apache Storm, which are representative real-time distributed techniques. In addition, we use simple but effective moving average and 3-sigma based anomaly detection technique to minimize the delay of log data processing during the self-diagnosis process. Through the results of this paper, we can construct a distributed real-time self-diagnosis solution that can diagnose server status in real time in a complicated distributed system.

Performance Optimization Strategies for Fully Utilizing Apache Spark (아파치 스파크 활용 극대화를 위한 성능 최적화 기법)

  • Myung, Rohyoung;Yu, Heonchang;Choi, Sukyong
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.7 no.1
    • /
    • pp.9-18
    • /
    • 2018
  • Enhancing performance of big data analytics in distributed environment has been issued because most of the big data related applications such as machine learning techniques and streaming services generally utilize distributed computing frameworks. Thus, optimizing performance of those applications at Spark has been actively researched. Since optimizing performance of the applications at distributed environment is challenging because it not only needs optimizing the applications themselves but also requires tuning of the distributed system configuration parameters. Although prior researches made a huge effort to improve execution performance, most of them only focused on one of three performance optimization aspect: application design, system tuning, hardware utilization. Thus, they couldn't handle an orchestration of those aspects. In this paper, we deeply analyze and model the application processing procedure of the Spark. Through the analyzed results, we propose performance optimization schemes for each step of the procedure: inner stage and outer stage. We also propose appropriate partitioning mechanism by analyzing relationship between partitioning parallelism and performance of the applications. We applied those three performance optimization schemes to WordCount, Pagerank, and Kmeans which are basic big data analytics and found nearly 50% performance improvement when all of those schemes are applied.

Performance study design of CRUD operation of MongoDB and MySQL in big data environment (빅데이터 환경에서 MongoDB와 MySQL의 CRUD 연산의 성능 연구 설계)

  • Seo, Jung-Yeon;Jeon, Eun-Kwang;Chae, Min-su;Lee, Hwa-Min
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.854-856
    • /
    • 2017
  • 최근 들어 모바일 디바이스의 발전으로 인해 생성되는 데이터의 종류는 다양해지고, 양은 방대해지고 있다. 이렇게 생성된 방대한 양의 데이터를 빅데이터라고 한다. 빅데이터들은 기존의 데이터 처리 방법과 다른 방법으로 처리되어야한다. 빅데이터 처리의 대표적인 방법인 관계형데이터베이스시스템(RDBMS)와 NoSQL 방법 중 대표적인 방법인 MySQL과 MongoDB의 데이터를 모델링한다. 설계된 데이터를 바탕으로 보다 편하고 알맞게 데이터베이스시스템 성능평가를 수행한다.

A Study on the sustainability of Jeju Haenyeo, an UNESCO Intangible Cultural Heritage (제주해녀 인류무형문화유산 유지 방안 연구)

  • Yoo, Jaeho;Jung, Yeon Kye
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.1228-1231
    • /
    • 2017
  • The development of ICT brings the change in daily life and the digitized data are increasing in usage. The combination between GPS and internet results in extensive diffusion of space related information by way of smartphone, sensor and SNS. Jeju Island is only one special self-governing province in Republic of Korea and deserves to be proud of the unique culture, having those designated Intangible Cultural Heritage from UNESCO such as Culture of Jeju Haenyeo or Women Divers and Jeju Chilmeoridang Yeongdeunggut or Exorcism of Praying big Catch. In this paper, I suggest how to preserve fadable tradition economically and technically and expect to develop Haenyeo fitted portable sensors and IoT platform.

A Study on the DB Construction Method for Analyzing Housing Demand Analysis Based on Big-Data (빅데이터 기반 주택수요 분석을 위한 DB 구축 방안 연구)

  • Yang, Dong-Suk;Lee, Sang-Hoon;Lim, Jae-Bin
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.778-780
    • /
    • 2017
  • 적절한 주택공급 및 주택정책을 위해서는 인구 및 가구 구조의 변화에 따른 주택수요의 예측의 정확성이 요구되고 있다. 본 연구에서는 기존 주택수요 예측에 있어서의 DB의 문제점들을 살펴보고 개선방안 및 빅데이터를 활용할 수 있는 DB 구축방안을 제시하였다. 향후, 기존에 활용되지 않고 있는 주택공시가격, 건축물대장, 가계동향조사, 인구주택 총조사 등을 활용하여 주택수요를 분석할 수 있도록 파일럿시스템을 개발하여 타당성을 검토할 예정이다.

Error Analysis for Temperature Big Data of Hydropower Collected by IoT sensors (IoT 센서로 수집한 수전 설비의 온도 데이터를 이용한 오류 빅데이터 분석)

  • Joo, Eun-Jin;Hong, Jang-Eui
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.553-555
    • /
    • 2017
  • 수전 설비 시스템은 전력 회사에서 3 상 전원을 받는 설비로, 전기를 공급받기 위한 설비이다. 정전이나 제품생산설비의 중단은 기업에 있어서는 경제적 손실이 매우 큰 사고일 수 밖에 없다. 요즘은 IoT 센서를 이용한 수전설비 관리 시스템의 활용이 늘어나고 있는 추세이다. IoT 센서를 이용한 수전 설비의 구축에서 정확한 상태 값의 센싱과 수집된 값의 전송, 그리고 정확성 판단에 대한 이슈들이 고려되어야 하며, 또한 기기간 통신을 통해 실시간 상호작용으로 수전설비의 고장을 어떻게 예방할 것인가에 대한 것이 중요하다. 본 연구에서는 수전 설비의 실시간 감지와 모니터링을 위한 목적으로 기존의 고장 및 오류 정보를 기반으로 하는 빅데이터 분석을 통해 발생 가능한 고장 및 오류를 사전 예측할 수 있도록 정보를 제공하는 것에 주안점을 두었다.

Pre-evaluation of Non-alcoholic Fatty Liver Disease Model Using Micro-MRI: For Big Data Application (비알콜성 간 질환 동물모델 영상 빅 데이터 구축을 위한 영상데이터 수집 및 사전평가)

  • Lee, Gi-Taek;Jun, Hong Young;Kim, Tae-Hoon;Jang, Mi Yeon;Kim, Dae Won;Yoon, Kwon-Ha
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.982-983
    • /
    • 2017
  • 본 연구는 최근 문제가 되고 있는 비알콜성 간 질환에 대한 빅 데이터의 사전 데이터를 만들기 위해 마우스에서 고지방 식이와 Streptozotocin ((STZ)로 모델을 제작하였고, 당뇨와 비만 정도를 측정하여 질환발생 정도를 확인하였다. 또한, MR영상의 지속적인 촬용으로 질환발생과정에 대해 3D분석 소프트웨어로 평가되었다.

Problem Analysis of Sensor Coverage Maximization Algorithms in MANET for Big Data Aggregation (빅데이터 집성을 위한 MANET 센서 커버리지 최대화 알고리즘의 문제점 분석)

  • Moon, YoungJu;Kang, JiHun;Choi, SungMin;Lim, JongBeom
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.54-55
    • /
    • 2016
  • 무선 센터 네트워크 환경과 이동성을 지원하는 MANET이 결합된 환경에서 센서 커버리지 최대화 문제는 해결해야 할 중요한 문제 중 하나이다. 이 문제를 해결하기 위해 기존 연구에서는 자가 조직의 방식으로 노드 이동에 대하여 자가 결정, 근접 노드 검색, 노드 이동의 단계를 수행하는 알고리즘이 제시되었다. 하지만 기존 연구의 방식으로는 이미 노드의 배치가 최적화된 상태에서는 효과적이지 않다는 문제점을 가지고 있다. 이 논문에서는 기존 MANET 센서 커버리지 최대화 알고리즘의 문제점을 상세히 분석하고, 이 문제점을 해결하기 위한 해결 방안을 제시한다. 문제점을 제시하기 위해 MANET 환경을 모의구성하고 성능 실험을 실시하였다.

Raising Risk and Suggesting Solution about Personal Information De-identification in Big-Data Environment (빅데이터 환경에서 개인정보 비식별화에 대한 위험성 제기 및 대응 방안 제시)

  • Lee, Su-Rim;Jang, Woong-Tae;Bae, Jae-Young;Lee, Chan-Ho;Hyun, Beom-Su
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.297-300
    • /
    • 2016
  • 최근 빅데이터 산업이 발전하고 있는 상황에서 빅데이터 산업에 활용되는 개인정보의 보호에 관한 문제가 대두하고 있다. 빅데이터 산업에서 개인정보를 활용하기 위해서는 비식별화 조치를 해야 한다. 하지만 비식별화는 비식별화 평가 모델 자체의 취약성과 더불어 비식별화된 개인정보를 재식별화 하는 위험성도 존재한다. 본 논문은 적정성 평가 모델, 비식별화 조치 기술, 재식별에 관한 위험성을 연구하고 각 위험성에 대한 대응 방안을 통해 재식별화의 문제를 해결하여 빅데이터 산업에서 비식별화된 개인정보가 안전히 쓰일 수 있도록 해야 한다.