• Title/Summary/Keyword: 데이터 선별

Search Result 576, Processing Time 0.063 seconds

A Study on Assessment of Personality Test using Data Mining (데이터 마이닝을 이용한 신인성검사 판정 연구 - 복무적합도검사를 중심으로 -)

  • Park, YoungGill;In, Hoh Peter;Kim, Nunghoe;Lee, Jungbin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1373-1376
    • /
    • 2012
  • 복무적합도 검사는 정신질환이나 사고가능성이 있는 병사를 감별하고, 입대 후 적응문제로 조기 전역할 수 있는 집단을 예측하는 신인성검사 중 하나로, 현재 군에서 징병 및 입영단계에 실시하는 인성검사이다. 이는 전체 검사대상자를 상대로 정신과적 문제 식별을 위한 개별면담이 불가능하기 때문에 위 검사를 통해 대상자를 효율적으로 선별하기 위함이다. 본 연구는 데이터 마이닝을 통해 복무적합도 검사의 판정을 예측 할 수 있을지 확인하고자 하였다. 이를 위해 데이터 마이닝의 기법 중 회귀분석의 로지스틱 회귀분석 기법이 복무적합도검사 판정에 우수한 성능을 보임을 확인하였고, 로지스틱 회귀분석의 추정된 회귀계수를 이용하여 만든 반응확률에 대한 예측 모형식은 높은 정분류율을 보였고 평가 결과 통계적으로 의미가 있음을 증명하였다. 따라서 본 연구 결과를 활용하면 소수의 문항으로 복무적합도 검사 이전의 선별용 검사 개발이나 자가 진단용 검사 개발로 활용이 가능 할 것으로 기대한다.

The Parallel Processing Method of the Continuous Data Stream Processing Tasks (데이터 스트림 연속 처리 태스크의 병렬 처리 방법)

  • Yang, Kyungah;Lee, Daewoo;Kim, Kiheon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.214-215
    • /
    • 2015
  • 데이터 스트림 환경에서 연속 질의를 처리하기 위한 데이터 스트림 처리 시스템이 개발되었다. 데이터 스트림 처리 시스템에서 질의를 처리하는 태스크에 과도한 데이터가 발생할 경우 일반적으로 데이터 스트림을 선별적으로 버리는 load shedding 방법을 이용하지만 이러한 방법은 처리 결과의 정확도가 저하될 수 있다. 따라서, 본 논문은 이를 해결하는 방법으로 분산 데이터 스트림 처리 시스템에서 데이터 스트림 분할을 통한 데이터 스트림 연속 처리 태스크의 병렬 처리 방법을 제시한다. 이를 위해 분산 데이터 스트림을 처리하기 위한 기준을 제시 및 데이터 분할 방법에 대해서 언급한다.

Cache Consistency Scheme to Consider the Period of Data in Mobile Computing Environments (이동 컴퓨팅 환경에서 데이터의 주기성을 고려한 캐쉬 일관성 유지 기법)

  • Lim Jong-Won;Hwang Byung-Yeon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.25-27
    • /
    • 2005
  • 이동 통신 기술의 급격한 발전으로, 이동 컴퓨팅 환경에서 데이터 서비스에 대한 수요가 점차 증가하고 있다. 이동 호스트 내에 캐쉬가 존재하면, 통신 대역폭의 절약 및 질의에 대한 빠른 응답을 가져올 수 있지만, 이동 호스트가 서버 데이터와의 캐쉬 일관성(Consistency)을 유지시켜야 한다는 문제가 생기게 된다. 본 논문에서는 기존의 기법들이 가지는 문제점들을 보완하기 위해 데이터의 주기성을 고려한 캐쉬 일관성 유지 기법을 제안한다. 제안한 기법은 데이터를 주기적, 비주기적 데이터로 분류하고 주기적 데이터에 만료시간을 삽입하고, 또한, 무효화 메시지를 저장해서 단절 후에 선별적으로 캐쉬 데이터가 나누어 질 수 있도록 해서, 캐쉬 내의 데이터가 접속 단절 후에 일방적으로 버려지는 것을 막을 수 있도록 한다.

  • PDF

Real-time private consumption prediction using big data (빅데이터를 이용한 실시간 민간소비 예측)

  • Seung Jun Shin;Beomseok Seo
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.1
    • /
    • pp.13-38
    • /
    • 2024
  • As economic uncertainties have increased recently due to COVID-19, there is a growing need to quickly grasp private consumption trends that directly reflect the economic situation of private economic entities. This study proposes a method of estimating private consumption in real-time by comprehensively utilizing big data as well as existing macroeconomic indicators. In particular, it is intended to improve the accuracy of private consumption estimation by comparing and analyzing various machine learning methods that are capable of fitting ultra-high-dimensional big data. As a result of the empirical analysis, it has been demonstrated that when the number of covariates including big data is large, variables can be selected in advance and used for model fit to improve private consumption prediction performance. In addition, as the inclusion of big data greatly improves the predictive performance of private consumption after COVID-19, the benefit of big data that reflects new information in a timely manner has been shown to increase when economic uncertainty is high.

Caching Scheme Considering Access Patterns in Graph Environments (그래프 환경에서 접근 패턴을 고려한 캐싱 기법)

  • Yoo, Seunghun;Kim, Minsoo;Bok, Kyoungsoo;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.19-20
    • /
    • 2017
  • 최근 소셜 미디어와 센서 장비의 기술의 발달로 그래프 데이터의 양이 급격히 증가 하였다. 그래프 데이터의 처리 과정에서 I/O 비용이 발생하여 데이터가 많아지면 병목현상으로 인해 데이터의 처리와 관리에 있어 성능에 한계가 발생한다. 이러한 문제를 해결하기 위해 데이터를 메모리에서 관리하는 캐시 기법에 대한 연구가 이루어 졌다. 본 논문에서는 서브그래프 데이터의 접근 패턴을 고려한 캐싱 기법을 제안한다. 그래프 환경에서 그래프 질의 이력을 통해 패턴을 찾고 질의 관리 테이블과 FP(frequent pattern)-Tree 통해 선별된 데이터를 메모리에 적재시킨다. 또한, 캐시 실패(cache miss)가 발생 하였을 때, 주변의 이웃 정점을 같이 메모리에 적재시킨다. 메모리가 가득 찰 경우 캐시 된 데이터를 퇴출시키는 교체 전략을 제안한다.

  • PDF

Monitoring Tools for Efficient Overload Measurements in Apache Kafka (Apache Kafka에서 효율적인 과부하 측정을 위한 모니터링 도구)

  • Bang, Jiwon;Son, Siwoon;Moon, Yang-Sae;Choi, Mi-Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.52-54
    • /
    • 2017
  • 실시간으로 빠르게 발생하는 대용량 데이터를 다루기 위해 Apache Storm, Apache Spark 등 실시간 데이터 스트림 처리 기술에 대한 연구가 활발하다. 대부분의 실시간 처리 기술들은 단독으로 사용하기에 어려움이 있으며, 데이터 스트림의 입출력을 위해 메시징 시스템과 함께 사용하는 것이 일반적이다. Apache Kafka는 대표적인 분산 메시징 시스템으로써, 실시간으로 발생하는 대용량의 로그 데이터를 전달하는데 특화된 시스템이다. 현재 Kafka를 위한 다양한 성능 모니터링 도구들이 존재한다. 이러한 모니터링 도구들은 Kafka에서 처리되는 데이터의 양 이외에도 유입 데이터의 크기, 수집 속도, 처리 속도 등 다양한 데이터들을 관찰할 수 있다. 본 논문은 Kafka에서 제공하는 도구와 오픈 소스로 제공되는 여러 개의 도구들을 비교하여, 향후 Kafka의 로드 쉐딩에 대한 연구에 적용할 수 있는 최적의 모니터링 도구를 선별하고자 한다.

A decision tree method using distance-based weighted (거리 기반 가중치를 이용한 의사결정나무 방법)

  • Yoon, Taebok;Lee, Jee-Hyong;Choo, MoonWon;Choi, YoungMee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.510-511
    • /
    • 2010
  • IT기술의 발달과 함께 다양한 분야에서 사용자에게 지능적이고 적응된 서비스를 제공하기 위한 연구가 활발하다. 특히, 데이터 마이닝은 이와 같은 서비스를 위한 방법으로 유용하게 사용되며, 수집된 데이터로부터 숨겨진 패턴을 찾는데 빈번하게 이용된다. 하지만, 수집된 데이터에 예상하지 못한 정보가 섞여 있다면 분석이 어렵고, 분석 결과 또한 신뢰하기 어려울 것이다. 기존에는 수집 데이터에서 의미 없는 데이터를 선별하여 제거하는데 주로 연구 되었으나, 유용한 데이터도 함께 제거될 수 있다는 문제를 가지고 있다. 본 논문은 수집 데이터를 의미 정도에 따라 가중치를 부여하고, 의사결정나무 생성에 반영하였고, 실험을 통하여 유효성을 확인하였다.

Identifying Consumer Response Factors in Live Commerce : Based on Consumer-Generated Text Data (라이브 커머스에서의 소비자 반응 요인 도출 : 소비자 생성 텍스트 데이터를 기반으로)

  • Park, Jae-Hyeong;Lee, Han-Sol;Kang, Ju-Young
    • Informatization Policy
    • /
    • v.30 no.2
    • /
    • pp.68-85
    • /
    • 2023
  • In this study, we collected data from live commerce streaming. Streamimg data were then categorized based on the degree of chatting activation, with the distribution of text responses generated by consumers analyzed. From a total of 2,282 streaming data on NAVER Shopping Live -which has the largest share in the domestic live commerce market- we selected 200 streaming data with the most active viewer responses and finally chose the streams that had steep increase or decrease in viewer responses. We synthesized variables from the existing literature on live commerce viewing intentions and participation motivations to create a table of variables for the purpose of the study. Then we applied them with events in the broadcast. Through this study, we identified which components of the broadcast stimulate the variables of consumer response found in previous studies, moreover, we empirically identified the motivations of consumers to participate in live commerce through data.

A Study on Efficiently Predictive File Hoarding In the Mobile Computing Environment (이동 컴퓨팅 환경에서 효율적인 예측 가능한 자동 저장 방식 설계)

  • 김남광;서진모;신승훈;박승규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.39-41
    • /
    • 2000
  • 본 논문에서는 이동 컴퓨팅 환경에서 사용자의 데이터 사용 유형을 분석하여, 네트워크의 영향을 감소시켜 사용자 작업을 계속 유지하는 방법에 대해 연구하였다. 이를 위해서는 데이터의 특성에 맞는 선택적 자동 저장 크기를 선별해야 하며, 기존의 판단 알고리즘외에 추가 판단기준을 도입하면 자동 저장의 적중률이 향상됨을 보인다. 또한, 자동 저장 리스트의 크기에 대한 고찰을 통해 적정 수준의 적중률을 유지하기 위한 최소한의 리스트 크기를 알아보았다.

  • PDF

Implementation of CARA System (CARA 시스템 구현)

  • Oh, Haeng-Eon;Yang, Gi-Chul;Cho, Kwang-Moon
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.11a
    • /
    • pp.277-280
    • /
    • 2007
  • CARA(CAncer Risk Assessment) 시스템은 과거의 데이터와 유전적 정보를 이용하여 암 발생 위험도가 높은 사람을 선별할 수 있는 시스템이다. 본 논문에서는 과거의 데이터와 유전적 정보를 가계도를 이용하여 표현하고 이를 암 발생 위험도 평가 시스템 개발에 활용한 CARA 시스템의 구현을 시스템의 인터페이스를 중심으로 설명한다.

  • PDF