Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화

  • Jung, Yong Gyu (Department of Medical IT and Marketing, Eulji University) ;
  • Won, Jae Kang (Department of Computer Science, Kyonggi University) ;
  • Sihn, Sung Chul (Department of Healthcare Solution, Fujitsu Korea Limited)
  • 정용규 (을지대학교, 의료IT마케팅학과) ;
  • 원재강 (경기대학교, 컴퓨터과학과) ;
  • 신성철 (한국후지쯔(주) 헬스케어솔루션부)
  • Received : 2012.08.30
  • Accepted : 2012.09.20
  • Published : 2012.09.30

Abstract

Data mining is an interest area in all field around us not in any specific areas, which could be used applications in a number of areas heavily. In other words, it is used in the decision-making process, data and correlation analysis in hidden relations, for finding the actionable information and prediction. But some of the data sets contains many missing values in the variables and do not exist a large number of records in the data set. In this paper, missing values are handled in accordance with the model tree algorithm. Cholesterol value is applied for predicting. For the performance analysis, experiments are approached for each treatment. Through this, efficient alternative is presented to apply the missing data.

데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다. 하지만, 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 그래서 본 논문에서는 Cholesterol 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통해서 각 처리방식에 대한 성능을 분석한다. 또는 이 결과를 통하여 결측치 대체방법에 대한 효율적인 적용사례를 제시한다.

Keywords