Abstract
We develope the predictive model for the incidence of the stomach cancer by utilizing the health screening data of the National Health Insurance in Korea. We also explore the characteristics for the stomach cancer. We perform the logistic regression analysis using the data mining methodology and use SAS Enterprise Miner 4.1. This study shows that there exists a higher rate of the stomach cancer for males than females. Our study confirms that the major influencing factors for the incidence of the stomach cancer are age, drinking and a family history of cancer, lack of exercise. For man, the age is the most important determinant of the stomach cancer incidence, whereas the drinking is the most important determinant of the stomach cancer incidence for women.
본 연구는 국민건강보험공단의 건강검진데이터, 자격 및 보험료, 그리고 진료비 데이터를 활용하여 위암 발생 예측모형을 개발하고자 하였다. 모형개발에는 데이터마이닝 방법론에 의한 로지스틱 회귀모형을 활용하였으며, 모형개발은 남성, 여성 그리고 전체에 대해 각각 개발하여 각 모형에서 위암 발생 결정요인의 차이를 비교하였다. 그 결과 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다. 남자가 여자보다 위암 발견 가능성이 다소 높은 것으로 나타났으며, 남성의 경우는 연령, 여성의 경우는 음주유무가 위암 발생에 많은 영향을 미치는 것을 확인 할 수 있었다.