Abstract
As art analytic method to uncover interesting patterns hidden under a large volume of data, data mining research has been actively done so far in various fields. However, current state-of-the-arts in data mining research have several challenging problems such as being too ad-hoc. The existing techniques are mostly the ones designed for individual problems, so there is no unifying theory applicable for more general data mining problems. In this paper, we address the problem of classification, which is one of significant data mining tasks. Specifically, our objective is to evaluate radial basis function (RBF) model for classification tasks and investigate its usefulness. For evaluation, we analyze the popular Monk's problems which are well-known datasets in data mining research. First, we develop RBF models by using the representational capacity based learning algorithm, and then perform a comparative assessment of the results with other models generated by the existing techniques. Through a variety of experiments, it is empirically shown that the RBF model has not only the superior performance on the Monk's problems but also its modeling process can be controlled in a systematic way, so the RBF model with RC-based algorithm might be a good candidate to handle the current ad-hoc problem.
데이터 마이닝(data mining)이란 대량의 데이터에 내재되어 있는 숨겨진 패턴을 찾아내기 위한 분석 기술로서 지금까지 많은 연구가 진행되어 왔지만, 현재의 데이터 마이닝 연구는 ad-hoc 문제와 같은 해결되어야 할 중요한 이슈들이 있다. 즉, 개별적 문제에 대해 설계된 마이닝 기법이 주로 사용되는 까닭에 여러 문제에 통합적으로 적용될 수 있는 시스템적 마이닝 기법에 관한 연구가 요구되고 있다. 본 논문에서는 이러한 핵심 데이터 마이닝 태스크 중의 하나인 분류 모델링 방법으로 방사형 기저 함수(radial basis function, RBF) 모델의 성능을 고찰하고 그 유용성(usefulness)을 살펴보고자 한다. 특히, 대표적인 마이닝 관련 벤치마킹 데이터인 Monk's problem 분석을 위해 RC(Representation Capacity) 기반 알고리즘을 사용하여 RBF 모델을 구축하고 분류 성능을 기존의 연구 결과와 비교 고찰한다. 그리하여 RBF 모델의 분류 성능 면에서의 우수성뿐만 아니라 모델링 과정을 체계적인 방식으로 적절히 제어할 수 있음을 보여주고, 이를 통해 현재의 ad-hoc 방식의 문제를 어느 정도 해결할 수 있음을 보여준다.