• 제목/요약/키워드: clustering의사결정나무

검색결과 15건 처리시간 0.021초

매개 변수를 이용한 의사결정나무 생성에 관한 연구 (A study on decision tree creation using intervening variable)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.671-678
    • /
    • 2011
  • 데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

사상체질 분류모형 개발 및 진단시스템의 구현에 관한 연구 (Study on Development of Classification Model and Implementation for Diagnosis System of Sasang Constitution)

  • 범수균;전미란;오암석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 지능정보 및 응용 학술대회
    • /
    • pp.155-159
    • /
    • 2008
  • 본 논문에서는 사상체질분류검사 설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질 분류모형을 개발하기 위하여 데이터마이닝의 주요 분류기법인 판별분석(discriminant analysis), 의사결정나무(decision tree analysis), 신경망분석(neural network analysis), 로지스틱 회귀분석(logistic regression analysis), 군집분석(clustering analysis) 등 다양한 분류분석모형을 이용한다. 본 연구에서는 분류의 비교적 정확도가 우수하며, 특히 분석과정을 쉽게 이해하고 설명할 수 있다는 점과 구현이 용이하다는 장점을 가지고 있는 판별분석모형과 의사결정나무분석모형을 기반으로 사상체질 분류모형을 개발하고, 두 분류모형을 적용한 사상체질 진단시스템을 구현하였다.

  • PDF

풍력 데이터를 이용한 발전 패턴 예측 (Predicting Power Generation Patterns Using the Wind Power Data)

  • 서동혁;김규익;김광득;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권11호
    • /
    • pp.245-253
    • /
    • 2011
  • 화석 연료의 무분별한 사용으로 환경이 심각하게 오염되고, 화석 연료의 고갈에 대한 문제가 대두됨에 따라서 화석 연료에 대한 문제를 해결 할 수 있는 대체 에너지원에 대해 관심이 집중되기 시작하였다. 현재 신재생 에너지 중에서 가장 각광을 받고 있는 에너지는 중에 하나가 풍력에너지이다. 풍력에너지 발전단지와 기존의 전력 발전소는 소비되는 전력에 대한 생산의 균형을 맞춰야하며, 풍력에너지단지에서 균형적인 생산을 하기 위해서는 풍력에너지에 대한 분석 및 예측이 필요하다. 이를 위해서 데이터마이닝 분야의 예측 기법이 활용 될 수 있다. 본 논문에서는 풍력 데이터를 이용하여 발전 패턴을 예측하기 위해 SOM(Self-Organizing Feature Map) Clustering 기법과 의사결정나무(decision tree)를 이용한 연구를 진행하였다. 즉, 1) 풍력 데이터의 누락된 데이터와 이상치 데이터를 처리하기 위하여, 전처리 과정을 수행하였고, 이 과정에서 특징 벡터를 추출하였다. 2) 전처리 단계를 거쳐 정제되고 정규화된 데이터 집합을 MIA(Mean Index Adequacy) 척도와 SOM Clustering 기법에 적용하여 대표 발전 패턴을 찾아내고 각각의 데이터에 해당하는 대표 패턴을 클래스 레이블로 할당하도록 하였다. 3) 의사결정나무 기반의 분류 기법에 데이터 집합을 적용시켜 새로운 풍력에너지에 대한 분석 및 예측 모델을 생성하였다. 실험 결과, 의사결정나무를 통한 풍력에너지 발전 패턴을 예측하기 위한 모델을 구축하였다.

사회지표조사에서의 3단계 복합 데이터마이닝의 적용 방안 (A study on 3-step complex data mining in society indicator survey)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.983-992
    • /
    • 2012
  • 사회지표조사는 주민들이 생각하는 사회 상태를 총체적으로 파악할 수 있는 조사로서 다양한 시책 개발에 있어 지역의 여론을 반영할 수 있는 장점이 있다. 사회지표조사는 사회 변화를 알 수 있는 중요한 척도라고 할 수 있으며, 많은 지자체 (서울시, 인천시, 부산시, 울산시, 경상남도 등)에서 많은 예산과 시간을 들여 조사를 실시하고 있다. 그러나 조사에 대한 분석 결과가 기초통계분석 위주로 되어 있어 실제 사회지표조사 자료를 제대로 활용하고 있지 못하고 있는 실정이므로 데이터마이닝 등의 다양한 방법의 적용이 필요하다. 이에 본 논문에서는 사회지표조사의 효율적인 분석을 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 본 논문에서는 매개연관성규칙, k-평균 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 복합 데이터마이닝의 적용 방법을 제안하며, 이를 2010년에 조사된 경상남도 사회지표조사 자료에 적용하고자 한다.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of continuous-valued attributes considering data distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

머신 러닝을 활용한 의류제품의 판매량 예측 모델 - 아우터웨어 품목을 중심으로 - (Sales Forecasting Model for Apparel Products Using Machine Learning Technique - A Case Study on Forecasting Outerwear Items -)

  • 채진미;김은희
    • 한국의류산업학회지
    • /
    • 제23권4호
    • /
    • pp.480-490
    • /
    • 2021
  • Sales forecasting is crucial for many retail operations. For apparel retailers, accurate sales forecast for the next season is critical to properly manage inventory and plan their supply chains. The challenge in this increases because apparel products are always new for the next season, have numerous variations, short life cycles, long lead times, and seasonal trends. In this study, a sales forecasting model is proposed for apparel products using machine learning techniques. The sales data pertaining to outerwear items for four years were collected from a Korean sports brand and filtered with outliers. Subsequently, the data were standardized by removing the effects of exogenous variables. The sales patterns of outerwear items were clustered by applying K-means clustering, and outerwear attributes associated with the specific sales-pattern type were determined by using a decision tree classifier. Six types of sales pattern clusters were derived and classified using a hybrid model of clustering and decision tree algorithm, and finally, the relationship between outerwear attributes and sales patterns was revealed. Each sales pattern can be used to predict stock-keeping-unit-level sales based on item attributes.

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

티셔츠 상품의 판매패턴과 연관된 상품속성 (Sales Pattern and Related Product Attributes of T-shirts)

  • 채진미;김은희
    • 한국의류학회지
    • /
    • 제44권6호
    • /
    • pp.1053-1069
    • /
    • 2020
  • This study examined the sales pattern relationship with respect to product attributes to propose sales forecasting for fashion products. We analyzed 537 SKU sales data of T-shirts in the domestic sports brand using SAS program. The sales pattern of fashion products fluctuated and were influenced by exogenous factors; therefore, we removed the influence of exogenous factors found to be price discounts and holiday effects as a result of regression analysis. In addition, it was difficult to predict sales using the sales patterns of the same product since fashion products were released as new products every year. Therefore, the forecasting model was proposed using sales patterns of related product attributes when attributes were considered descriptive variables. We classified sales patterns using K-means clustering in order to explain the relationship between sales patterns and product attributes along with creating a decision tree classifier using attributes as input and sales patterns as output. As a result, the sales patterns of T-shirts were clustered into six types that featured the characteristic shape of peak and slope. It was also associated with the combination of product attributes and their values in regards to the proposed sales pattern prediction model.

데이터마이닝을 활용한 한방분야에서의 데이터베이스 마케팅에 대한 연구 (A Study on the Database Marketing using Data Mining in the Traditional Medicine)

  • 이상영;이윤석
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.271-280
    • /
    • 2005
  • 본 연구에서는 한방분야에서 검진에 영향을 미치는 요인들에 대하여 의사결정나무기법을 이용하여 도출하였고, 군집 분석을 통해 환자들의 특성에 대하여 알아보았다. 또한 질병간 연관성 분석을 재입원 환자 군들의 질병 구조를 파악하기 위하여 실시하였다 아울러 도출된 군집들은 병원수익에 어떤 영향을 미치고 있는지에 대한 결과를 도출하였다. 즉 한방분야에 대하여 데이터마이닝 기법을 적용한 데이터베이스 마케팅을 통해 내원 환자들의 특성을 파악하고 병원 수익에 영향을 미치는 요인들을 실증적으로 도출하였다. 본 연구를 통하여 병원의 효율적인 운영과 활성화를 위한 데이터베이스 마케팅을 실시함으로써 병원 경영 에 효율성을 도모할 수 있을 것이다.

  • PDF

신제품 개발을 위한 데이터 기반 공동 디자인 프로세스: 스마트 난방복 사례 연구 (Data-driven Co-Design Process for New Product Development: A Case Study on Smart Heating Jacket)

  • 임수연;이상원
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.133-141
    • /
    • 2021
  • 본 연구는 객관적인 데이터 기반 방법을 통해 인간 중심 디자인 과정을 효과적으로 보완하는 디자인 프로세스를 제시한다. 즉, 주관적 방법에 의한 인간 중심 디자인 프로세스에서 결여되는 객관성이 데이터 기반 접근에 의해 보완되어 숨겨진 사용자의 니즈를 효과적으로 발견하는 프로세스로 발전될 수 있다. 이에 본 연구에서는 설문조사 데이터 마이닝 분석 과정과 공동 디자인 프로세스가 접목된 인간 중심 디자인 프로세스를 제시하며, 스마트 난방복 사례연구를 통해 이를 검증한다. 설문조사 데이터 마이닝 분석 과정에서는 클러스터링과 의사결정 나무의 두 가지 분석 방법이 사용된다. 클러스터링은 타겟 그룹을 선정하는 기준이 되는 페르소나의 초안을 제시하며, 의사결정 나무는 제품 구매에 중요한 사용자 인식 속성 파악과 사용자 가치 체계를 일차적으로 제안한다. 이후 데이터 분석을 통해 얻어진 광범위한 관점에 대하여 타겟 그룹을 대표하는 사용자가 직접 참여하는 공동 디자인 프로세스가 수행되며 맞춤형 워크북을 이용하여 신제품에 대한 사용자의 여정맵, 니즈, 아이디어, 가치 체계 등을 체계적으로 도출한다. 본 논문에서 수행한 스마트 난방복 사례 연구는 제안된 방법론의 적용성을 보여주고 있다.