• Title, Summary, Keyword: 속성 데이터

Search Result 1,287, Processing Time 0.058 seconds

Supervised Feature Weight Optimization for Data Mining (데이터마이닝에서 교사학습에 의한 속성 가중치 최적화)

  • 강명구;차진호;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.244-246
    • /
    • 2001
  • 최근 군집화와 분류기법이 데이터 마이닝에 중요한 도구로 많은 응용분야에 사용되고 있다. 따라서 이러한 기법을 이용하는데 있어서 각각의 속성의 중요도가 달라 중요하지 않은 속성에 의해 중요한 속성이 왜곡되거나 때로는 마이닝의 결과가 잘못되는 결과를 얻을 수 있으며, 또한 전체 데이터를 사용할 경우 마이닝 과정을 저하시키는 문제로 속성 가중치과 속성선택에 과한 연구가 중요한 연구의 대상이 되고 있다. 최근 연구되고 있는 알고리즘들은 사용자의 의도와는 상관없이 데이터간의 관계에만 의존하여 가중치를 설정하므로 사용자가 마이닝 결과를 쉽게 이해하고 분석할 수 없는 문제점을 안고 있다. 본 논문에서는 클래스 정보가 있는 데이터뿐 아니라 클래스 정보가 없는 데이터를 분석할 경우 사용자의 의도에 따라 학습할 수 있도록 각 가중치를 부여하는 속성가중치 알고리즘을 제안한다. 또한 사용자가 의도한 정보를 이용하여 속성간의 가장 최적화 된 가중치를 찾아주며, Cramer's $V^2$함수를 적합도 함수로 하는 유전자 알고리즘을 사용한다. 알고리즘의 타당성을 검증하기 위해 전자상거래상의 실험 데이터와 몇 가지 벤치마크 데이터를 이용하여 본 논문의 타당성을 보인다.

  • PDF

A Study on Elicitation of the Attribute for Procedural Method (절차적인 방법에 의한 속성 도출에 관한 연구)

  • Chang, Wei;Yeo, Jeongmo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.624-627
    • /
    • 2014
  • 현재의 기업 정보시스템의 골격을 정의한 설계도라고 할 수 있는 데이터 모델은 정밀하게 작성되어야 한다. 데이터 모델의 핵심요소로는 엔터티, 속성, 관계가 있으며, 이 중에서도 속성은 실질적인 정보를 담는 가장 기본적인 단위라 할 수 있으므로 모든 정보의 근원이라 할 수 있을 것이다. 그래서 속성들을 제대로 도출하지 못하면 데이터 모델 전체가 무의미하게 될 수 있다. 기존의 속성을 도출하는 방법은 설계자의 경험에 많이 의존하고 실질적인 절차가 존재하지 않아 실무경험이 없는 초보자가 도출하기에는 너무나 어려운 것이 현실이다. 이를 해결하는데 도움이 될 수 있도록 본 논문에서는 데이터 모델 설계의 한 과정으로서, 선행연구에서 제시한 업무중심 엔터티 도출 방법을 이용하여 엔터티가 완전히 도출되어 있다고 가정하고 미리 도출되어 있는 엔터티를 바탕으로 속성을 도출하는 절차를 제안한다. 그리고 데이터 모델링 경험이 많이 없는 학부생 및 대학원생을 대상으로 본 논문에서 제안한 절차를 적용하도록 하였다. 기존에 속성을 도출하는 방법이 실질적으로 존재하지 않기 때문에 학생들이 도출한 속성과 전문 IT 컨설턴트로 멘토가 도출한 모법 답안 간의 유사도검사를 하였다. 최종 유사도 검사를 통하여 전문 IT 컨설턴트인 멘토가 도출한 모법 답안에 상당히 근접하게 속성을 도출할 수 있다는 것을 확인하였다. 따라서 본 논문에서 제안한 절차를 활용한다면 데이터모델링에 실무경험이 없는 초보자나 미숙련자가 적용하여도 속성을 도출할 수 있음을 보였다. 제안 절차에서 도출된 결과를 이용하여 데이터 모델 설계의 이후 과정인 관계도출 과정을 진행할 수 있을 것으로 기대한다.

  • PDF

A Study on Accuracy Improvement of Intrusion Detection System Based on Data Mining (데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도 향상에 관한 연구)

  • Song Jungsuk;Takakura Hiroki;Okabe Yasuo;Kwon Yong-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.208-210
    • /
    • 2005
  • 공격 방법의 다양화와 지능화에 대응하기 위해 침입탐지시스템(IDS)의 성능도 향상되고 있다. 특히, 데이터 마이닝 기반의 침입탐지시스템은 기존 침입탐지시스템의 많은 문제점을 개선시켰다. 그러나 데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도가 트레이닝 데이터(training data)에 포함된 속성(features)과 선택된 axis 및 reference 속성에 의해 결정됨에도 불구하고 현재의 데이터 마이닝 기반의 침입탐지시스템은 트레이닝 데이터에 포함된 고유의 속성만을 고려하기 때문에 탐지 정확도를 향상시키는 데는 한계가 있다. 따라서 본 논문에서는 데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도를 향상시키기 위하여 기존 데이터 마이닝 기반의 침입탐지시스템이 고려했던 고유의 속성 외에 침입과 밀접하게 관련되고 axis및 reference속성으로도 사용될 수 있는 새로운 속성을 제안한다.

  • PDF

Improving Classification Accuracy for Numerical and Nominal Data using Virtual Examples (가상예제를 이용한 수치 및 범주 속성 데이터의 분류 성능 향상)

  • Lee, Yu-Jung;Kang, Jae-Ho;Kang, Byoung-Ho;Ryu, Kwang-Ryel
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주속성 및 수치속성 데이터에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이터를 대상으로 한 반면 본 연구에서는 범주속성 데이터에 대해서도 가상예제를 적용하여 효과를 확인하였다. 그리고 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 한 기존 연구들과는 달리 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이터와 수치 속성을 포함한 데이터를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

  • PDF

Discretization of continuous-valued attributes considering data distribution (데이터 분포를 고려한 연속 값 속성의 이산화)

  • 이상훈;박정은;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

Genetic Algorithm Based Attribute Value Taxonomy Generation for Learning Classifiers with Missing Data (유전자 알고리즘 기반의 불완전 데이터 학습을 위한 속성값계층구조의 생성)

  • Joo Jin-U;Yang Ji-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2
    • /
    • pp.133-138
    • /
    • 2006
  • Learning with Attribute Value Taxonomies (AVT) has shown that it is possible to construct accurate, compact and robust classifiers from a partially missing dataset (dataset that contains attribute values specified with different level of precision). Yet, in many cases AVTs are generated from experts or people with specialized knowledge in their domain. Unfortunately these user-provided AVTs can be time-consuming to construct and misguided during the AVT building process. Moreover experts are occasionally unavailable to provide an AVT for a particular domain. Against these backgrounds, this paper introduces an AVT generating method called GA-AVT-Learner, which finds a near optimal AVT with a given training dataset using a genetic algorithm. This paper conducted experiments generating AVTs through GA-AVT-Learner with a variety of real world datasets. We compared these AVTs with other types of AVTs such as HAC-AVTs and user-provided AVTs. Through the experiments we have proved that GA-AVT-Learner provides AVTs that yield more accurate and compact classifiers and improve performance in learning missing data.

A Study on Attribute Index for Evaluation of Data Governance (Data Governance 평가를 위한 속성지표 연구)

  • Jang, Kyoung-Ae;Kim, Woo-Je
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.2
    • /
    • pp.57-66
    • /
    • 2017
  • The academic research on data governance is still in its infancy and focused on the definition of concept and components. However, we need to study of evaluation on data governance to help make decision of establishment. The purpose of this paper is to develop of attribute index in data governance framework. Therefore, in this paper, we used RGT (repertory grid technique) and Laddering techniques for experts interview and survey for validation of disinterested third party experts and analysis statistically. We completed data governance attribute index which is composed of data compliance area including 8 components, data quality area including 16 components and data organization area including 7 components. Moreover, the evaluation attributes is prioritized and ranked using the AHP. As a result of the study, this paper can be used for the base line data in introducing and operating data governance in an IT company.

Evaluation Criteria of Attributes of Classes and Objects of Data Repositories for Structural Experiment Information (구조실험 정보를 위한 데이터 저장소의 클래스와 객체의 속성구성 평가요소)

  • Lee, Chang-Ho
    • Journal of the Computational Structural Engineering Institute of Korea
    • /
    • v.27 no.6
    • /
    • pp.653-662
    • /
    • 2014
  • The data repositories for structural experiment information needs to be efficient to use in order to allow structural engineers and researchers to store and retrieve easily the information involved in the structural experiments. The data repositories can be evaluated in terms of the organization of the data repositories themselves and of the organization of the actual experiment information in the data repositories, which can be represented using classes and objects with their attributes. This paper proposes the evaluation criteria of attributes of the classes and objects. The evaluation criteria of the attributes of the classes, such as the number of attributes in class and the numbers of the data-valued and object entity-valued attributes, are used for understanding the complexity of the organization of the data repositories. The evaluation criteria of the attributes of the objects, such as the number of valued attributes in object, are used for describing how the actual experiment information is stored through the levels in the data repositories for the structural experiment information.

An Implementation of Optimal Rules Discovery System: An Integrated Approach Based on Concept Hierarchies, Information Gain, and Rough Sets (최적 규칙 발견 시스템의 구현: 개념 계층과 정보 이득 및 라프셋에 의한 통합 접근)

  • 김진상
    • Journal of Korean Institute of Intelligent Systems
    • /
    • v.10 no.3
    • /
    • pp.232-241
    • /
    • 2000
  • This study suggests an integrated method based on concept hierarchies, information gain, and rough set theory for efficient discovery rules from a large amount of data, and implements an optimal rules discovery system. Our approach applies attribute-oriented concept ascension technique to extract generalized knowledge from a database, knowledge reduction technique to remove superfluous attributes and attribute values, and significance of attributes to induce optimal rules. The system first reduces the size of database by removing the duplicate tuples through the condition attributes which have no influences on the decision attributes, and finally induces simplified optimal rules by removing the superfluous attribute values by analyzing the dependency relationships among the attributes. And we induce some decision rules from actual data by using the system and test rules to new data, and evaluate that the rules are well suited to them.

  • PDF

A New Learning Algorithm for Rare Class Classification (희귀 목적값 분류를 위한 학습 알고리즘)

  • Lee, Kwang-Ho;Lee, Chang-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.39-42
    • /
    • 2006
  • 본 논문에서는 데이터 마이닝에서 발생되는 희귀 데이터를 분석하기 위한 희귀 목적값 분석의 새로운 알고리즘을 제시한다. 이를 위하여 속성들이 가지는 속성의 가중치 값과 속성값이 목적 속성에 미치는 가중치값을 정보이론에 입각하여 가중치 계산을 하고, 계산된 가중치값을 사용하여 스코어링 함으로써 희귀 목적값에 속한 데이터 예측/분류에 사용하는 방법을 제시하였다. 실험을 통해 본 알고리즘의 성능을 입증함은 물론 제안된 알고리즘이 희귀 데이터의 분류/학습에 좀 더 효과적이다는 것을 보였다.

  • PDF