• Title/Summary/Keyword: 속성데이터

Search Result 1,594, Processing Time 0.055 seconds

Supervised Feature Weight Optimization for Data Mining (데이터마이닝에서 교사학습에 의한 속성 가중치 최적화)

  • 강명구;차진호;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.244-246
    • /
    • 2001
  • 최근 군집화와 분류기법이 데이터 마이닝에 중요한 도구로 많은 응용분야에 사용되고 있다. 따라서 이러한 기법을 이용하는데 있어서 각각의 속성의 중요도가 달라 중요하지 않은 속성에 의해 중요한 속성이 왜곡되거나 때로는 마이닝의 결과가 잘못되는 결과를 얻을 수 있으며, 또한 전체 데이터를 사용할 경우 마이닝 과정을 저하시키는 문제로 속성 가중치과 속성선택에 과한 연구가 중요한 연구의 대상이 되고 있다. 최근 연구되고 있는 알고리즘들은 사용자의 의도와는 상관없이 데이터간의 관계에만 의존하여 가중치를 설정하므로 사용자가 마이닝 결과를 쉽게 이해하고 분석할 수 없는 문제점을 안고 있다. 본 논문에서는 클래스 정보가 있는 데이터뿐 아니라 클래스 정보가 없는 데이터를 분석할 경우 사용자의 의도에 따라 학습할 수 있도록 각 가중치를 부여하는 속성가중치 알고리즘을 제안한다. 또한 사용자가 의도한 정보를 이용하여 속성간의 가장 최적화 된 가중치를 찾아주며, Cramer's $V^2$함수를 적합도 함수로 하는 유전자 알고리즘을 사용한다. 알고리즘의 타당성을 검증하기 위해 전자상거래상의 실험 데이터와 몇 가지 벤치마크 데이터를 이용하여 본 논문의 타당성을 보인다.

  • PDF

Technology Development Strategy for Spatial Information Linkage of Public Data Portal Attribute Data (공공데이터포털 속성데이터의 공간정보 연계를 위한 기술개발 전략)

  • Min, Kyung-Ju;Lee, Sung-Hun;Yu, Seon-Cheol;Ahn, Jong-Wook
    • Journal of Cadastre & Land InformatiX
    • /
    • v.53 no.2
    • /
    • pp.107-122
    • /
    • 2023
  • The demand for spatial information in the era of the 4th Industrial Revolution is expanding Additionally, interest in attribute data related to geography or location is increasing. In the field of spatial information, spatial information policies and services tailored to the public can be provided through linkage and integration with new attribute data, and these data are resources for this purpose. In order to meet this expanding and diverse demand for spatial information utilization, it is necessary to develop technologies for linking and utilizing various attribute information such as public data. In this study, we aim to present a technology development strategy for linking and integrating attribute data and spatial information through a review of theories related to data linkage and integration, the current status of data on public data portals, and existing prior research. As a result, it was suggested that the data identifier of the attribute data to be linked should be used to develop linkage technology between spatial information and attribute data, and an attribute data linkage process that can be used when designing a prototype for technology development was presented.

A Study on Elicitation of the Attribute for Procedural Method (절차적인 방법에 의한 속성 도출에 관한 연구)

  • Chang, Wei;Yeo, Jeongmo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.624-627
    • /
    • 2014
  • 현재의 기업 정보시스템의 골격을 정의한 설계도라고 할 수 있는 데이터 모델은 정밀하게 작성되어야 한다. 데이터 모델의 핵심요소로는 엔터티, 속성, 관계가 있으며, 이 중에서도 속성은 실질적인 정보를 담는 가장 기본적인 단위라 할 수 있으므로 모든 정보의 근원이라 할 수 있을 것이다. 그래서 속성들을 제대로 도출하지 못하면 데이터 모델 전체가 무의미하게 될 수 있다. 기존의 속성을 도출하는 방법은 설계자의 경험에 많이 의존하고 실질적인 절차가 존재하지 않아 실무경험이 없는 초보자가 도출하기에는 너무나 어려운 것이 현실이다. 이를 해결하는데 도움이 될 수 있도록 본 논문에서는 데이터 모델 설계의 한 과정으로서, 선행연구에서 제시한 업무중심 엔터티 도출 방법을 이용하여 엔터티가 완전히 도출되어 있다고 가정하고 미리 도출되어 있는 엔터티를 바탕으로 속성을 도출하는 절차를 제안한다. 그리고 데이터 모델링 경험이 많이 없는 학부생 및 대학원생을 대상으로 본 논문에서 제안한 절차를 적용하도록 하였다. 기존에 속성을 도출하는 방법이 실질적으로 존재하지 않기 때문에 학생들이 도출한 속성과 전문 IT 컨설턴트로 멘토가 도출한 모법 답안 간의 유사도검사를 하였다. 최종 유사도 검사를 통하여 전문 IT 컨설턴트인 멘토가 도출한 모법 답안에 상당히 근접하게 속성을 도출할 수 있다는 것을 확인하였다. 따라서 본 논문에서 제안한 절차를 활용한다면 데이터모델링에 실무경험이 없는 초보자나 미숙련자가 적용하여도 속성을 도출할 수 있음을 보였다. 제안 절차에서 도출된 결과를 이용하여 데이터 모델 설계의 이후 과정인 관계도출 과정을 진행할 수 있을 것으로 기대한다.

A Study on Accuracy Improvement of Intrusion Detection System Based on Data Mining (데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도 향상에 관한 연구)

  • Song Jungsuk;Takakura Hiroki;Okabe Yasuo;Kwon Yong-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.208-210
    • /
    • 2005
  • 공격 방법의 다양화와 지능화에 대응하기 위해 침입탐지시스템(IDS)의 성능도 향상되고 있다. 특히, 데이터 마이닝 기반의 침입탐지시스템은 기존 침입탐지시스템의 많은 문제점을 개선시켰다. 그러나 데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도가 트레이닝 데이터(training data)에 포함된 속성(features)과 선택된 axis 및 reference 속성에 의해 결정됨에도 불구하고 현재의 데이터 마이닝 기반의 침입탐지시스템은 트레이닝 데이터에 포함된 고유의 속성만을 고려하기 때문에 탐지 정확도를 향상시키는 데는 한계가 있다. 따라서 본 논문에서는 데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도를 향상시키기 위하여 기존 데이터 마이닝 기반의 침입탐지시스템이 고려했던 고유의 속성 외에 침입과 밀접하게 관련되고 axis및 reference속성으로도 사용될 수 있는 새로운 속성을 제안한다.

  • PDF

Improving Classification Accuracy for Numerical and Nominal Data using Virtual Examples (가상예제를 이용한 수치 및 범주 속성 데이터의 분류 성능 향상)

  • Lee, Yu-Jung;Kang, Jae-Ho;Kang, Byoung-Ho;Ryu, Kwang-Ryel
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주속성 및 수치속성 데이터에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이터를 대상으로 한 반면 본 연구에서는 범주속성 데이터에 대해서도 가상예제를 적용하여 효과를 확인하였다. 그리고 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 한 기존 연구들과는 달리 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이터와 수치 속성을 포함한 데이터를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

  • PDF

A Method of Grouping Features from Big Data based on Semantic Hierarchy for Accuracy Enhancement (빅데이터 환경에서 학습 정확도 향상을 위한 의미 계층 기반 속성 집단화 기법)

  • Lee, Keonsun;Lee, Keonsoo;Kang, Byeong-G
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.892-894
    • /
    • 2019
  • 빅데이터 기반의 기계학습은 대규모 데이터를 이용하여, 숨겨진 패턴을 찾아내는 학습과정과, 그렇게 찾아낸 패턴을 이용하여 새로운 데이터를 해석하는 추론과정으로 이루어진다. 이 과정을 통해 학습된 패턴은 데이터를 구성하는 속성들과 긴밀한 연관성을 갖고 있다. 학습에 사용된 데이터의 원 데이터를 구성하는 각각의 속성과 추론 결과가 동일한 계층 관계를 갖고 있다면, 모든 속성을 동일하게 처리할 수 있지만, 그렇지 않은 경우, 속성들 사이의 계층 정보를 고려하는 것이, 추론 결과의 정확도를 높일 수 있다. 이에 본 연구에서는 속성들 사이의 계층 관계를 고려한 추론 기법을 제안하고, 사례연구를 통해 제안 방법을 실제 상황에 적용하는 방법을 제시한다.

Discretization of continuous-valued attributes considering data distribution (데이터 분포를 고려한 연속 값 속성의 이산화)

  • 이상훈;박정은;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.05a
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

Genetic Algorithm Based Attribute Value Taxonomy Generation for Learning Classifiers with Missing Data (유전자 알고리즘 기반의 불완전 데이터 학습을 위한 속성값계층구조의 생성)

  • Joo Jin-U;Yang Ji-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.133-138
    • /
    • 2006
  • Learning with Attribute Value Taxonomies (AVT) has shown that it is possible to construct accurate, compact and robust classifiers from a partially missing dataset (dataset that contains attribute values specified with different level of precision). Yet, in many cases AVTs are generated from experts or people with specialized knowledge in their domain. Unfortunately these user-provided AVTs can be time-consuming to construct and misguided during the AVT building process. Moreover experts are occasionally unavailable to provide an AVT for a particular domain. Against these backgrounds, this paper introduces an AVT generating method called GA-AVT-Learner, which finds a near optimal AVT with a given training dataset using a genetic algorithm. This paper conducted experiments generating AVTs through GA-AVT-Learner with a variety of real world datasets. We compared these AVTs with other types of AVTs such as HAC-AVTs and user-provided AVTs. Through the experiments we have proved that GA-AVT-Learner provides AVTs that yield more accurate and compact classifiers and improve performance in learning missing data.

Finding Association Rules among Real-valued Items using Fuzzy Sets (퍼지집합을 이용한 실수값 속성 사이에 존재하는 연관규칙의 발견)

  • 이지형;이광형
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1996.10a
    • /
    • pp.115-118
    • /
    • 1996
  • 연관규칙(Association Rule)은 데이터 베이스에 존재하는 속성들 사이의 관계를 기술하는 것으로, 간단하면서도 사용자에게 많은 정보를 줄 수 있다. 그러나, 지금까지는 이진 데이터베이스에 존재하는 연관규칙의 발견에 대해서 주로 연구되어 왔으며, 실수값 속성을 갖는 데이터에 관한 연구는 미비하였다. 본 논문에서는 퍼지집합을 이용하여 실수값 사이에 존재하는 연관규칙을 기술하고, 그것을 찾아내는 방법을 제시한다. 제시하는 방법은 사용자에 의해서 정의된 언어항을 이용하여, 실수값 속성을 가진 데이터를 이진 데이터로 재구성한다. 그리고 재구성된 이진 데이터에 기존의 연관규칙 발견 방법을 이용하여 연관규칙을 찾아내고, 찾아진 연관규칙을 정의된 언어항을 이용하여 다시 기술한다.

  • PDF

Adaptive Euclidean Distance Measure Method for Numeric Data Distribution (수치 데이터 분포에 적응적 유클리드 거리 측정 기법)

  • Choi, You-Hwan;Joo, Bum-Joon;Jung, Sung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.67-69
    • /
    • 2011
  • 데이터의 군집 분석에서 두 개의 서로 다른 데이터에 대한 유사도(거리)를 어떻게 정의하는가는 매우 중요한 문제이다. 수치속성에 대한 거리 측정 방법에는 다양한 기법이 존재하지만 각 속성의 크기와 범위가 서로 크게 다를 경우 이들을 동일한 인자로 여기고 거리 측정을 하게 되면 논리적인 오류를 범할 수 있다. 기존의 군집 분석 연구에서 사용된 거리 측정 기법은 데이터의 정규화 과정을 통해 이 문제를 해결하려고 노력하지만 일반적인 정규화는 이상치의 존재나 데이터의 편중된 분포 등의 이유로 속성별 거리가 왜곡될 수 있다. 본 논문은 이러한 문제점을 해결하기 위해 정규화된 데이터에서 각 속성의 비중을 고려한 적응적 유클리드 거리 측정 기법(AEDM: Adaptive Euclidean Distance Measure)을 제안한다. AEDM은 유클리드 거리를 기반으로 정규화 된 데이터의 형태에 따라 가중치를 부여하여 데이터의 분포에 관계없이 각 속성간의 거리를 충분히 반영하기 때문에 더욱 정확한 군집 분석을 가능하게 한다.