• 제목/요약/키워드: 속성데이터

검색결과 1,594건 처리시간 0.066초

데이터마이닝에서 교사학습에 의한 속성 가중치 최적화 (Supervised Feature Weight Optimization for Data Mining)

  • 강명구;차진호;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.244-246
    • /
    • 2001
  • 최근 군집화와 분류기법이 데이터 마이닝에 중요한 도구로 많은 응용분야에 사용되고 있다. 따라서 이러한 기법을 이용하는데 있어서 각각의 속성의 중요도가 달라 중요하지 않은 속성에 의해 중요한 속성이 왜곡되거나 때로는 마이닝의 결과가 잘못되는 결과를 얻을 수 있으며, 또한 전체 데이터를 사용할 경우 마이닝 과정을 저하시키는 문제로 속성 가중치과 속성선택에 과한 연구가 중요한 연구의 대상이 되고 있다. 최근 연구되고 있는 알고리즘들은 사용자의 의도와는 상관없이 데이터간의 관계에만 의존하여 가중치를 설정하므로 사용자가 마이닝 결과를 쉽게 이해하고 분석할 수 없는 문제점을 안고 있다. 본 논문에서는 클래스 정보가 있는 데이터뿐 아니라 클래스 정보가 없는 데이터를 분석할 경우 사용자의 의도에 따라 학습할 수 있도록 각 가중치를 부여하는 속성가중치 알고리즘을 제안한다. 또한 사용자가 의도한 정보를 이용하여 속성간의 가장 최적화 된 가중치를 찾아주며, Cramer's $V^2$함수를 적합도 함수로 하는 유전자 알고리즘을 사용한다. 알고리즘의 타당성을 검증하기 위해 전자상거래상의 실험 데이터와 몇 가지 벤치마크 데이터를 이용하여 본 논문의 타당성을 보인다.

  • PDF

공공데이터포털 속성데이터의 공간정보 연계를 위한 기술개발 전략 (Technology Development Strategy for Spatial Information Linkage of Public Data Portal Attribute Data)

  • 민경주;이성훈;유선철;안종욱
    • 지적과 국토정보
    • /
    • 제53권2호
    • /
    • pp.107-122
    • /
    • 2023
  • 4차 산업혁명 시대의 공간정보 수요가 확대되고 있으며, 지리 또는 위치와 관련된 속성데이터에 대한 관심이 고조되고 있다. 공간정보 분야에서는 이러한 데이터의 연계·통합을 통해 국민 맞춤형의 공간정보 정책과 서비스를 제공하는 새로운 토대, 즉 자원으로 활용할 수 있게 된다. 이처럼 넓어지고 다양해지는 공간정보 활용수요에 부응하기 위해 공공데이터 등 다양한 속성정보와의 연계·활용 기술의 개발이 필요하다. 본 연구에서는 데이터 연계·통합과 관련한 이론 및 공공데이터포털을 대상으로 한 데이터 현황과 기존 선행연구의 검토를 통해 속성데이터-공간정보의 연계·통합을 위한 기술 개발 전략을 제시하고자 하였다. 결과적으로, 공간정보와 속성데이터 간의 연계 기술개발을 위해 연계 대상이 되는 속성데이터의 데이터 식별자를 활용해야 함을 제안하고, 기술개발의 프로토타입 설계 시에 활용할 수 있는 속성데이터 연계 프로세스를 제시하였다.

절차적인 방법에 의한 속성 도출에 관한 연구 (A Study on Elicitation of the Attribute for Procedural Method)

  • 창위;여정모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.624-627
    • /
    • 2014
  • 현재의 기업 정보시스템의 골격을 정의한 설계도라고 할 수 있는 데이터 모델은 정밀하게 작성되어야 한다. 데이터 모델의 핵심요소로는 엔터티, 속성, 관계가 있으며, 이 중에서도 속성은 실질적인 정보를 담는 가장 기본적인 단위라 할 수 있으므로 모든 정보의 근원이라 할 수 있을 것이다. 그래서 속성들을 제대로 도출하지 못하면 데이터 모델 전체가 무의미하게 될 수 있다. 기존의 속성을 도출하는 방법은 설계자의 경험에 많이 의존하고 실질적인 절차가 존재하지 않아 실무경험이 없는 초보자가 도출하기에는 너무나 어려운 것이 현실이다. 이를 해결하는데 도움이 될 수 있도록 본 논문에서는 데이터 모델 설계의 한 과정으로서, 선행연구에서 제시한 업무중심 엔터티 도출 방법을 이용하여 엔터티가 완전히 도출되어 있다고 가정하고 미리 도출되어 있는 엔터티를 바탕으로 속성을 도출하는 절차를 제안한다. 그리고 데이터 모델링 경험이 많이 없는 학부생 및 대학원생을 대상으로 본 논문에서 제안한 절차를 적용하도록 하였다. 기존에 속성을 도출하는 방법이 실질적으로 존재하지 않기 때문에 학생들이 도출한 속성과 전문 IT 컨설턴트로 멘토가 도출한 모법 답안 간의 유사도검사를 하였다. 최종 유사도 검사를 통하여 전문 IT 컨설턴트인 멘토가 도출한 모법 답안에 상당히 근접하게 속성을 도출할 수 있다는 것을 확인하였다. 따라서 본 논문에서 제안한 절차를 활용한다면 데이터모델링에 실무경험이 없는 초보자나 미숙련자가 적용하여도 속성을 도출할 수 있음을 보였다. 제안 절차에서 도출된 결과를 이용하여 데이터 모델 설계의 이후 과정인 관계도출 과정을 진행할 수 있을 것으로 기대한다.

데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도 향상에 관한 연구 (A Study on Accuracy Improvement of Intrusion Detection System Based on Data Mining)

  • 송중석;고창홍희;강부수남;권용진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.208-210
    • /
    • 2005
  • 공격 방법의 다양화와 지능화에 대응하기 위해 침입탐지시스템(IDS)의 성능도 향상되고 있다. 특히, 데이터 마이닝 기반의 침입탐지시스템은 기존 침입탐지시스템의 많은 문제점을 개선시켰다. 그러나 데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도가 트레이닝 데이터(training data)에 포함된 속성(features)과 선택된 axis 및 reference 속성에 의해 결정됨에도 불구하고 현재의 데이터 마이닝 기반의 침입탐지시스템은 트레이닝 데이터에 포함된 고유의 속성만을 고려하기 때문에 탐지 정확도를 향상시키는 데는 한계가 있다. 따라서 본 논문에서는 데이터 마이닝에 기반한 침입탐지시스템의 탐지 정확도를 향상시키기 위하여 기존 데이터 마이닝 기반의 침입탐지시스템이 고려했던 고유의 속성 외에 침입과 밀접하게 관련되고 axis및 reference속성으로도 사용될 수 있는 새로운 속성을 제안한다.

  • PDF

가상예제를 이용한 수치 및 범주 속성 데이터의 분류 성능 향상 (Improving Classification Accuracy for Numerical and Nominal Data using Virtual Examples)

  • 이유정;강재호;강병호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주속성 및 수치속성 데이터에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이터를 대상으로 한 반면 본 연구에서는 범주속성 데이터에 대해서도 가상예제를 적용하여 효과를 확인하였다. 그리고 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 한 기존 연구들과는 달리 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이터와 수치 속성을 포함한 데이터를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

  • PDF

빅데이터 환경에서 학습 정확도 향상을 위한 의미 계층 기반 속성 집단화 기법 (A Method of Grouping Features from Big Data based on Semantic Hierarchy for Accuracy Enhancement)

  • 이건선;이건수;강병권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.892-894
    • /
    • 2019
  • 빅데이터 기반의 기계학습은 대규모 데이터를 이용하여, 숨겨진 패턴을 찾아내는 학습과정과, 그렇게 찾아낸 패턴을 이용하여 새로운 데이터를 해석하는 추론과정으로 이루어진다. 이 과정을 통해 학습된 패턴은 데이터를 구성하는 속성들과 긴밀한 연관성을 갖고 있다. 학습에 사용된 데이터의 원 데이터를 구성하는 각각의 속성과 추론 결과가 동일한 계층 관계를 갖고 있다면, 모든 속성을 동일하게 처리할 수 있지만, 그렇지 않은 경우, 속성들 사이의 계층 정보를 고려하는 것이, 추론 결과의 정확도를 높일 수 있다. 이에 본 연구에서는 속성들 사이의 계층 관계를 고려한 추론 기법을 제안하고, 사례연구를 통해 제안 방법을 실제 상황에 적용하는 방법을 제시한다.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of continuous-valued attributes considering data distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

유전자 알고리즘 기반의 불완전 데이터 학습을 위한 속성값계층구조의 생성 (Genetic Algorithm Based Attribute Value Taxonomy Generation for Learning Classifiers with Missing Data)

  • 주진우;양지훈
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.133-138
    • /
    • 2006
  • 부부분불완전 데이터(Partially Missing Data) 또는 데이터의 속성 값이 표현되는 정도의 깊이가 서로 다른 데이터를 학습하는데 있어서 속성값계층구조(Attribute Value Taxonomy, AVT)를 기반으로 학습하면 기존의 학습 알고리즘을 통해 얻은 결과보다 정확하고 간결한 분류기를 얻을 수 있다는 사실이 밝혀졌다. 하지만 이러한 속성값계층구조는 처음부터 전문가 또는 데이터 도메인에 대한 지식을 가지고 있는 사람에 의해 만들어져 제공되어야 한다. 이러한 수작업을 통한 속성값계층구조를 생성하기 위해서는 많은 시간이 걸리며 생성과정에서 오류가 발생할 수 있다. 또한 데이터 도메인에 따라서 속성값계층구조를 제공할 전문가가 부재한 경우가 있다. 이러한 배경 아래 본 논문은 유전자 알고리즘을 통해 자동으로 근 최적의 속성값계층구조를 생성하는 알고리즘(GA-AVT-Learner)을 제안한다. 본 논문의 실험은 다양한 실제 데이터를 가지고 GA-AVT-Learner로 생성한 속성값계층구조를 다른 속성값계층구조와 비교하였다. 따라서 GA-AVT-Learner에 의해 생성된 속성값계층구조가 정확하고 간결한 분류기를 제공함을 보이고, 불완전데이터 처리에 있어서도 높은 효율을 보임을 실험적으로 증명하였다.

퍼지집합을 이용한 실수값 속성 사이에 존재하는 연관규칙의 발견 (Finding Association Rules among Real-valued Items using Fuzzy Sets)

  • 이지형;이광형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1996년도 추계학술대회 학술발표 논문집
    • /
    • pp.115-118
    • /
    • 1996
  • 연관규칙(Association Rule)은 데이터 베이스에 존재하는 속성들 사이의 관계를 기술하는 것으로, 간단하면서도 사용자에게 많은 정보를 줄 수 있다. 그러나, 지금까지는 이진 데이터베이스에 존재하는 연관규칙의 발견에 대해서 주로 연구되어 왔으며, 실수값 속성을 갖는 데이터에 관한 연구는 미비하였다. 본 논문에서는 퍼지집합을 이용하여 실수값 사이에 존재하는 연관규칙을 기술하고, 그것을 찾아내는 방법을 제시한다. 제시하는 방법은 사용자에 의해서 정의된 언어항을 이용하여, 실수값 속성을 가진 데이터를 이진 데이터로 재구성한다. 그리고 재구성된 이진 데이터에 기존의 연관규칙 발견 방법을 이용하여 연관규칙을 찾아내고, 찾아진 연관규칙을 정의된 언어항을 이용하여 다시 기술한다.

  • PDF

수치 데이터 분포에 적응적 유클리드 거리 측정 기법 (Adaptive Euclidean Distance Measure Method for Numeric Data Distribution)

  • 최유환;조범준;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.67-69
    • /
    • 2011
  • 데이터의 군집 분석에서 두 개의 서로 다른 데이터에 대한 유사도(거리)를 어떻게 정의하는가는 매우 중요한 문제이다. 수치속성에 대한 거리 측정 방법에는 다양한 기법이 존재하지만 각 속성의 크기와 범위가 서로 크게 다를 경우 이들을 동일한 인자로 여기고 거리 측정을 하게 되면 논리적인 오류를 범할 수 있다. 기존의 군집 분석 연구에서 사용된 거리 측정 기법은 데이터의 정규화 과정을 통해 이 문제를 해결하려고 노력하지만 일반적인 정규화는 이상치의 존재나 데이터의 편중된 분포 등의 이유로 속성별 거리가 왜곡될 수 있다. 본 논문은 이러한 문제점을 해결하기 위해 정규화된 데이터에서 각 속성의 비중을 고려한 적응적 유클리드 거리 측정 기법(AEDM: Adaptive Euclidean Distance Measure)을 제안한다. AEDM은 유클리드 거리를 기반으로 정규화 된 데이터의 형태에 따라 가중치를 부여하여 데이터의 분포에 관계없이 각 속성간의 거리를 충분히 반영하기 때문에 더욱 정확한 군집 분석을 가능하게 한다.