• 제목/요약/키워드: 연관성 측도

검색결과 47건 처리시간 0.018초

퍼지 개념 계층을 도입한 일반화된 연관 규칙 마이닝 (Mining Generalized Association Rules Using Fuzzy Concept Hierarchy)

  • 손봉기;김동호;이건명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.84-86
    • /
    • 2000
  • 연관 규칙 마이닝 과정에 참조되는 일반 개념 계층은 개념간의 명확한 관계만을 표현한다. 실제로는 개념 사이의 관계가 애매한 경우가 많다. 이 논문에서는 개념간의 애매한 관계까지 반영할 수 있는 퍼지 개념 계층을 이용하여 일반화된 연관 규칙을 마이닝하는 방법을 제안한다. 퍼지 개념 계층에서의 하위 개념을 상위 개념으로 적절하게 반영하는 방법과 마이닝된 연관 규칙에서 중복되는 규칙의 가지치기(pruning)에 사용되는 측도를 소개한다. 또한 퍼지 개념 계층을 이용한 일반화된 연관 규칙 마이닝 방법의 응용성을 보이기 위해 실험 과정과 결과를 보인다.

  • PDF

연관성 규칙에서 활용 가능한 대칭적 기여 순수 신뢰도의 개발 (The development of symmetrically and attributably pure confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권3호
    • /
    • pp.601-609
    • /
    • 2014
  • 빅 데이터 분석을 위한 데이터마이닝 기법 중의 하나인 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 연관성 평가기준을 기반으로 하여 항목집합들 간의 관련성을 찾아내는 데 활용되고 있다. 기본적인 연관성 평가기준들 중에서 가장 많이 활용되고 있는 신뢰도는 연관성의 방향 (음 또는 양)을 알 수가 없다는 단점을 가지고 있다. 이를 보완하기 위한 측도로 순수 신뢰도 기여 순수 신뢰도가 제안되었으나, 이는 전항과 후항이 바뀌면 그 값이 달라지는 문제점이 있다. 본 논문에서는 기존의 신뢰도와 순수 신뢰도, 그리고 기여 순수 신뢰도의 단점을 보완한 연관성 평가 기준으로 네 가지의 대칭적 기여 순수 신뢰도를 제안하였다. 또한 신뢰도와 기여 순수 신뢰도, 그리고 네 가지의 대칭적 기여 순수 신뢰도를 예제를 통하여 비교 분석하였다. 그 결과, 대칭적 기여 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 파악할 수 있는 동시에 전항과 후항이 바뀌어도 그 값이 변하지 않으므로 연관성 규칙을 생성하는 데 매우 유익한 평가 기준이라는 사실을 확인할 수 있었다. 이들 네 가지 대칭적 기여 순수 신뢰도 중에서는 두 종류의 기여 순수 신뢰도의 분자의 합과 분모의 합의 비로 나타나는 측도가 가장 바람직한 것으로 예제를 통하여 확인하였다.

항목 알에프엠 점수를 고려한 가중 연관성 규칙 (Weighted association rules considering item RFM scores)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1147-1154
    • /
    • 2010
  • 데이터 마이닝의 중요 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 이를 위해 필요한 기법인 연관성 규칙은 각 항목들 간의 관련성을 찾아내는 데 활용되며, 지지도, 신뢰도, 향상도 등의 연관성 측도를 기반으로 두 항목간의 관계를 수치화함으로써 의미 있는 규칙을 찾아 낸다. 본 논문에서는 수익성이 가장 높은 고객을 찾기 위해 고객 정보를 이용하는 기법으로 가장 널리 사용되어온 방법인 알에프엠 기법을 항목에 적용하여 항목의 알에프엠 점수를 항목의 중요도로 고려하여 가중 연관성 규칙의 평가기준을 제시하였다. 모의실험에서는 일반적인 연관성 규칙과 알에프엠 점수를 가중치로 한 가중 연관성 규칙의 유용성을 비교하였다.

인터넷상에서의 범주형 자료분석 시스템 개발 (Categorical Date Analysis System in the internet)

  • 홍종선;김동욱;오민권
    • 응용통계연구
    • /
    • 제12권1호
    • /
    • pp.83-95
    • /
    • 1999
  • 본 논문의 목적은 인터넷에서 범주형 자료분석에 대한 전문적인 지식이 없는 일반 분석자들에게 보다 쉽고, 간편하게 다룰 수 있는 범주형 자료 분석 시스템을 제공하는것이다. 이 분석 시스템은 크게 세 가지 측면으로 설계하여 구현하였다. 첫째, 범주형 자료에 대한 탐색적 자료분석을 위하여 세 가지 종류의 히스토그램을 제공한다. 둘째, 범주형 변수들간에 존재하는 연관성을 측정하기 위한 여러 연관성 측도들을 제공한다. 특히, 현재 많이 사용되는 통계 패키지들에서 제공하지 못하는 모자익 그림과 연관 그림을 동적 그래픽스로 구현하여 연관성을 측정하거나 모형을 설정하는데 유용한 정보를 얻을 수 있도록 하였다. 셋째, 대수선형모형에 대한 분석을 통해 사용자가 가장 잘 적합된 대수선형모형을 선택할 수 있게 하였다.

  • PDF

연관 규칙 마이닝에서의 평가기준 표준화 방안 (Standardization for basic association measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.891-899
    • /
    • 2010
  • 연관성 규칙은 방대한 양의 데이터베이스 속에 있는 각 항목들 간의 관련성을 수치화함으로써 두개 이상의 항목간의 관련성을 나타내는 기법으로 데이터 마이닝 분야에서 가장 많이 활용되고 있다. 의미 있는 연관성 규칙을 탐색하기 위한 가장 기본적인 평가기준에는 지지도, 신뢰도, 향상도 등이 있으며, 이들을 이용하여 연관성 규칙을 생성하게 된다. 이 때 사용되는 향상도는 그 값의 범위가 지지도나 신뢰도와는 다르므로 지지도나 신뢰도의 범위를 동일하도록 하기 위해 표준화할 필요가 있으며, 지지도와 신뢰도도 하나의 후항변수에 대해 여러 개의 전항변수들이 있는 경우 이들 중 어느 것이 후항변수와 가장 연관성이 있는지를 객관적으로 비교하기 위해서도 표준화가 필요하다. 본 논문에서는 각 항목집합의 주변 발생확률을 고려하여 객관적이고도 정확한 연관성 정도를 파악하기 위해 연관성 평가기준을 표준화하는 방안에 대해 연구하고자 한다. 또한 흥미도 측도의 세 가지 조건의 충족 여부를 점검해 본 후, 구체적인 예제를 통하여 기존의 연관성 평가기준과 표준화된 연관성 평가기준을 비교 분석하고자 한다.

연관규칙 마이닝에서 랜덤화를 이용한 프라이버시 보호 기법에 관한 연구 (On the Privacy Preserving Mining Association Rules by using Randomization)

  • 강주성;조성훈;이옥연;홍도원
    • 정보처리학회논문지C
    • /
    • 제14C권5호
    • /
    • pp.439-452
    • /
    • 2007
  • 본 논문에서는 랜덤화 기법을 이용한 프라이버시 보존형 데이터 마이닝(PPDM) 기술에 대하여 논한다. 계산 효율성 때문에 실용화 되지 못하고 있는 안전한 다자간 계산(SMC) 기반 PPDM은 현재의 컴퓨팅 환경에서는 실용성 없는 다분히 이론적인 것이다. 그래서 우리는 실용적인 PPDM 기술에 집중하여 가장 널리 사용되고 있는 랜덤화 기법에 대한 연구 결과를 소개한다. 특히, 랜덤화를 이용한 실용적인 PPDM 분야에서 가장 중요한 프라이버시 측도 개념을 심도 있게 분석하였으며, 연관규칙 마이닝에서의 프라이버시 보호 기술에 초점을 맞춘다. Evfimievski 등이 제안한 select-a-size 범주에 속하는 새로운 랜덤화 작용소인 binomial-selector 개념을 제안하고, 적절한 파라미터를 찾기 위한 시뮬레이션 결과를 제시한다. 기존의 cut-and-paste 랜덤화 작용소는 아이템 집합이 큰 경우에는 매우 비효율적이며 복원된 지지도의 분산이 크다는 단점을 지니고 있다. 여기에서 제안하는 binomial-selector 랜덤화 작용소는 cut-and-paste 작용소가 갖는 단점들을 보완한다.

다차원 임의 분할표 생성 (Generating Multidimensional Random Tables)

  • 최현집
    • 응용통계연구
    • /
    • 제19권3호
    • /
    • pp.545-554
    • /
    • 2006
  • 로그선형모형에 기반을 둔 다차원 임의 분할표를 생성하는 방법을 제안하였다. 이를 위해 Lee(1997)가 제안한 선형 결합에 의한 결합분포 생성 방법을 적용하였으며, Pearson 통계량을 연관성 측도로 사용하는 것을 제안하였다. 세 변수가 서로 완전한 연관을 갖는 삼차원 결합분포를 생성할 수 있으므로 본 연구에서 제안한 방법은 사차원 이상 다차원 임의 분할표를 생성하는 문제로 확장될 수 있다.

대규모 분할표 분석 (Analysis of Large Tables)

  • 최현집
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.395-410
    • /
    • 2005
  • 많은 수의 범주형 변수에 의한 대규모 분할표 분석을 위하여 차원축소(collapsibility) 성질을 이용한 분석 방법을 제안하였다. kullback-Leibler의 발산 측도(divergence measure)를 이용한 서로 완전한 연관을 갖는 변수그룹을 결정하는 방법을 제안하였으며, 제안된 방법에 의한 변수그룹은 주변 로그선형모형(marginal log-linear models)에 의하여 변수들간의 연관성을 식별할 수 있다. 제안된 방법의 적용 예로 데이터 마이닝에서 흔히 접할 수 있는 대규모 분할표 자료인 소비자들의 구매행위 분석을 위한 장바구니 자료의 분석 결과를 제시하였다.

K-모드 알고리즘과 ROCK 알고리즘의 개선 (Improvements of K-modes Algorithm and ROCK Algorithm)

  • 김보화;김규성
    • 응용통계연구
    • /
    • 제15권2호
    • /
    • pp.381-393
    • /
    • 2002
  • K-모드(modes) 알고리즘과 락(ROCK) 알고리즘은 대규모 범주형 자료에 적용 가능한 데이터 군집화 방법이다. 이 논문에서는 두 알고리즘을 고찰하였으며, 두 알고리즘의 단점을 보완한 개선된 데이터 군집화 알고리즘을 제안하였다. 그리고 실제자료에 제안된 방법을 적용한 모의실험을 실시하여 제안된 방법이 데이터 군집화의 성능을 향상시킬 수 있음을 보였다.

다차원척도법과 거리분석을 활용한 그룹화된 비유사성에 대한 비모수적 접근법 (Non-parametric approach for the grouped dissimilarities using the multidimensional scaling and analysis of distance)

  • 남승찬;최용석
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.567-578
    • /
    • 2017
  • 일반적으로 그룹화된 다변량자료는 다변량 분산분석(multivariate analysis of variance; MANOVA)을 사용하여 그룹 간 차이를 검정할 수 있다. 그러나 만약 다변량 분산분석의 기본적인 가정이 위배되면 이 방법은 적절하지 못하다. 이 경우 다양한 거리로부터 그룹화된 비유사성을 계산한 후 다차원척도법(multidimensional scaling; MDS), 거리분석(analysis of distance; AOD) 그리고 비모수적 기법인 순열검정(permutation test)을 적용하여 문제를 해결할 수 있다. 다차원척도법은 비유사성으로부터 개체들의 좌표를 계산해주며 거리분석은 이 좌표를 활용하여 그룹구조를 파악하는데 유용하다. 특히 비유사성의 측도로 유클리드 거리를 사용하면 거리분석은 다변량 분산분석과 수리적으로 매우 밀접한 연관관계를 맺는다. 따라서 본 연구에서는 그룹화된 비유사성에 다차원척도법과 거리분석을 적용하여 그룹 내와 그룹 간의 구조를 파악하고 순열검정을 위한 새로운 검정통계량을 제안하려 한다. 덧붙여 유클리드 거리를 활용한 비유사성을 통해 거리분석과 다변량 분산분석과의 수리적 연관성을 고찰하고자 한다.