• 제목/요약/키워드: 연관성 규칙

검색결과 391건 처리시간 0.023초

상대적 규칙 정확도의 균형화에 의한 연관성 측도의 개발 (Development of association rule threshold by balancing of relative rule accuracy)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1345-1352
    • /
    • 2014
  • 데이터마이닝 기법 중에서 연관성 규칙은 연관성 평가 기준을 기반으로 하여 데이터베이스에 포함되어 있는 항목들 간의 관련성을 탐색하는 기법이다. 일반적인 연관성 규칙 기법과는 달리 역의 연관성 규칙은 하나의 항목집합이 발생하지 않으면 다른 항목집합도 발생하지 않는다는 규칙을 찾아내는 것이다. 이러한 역의 연관성 규칙을 일반적인 연관성 규칙과 함께 생성하면 기업체에서 특정 제품을 판매하기 위해서는 그 제품만의 마케팅뿐만 아니라 더 나아가 어떤 제품의 마케팅이 필요한 지에 대한 정보를 파악할 수 있다. 이를 위해 본 논문에서는 이러한 두 종류의 연관성 규칙에 적용 가능한 균형화된 기여 상대적 규칙 정확도를 연관성 평가 기준으로 제안하고자 한다. 또한 Piatetsky-Shapiro (1991)가 제안한 흥미도 측도가 가져야 할 조건들을 점검한 후, 예제를 통하여 제안된 측도와 연관성 규칙에 적용 가능한 의학진단분야의 평가 측도들의 유용성을 비교하였다. 그 결과, 기여 상대적 정확도와 역의 기여 상대적 정확도의 크기가 다르게 나타나면 연관성의 정도를 명확하게 설명하기가 어려우므로 이들 두 측도를 동시에 고려한 균형화된 기여 상대적 규칙 정확도를 이용하는 것이 가장 바람직하다는 사실을 확인하였다.

음의 순수 연관성 규칙 평가 기준의 제안 (Proposition of negatively pure association rule threshold)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.179-188
    • /
    • 2011
  • 연관성 규칙은 방대한 데이터베이스에서 항목간의 관계를 명확히 수치화 함으로써 그들간의 관련성을 표시해주는 기법으로 데이터 마이닝 기법들 중에서 가장 많이 활용되고 있다. 어느 항목이 발생하면 다른 항목도 발생한다는 규칙을 발견하기 위한 기법이 연관성 규칙이라면 음의 연관성 규칙 마이닝은 어느 항목이 발생하면 다른 항목도 발생하지 않는다는 규칙을 찾아내는 기법이다. 기존의 연관성 규칙에 음의 연관성 규칙을 추가하게 되면 어떤 제품을 판매하기 위해서는 그 제품만 마케팅 하는 것 뿐 만 아니라 더 나아가 그 제품이 아닌 어느 제품을 마케팅 하는 것이 필요한지를 판단할 수 있다. 본 논문에서는 음의 연관성 규칙의 단점을 보완할 수 있는 음의 순수 연관성 규칙의 측도들을 제시하고 흥미도 측도가 가져야 할 조건들을 조사하였으며, 예제 데이터를 활용하여 음의 순수 연관성 규칙의 유용성에 대해 살펴보았다.

주변 조건부 변수에 의한 연관성 규칙 생성에 관한 연구 (A study on association rule creation by marginally conditional variables)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.121-129
    • /
    • 2012
  • 연관성규칙은 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내는 기법이다. 현재 연관성규칙의 효율성을 개선하기 위하여 많은 연구자들에 의하여 제약 기반 연관성규칙의 연구가 활발하게 진행되고 있다. 연관성규칙 생성 시, 종종 많은 규칙들을 발견할 수 있다. 이들 규칙 중에서 변수들 간에 우연히 관련성이 높게 나타나는 경우가 존재할 수 있고 주변 조건부 변수 (매개변수, 외적변수)에 의하여 직접적인 관련성이 없는 규칙을 발견할 수도 있으며, 그 규칙은 간접적 해석만 가능하므로 의미가 없는 것으로 판단 할 수 있다. 이에 본 연구에서는 연관성 규칙에서 주변 조건부 변수를 고려한 연관성 규칙 생성에 관하여 연구하고자 하며, 이를 실례를 통하여 고찰하였다. 본 연구의 결과를 적용함으로써 연관성 규칙에서 의미 없는 규칙을 찾을 수 있으며, 변수들 간의 관련성을 보다 정확하고 명확하게 이해할 수 있을 것이다.

연관성규칙에서 의미 없는 규칙의 발견에 관한 연구 (A study on insignificant rules discovery in association rule mining)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권1호
    • /
    • pp.81-88
    • /
    • 2011
  • 연관성규칙은 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내는 기법으로 둘 또는 그 이상의 품목들 사이의 지지도, 신뢰도, 향상도를 바탕으로 관련성 여부를 측정한다. 연관성규칙에서는 일반적으로 사용하는 연관성규칙 이외에 연관성규칙의 효율성을 개선하기 위하여 여러 가지 제약기반 연관성규칙의 연구가 활발하게 진행되고 있다. 연관성규칙 생성 시, 종종 많은 규칙들을 발견할 수 있다. 이는 변수들 간에 우연히 관련성이 높게 나타나는 경우가 존재할 수 있고 매개변수에 의하여 직접적인 관련성이 없는 규칙을 발견할 수도 있다. 이에 본 논문에서는 연관성규칙에서 매개변수에 의한 의미 없는 규칙의 발견에 관하여 연구하고자 한다. 본 연구 결과는 연관성 규칙에서 생성된 규칙에 대한 관련성을 보다 정확하게 이해할 수 있도록 함으로써 결과의 해석을 보다 명확하게 할 수 있다.

오차를 허용하는 주기적 연관규칙 탐사를 통한 오차의 경향성에 관한 연구 (Discovery Of Cyclic Association Rule With Loose Cycle and Error Cycle over Loose Cycle)

  • 배수균;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.317-324
    • /
    • 2000
  • 주기적인 연관규칙은 타겟데이터베이스를 일정 단위시간으로 나누었을 때 연관규칙이 만족하는 구간이 일정한 주기마다 발생하는 패턴을 탐색하는 방법이다. 하지만, 이 방법은 엄격한 주기를 가지도록 하여 실제 데이터에 그대로 적용하기가 어려웠다. 예를 들이 편의점 데이터에서 매일 오전 7시-8시 사이에 주기적으로 발생하는 연관규칙을 발견할 때, 이러한 연관규칙을 주기적인 연관규칙이라고 한다. 하지만, 실제 데이터에서는 날씨와 같이 사람의 행동에 영향을 미치는 다른 요인 때문에 항상 일정한 주기를 가지는 연관규칙을 찾기는 어렵다. 본 논문에서는 주기가 일정하지 않은 연관규칙을 찾기 위해서 연관규칙의 주기성을 허용 오차를 포함하며 재정의하고, 오차를 허용하기 위한 탐색 알고리즘을 보완하였다. 반면에, 오차를 허용함으로써 오차를 허용하지 않는 경우보다 더 많은 주기성을 찾을 수 있을 뿐만 아니라, 동일한 주기를 가지지만 오프셋이 다른 여러 개의 비슷한 주기가지 찾게 되어 사용자가 의미 있는 연관규칙을 찾는데 방해가 된다. 본 논문에서는 이를 해결하기 위해서 오차를 허용하는 주기적 연관규칙의 오차의 정도를 측정하기 위한 단위로 집중도(intensity)와 경향성(tendency)을 제안한다. 주기적 연관규칙이 매 주기마다 정확한 세그먼트에 나타나는 정도를 나타내는 집중도와, 최소 평균오차를 의미하는 경향성을 이용하여 유사한 주기들 중에서 대표주기만을 찾을 수 있도록 한다. 또한, 오차를 허용하는 주기적 연관규칙에서 오차가 주로 발생하는 패턴을 분석함으로써 고객들의 수요 경향성을 더 잘 파악할 수 있다. 예를 들어, 평소에는 매일 오진 7시∼8시에 나타나던 연관성이 지각하는 사람들이 같은 월요일에는 1시간 늦은 8시∼9시에 나타난다는 오타 정보까지 파악할 수 있다. 이러한 월요일마다 1시간 늦게 나타나는 오차의 경향성을 나타내는 오차 주기(error cyc1e)를 이용함으로써 고객들의 수요의 경향성을 좀 더 세밀한 부분까지 파악할 수 있게 해 준다.

  • PDF

항목 알에프엠 점수를 고려한 가중 연관성 규칙 (Weighted association rules considering item RFM scores)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1147-1154
    • /
    • 2010
  • 데이터 마이닝의 중요 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 이를 위해 필요한 기법인 연관성 규칙은 각 항목들 간의 관련성을 찾아내는 데 활용되며, 지지도, 신뢰도, 향상도 등의 연관성 측도를 기반으로 두 항목간의 관계를 수치화함으로써 의미 있는 규칙을 찾아 낸다. 본 논문에서는 수익성이 가장 높은 고객을 찾기 위해 고객 정보를 이용하는 기법으로 가장 널리 사용되어온 방법인 알에프엠 기법을 항목에 적용하여 항목의 알에프엠 점수를 항목의 중요도로 고려하여 가중 연관성 규칙의 평가기준을 제시하였다. 모의실험에서는 일반적인 연관성 규칙과 알에프엠 점수를 가중치로 한 가중 연관성 규칙의 유용성을 비교하였다.

음의 연관성 규칙 생성을 위한 음의 기여 순수 신뢰도의 제안 (Negatively attributable and pure confidence for generation of negative association rules)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.939-948
    • /
    • 2012
  • 데이터 마이닝 기법들 중에서 가장 많이 활용되고 있는 연관성 규칙은 방대한 데이터베이스에서 항목간의 관계를 흥미도 측도에 의해 명확히 수치화함으로써 그들간의 관련성을 표시해주는 기법이다. 양의 연관성 규칙 마이닝이 임의의 한 항목이 발생하면 다른 항목도 발생한다는 규칙을 생성하기 위한 기법인 반면에, 음의 연관성 규칙은 어느 항목이 발생하면 다른 항목은 발생하지 않는다는 규칙을 찾아내는 기법이다. 음의 연관성 규칙은 양의 연관성 규칙의 활용과 마찬가지로 고객의 구매 경향 및 마케팅 정책을 제시할 수 있고 교차판매와 매장 진열 등과 같이 타겟 마케팅에 활용 가능하다. 양의 연관성 규칙에 음의 연관성 규칙을 추가하게 되면 어떤 제품을 판매하기 위해서는 그 제품만 마케팅 하는 것뿐만 아니라 더 나아가 그 제품이 아닌 어느 제품을 마케팅 하는것이 필요한지를 판단할 수 있다. 본 논문에서는 기존의 음의 신뢰도의 단점을 보완할 수 있는 음의 기여 순수 신뢰도를 제안한 후, 이에 대해 흥미도 측도가 가져야 할 조건들을 조사하였으며, 예제 데이터를 활용하여 음의 기여 순수 신뢰도의 유용성을 고찰하였다.

관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준 (Association rule thresholds considering the number of possible rules of interest items)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.717-725
    • /
    • 2012
  • 데이터 마이닝은 데이터베이스로부터 쉽게 드러나지 않는 의미 있는 정보를 생성하는 기법이다. 이 중에서 연관성 규칙은 일반적으로 발생 여부를 나타내는 자료를 이용하여 지지도, 신뢰도, 향상도 등을 수치화함으로써 항목들 간의 관련성을 나타낸다. 기존의 연관성 규칙은 발생 빈도의 크기를 고려하지 않음으로써 정보 손실에 의한 오류를 범할 수 있다. 이를 위해 본 논문에서는 발생 가능한 규칙의 수를 고려한 연관성 평가 기준들을 제안하고 예제를 통하여 기존 연구와 비교한 후, 본 논문에서 제안한 연관성 평가 기준의 유용성을 살펴보았다. 실제 데이터를 통하여 분석한 결과, 기존의 연관성 규칙 평가 기준은 관심항목 수와 트랜잭션의 수를 2배로 하여도 지지도와 신뢰도, 향상도의 값이 동일한 반면에 본 논문에서 제안한 평가 기준은 발생 가능한 규칙의 수를 고려하기 때문에 각각의 평가 기준의 값들이 트랜잭션의 수에 따라 다르다는 것을 알 수 있었다. 또한 본 논문에서 제안하는 평가 기준이 기존의 연관성 규칙 평가 기준에 비해 좀 더 정확한 정보를 제공하는 것을 알 수 있다. 특히 본 논문에서 제안한 신뢰도의 범위가 기존 연관성 평가 기준에 비해 크므로 좀 더 비교 가능한 정보를 제공하는 동시에 향상도의 비교를 용이하게 한다고 할 수 있다.

발생빈도를 고려한 연관성분석 연구 (A study of association rule by considering the frequency)

  • 임제순;이경준;조영석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1061-1069
    • /
    • 2010
  • 데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.

인과적 연관성 규칙 평가 기준의 제안 (Proposition of causal association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1189-1197
    • /
    • 2013
  • 연관성 규칙 마이닝은 지지도, 신뢰도, 향상도 등의 흥미도 측도를 기반으로 하여 대용량 데이터베이스를 구성하고 있는 항목들 간의 관련성을 찾아내는 기법이다. 이 기법은 기업의 의사결정 문제, 유통업에서의 교차판매, 고객관리 등 현업에서 많이 활용되고는 있으나, 이러한 기본적인 연관성 평가기준만으로는 두 항목 간의 인과관계를 설명할 수 없다. 본 논문에서는 이러한 문제를 해결하기 위해 인과적 연관성 규칙을 제안하는 동시에, 고려하는 평가 기준들이 흥미도 측도의 조건을 충족하는지의 여부를 점검하였다. 본 논문에서 제안한 인과적 향상도는 세 가지 조건 모두를 만족하는 것으로 입증되었다. 인과적 지지도와 인과적 신뢰도는 동시 발생 확률의 값에 따라 단조 증가하는 조건과 각 항목의 주변 확률의 값에 따라 단조 감소하는 조건은 만족하였다. 반면에 두 항목이 독립이면 연관성 평가기준의 값이 1이 되는 조건에 대해서는 기존의 지지도와 신뢰도와 같이 이 조건이 충족되지 않았다. 또한 예제를 통해 기존의 연관성 평가 기준과 인과적 연관성 평가 기준을 비교해 본 결과, 기존의 평가측도인 지지도와 신뢰도를 기준으로 연관성 규칙 생성 여부를 판단했을 때 탈락되는 규칙도 인과적 평가 기준인 인과적 지지도와 인과적 신뢰도를 이용하여 판단하게 되면 연관성 규칙으로 채택할 수 있다는 사실을 발견하였다.