• 제목/요약/키워드: 연관성규칙발견

검색결과 62건 처리시간 0.025초

수량적 속성과 시계열 분석에 의한 연관규칙 탐사 (Discovery of Association Rules Based on Data of Quantitative Attribute and Time Series)

  • 양신모;정광호;김진수;최성용;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.175-177
    • /
    • 2003
  • 연관규칙은 데이터 안에 존재하는 항목들간의 종속 관계를 찾아내는 것이다. 기존의 연구에서는 연관규칙 탐사 과정에서 발견항목 자체에만 관심을 두고 연구되어 왔다. 즉, 연관규칙 생성을 위한 후보 항목은 수량을 배제한 항목 대 수량비가 1:1인 상태에서 규칙을 발견하는 연구였다. 이것은 항목의 구매 수량에 관계없이 같은 가중치로 규칙을 발견하는 문제점을 갖고 있다. 두 번째 문제점은 연관규칙은 시간적 연장선상에서 발견되는 규칙이라 할 수 있다. 즉, 규칙을 발견하는 과정에서 모든 자료를 동일한 시간적 가중치를 두어 취급하는 것이다. 본 논문에서는 각각의 아이템을 (아이템, 수량)의 묶음 단위로 후보항목을 만들어 수량적 속성이 포함된 아이템 대 수량 비 1:n의 관계에서 규칙을 발견하는 방법을 제안한다. 또한 과거의 자료들을 이용하여 예측할 때 모든 자료를 동일하게 취급하기보다는 최근의 자료에 더 큰 비중을 주는 예측법을 사용하여 연관규칙 발견의 신뢰성을 높인다. 성능평가는 기존의 알고리즘과 비교하여 제안한 알고리즘의 성능향상 및 타당성을 보인다.

  • PDF

연관성규칙에서 의미 없는 규칙의 발견에 관한 연구 (A study on insignificant rules discovery in association rule mining)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권1호
    • /
    • pp.81-88
    • /
    • 2011
  • 연관성규칙은 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내는 기법으로 둘 또는 그 이상의 품목들 사이의 지지도, 신뢰도, 향상도를 바탕으로 관련성 여부를 측정한다. 연관성규칙에서는 일반적으로 사용하는 연관성규칙 이외에 연관성규칙의 효율성을 개선하기 위하여 여러 가지 제약기반 연관성규칙의 연구가 활발하게 진행되고 있다. 연관성규칙 생성 시, 종종 많은 규칙들을 발견할 수 있다. 이는 변수들 간에 우연히 관련성이 높게 나타나는 경우가 존재할 수 있고 매개변수에 의하여 직접적인 관련성이 없는 규칙을 발견할 수도 있다. 이에 본 논문에서는 연관성규칙에서 매개변수에 의한 의미 없는 규칙의 발견에 관하여 연구하고자 한다. 본 연구 결과는 연관성 규칙에서 생성된 규칙에 대한 관련성을 보다 정확하게 이해할 수 있도록 함으로써 결과의 해석을 보다 명확하게 할 수 있다.

주변 조건부 변수에 의한 연관성 규칙 생성에 관한 연구 (A study on association rule creation by marginally conditional variables)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.121-129
    • /
    • 2012
  • 연관성규칙은 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내는 기법이다. 현재 연관성규칙의 효율성을 개선하기 위하여 많은 연구자들에 의하여 제약 기반 연관성규칙의 연구가 활발하게 진행되고 있다. 연관성규칙 생성 시, 종종 많은 규칙들을 발견할 수 있다. 이들 규칙 중에서 변수들 간에 우연히 관련성이 높게 나타나는 경우가 존재할 수 있고 주변 조건부 변수 (매개변수, 외적변수)에 의하여 직접적인 관련성이 없는 규칙을 발견할 수도 있으며, 그 규칙은 간접적 해석만 가능하므로 의미가 없는 것으로 판단 할 수 있다. 이에 본 연구에서는 연관성 규칙에서 주변 조건부 변수를 고려한 연관성 규칙 생성에 관하여 연구하고자 하며, 이를 실례를 통하여 고찰하였다. 본 연구의 결과를 적용함으로써 연관성 규칙에서 의미 없는 규칙을 찾을 수 있으며, 변수들 간의 관련성을 보다 정확하고 명확하게 이해할 수 있을 것이다.

데이터의 상대 지지도를 이용한 다단계 연관 규칙 탐사 기법 (Discovery of Multiple-Level Association Rules using Relative Support of Data)

  • 하단심;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.195-197
    • /
    • 2000
  • 데이더는 다양한 빈도 형태와 속성을 가지고 있으며 데이터의 연관 규칙 탐사 시 이러한 데이터의 빈도수를 고려할 수 있는 방법이 필요하다. 그러나 기존의 연관 규칙 탐사 알고리즘은 지지도와 신뢰도만을 가지고 데이터의 연관성을 발견하며 데이터들의 발생 빈도는 고려하지 않는다. 본 논문에서는 하위 단계의 데이터나 동일한 단계지만 상대적으로 발생 빈도가 적은 데이터들의 연관 규칙을 탐사할 수 있는 방법을 제안한다. 제안하는 방법은 데이터의 상대 지지도를 이용한 다단계 연관 규칙 탐사 기법을 수행함으로써 데이터의 발생 빈도를 고려한 연관 규칙을 탐사할 수 있다. 그리고 탐사된 연관 규칙은 마케팅 분야 등의 여러 응용에서 유용하게 이용될 수 있다.

  • PDF

개인화를 위한 추천시스템 알고리즘에 관한 연구

  • 강현철;한상태;신연주
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.307-311
    • /
    • 2003
  • 개인화된 추천시스템(recommendation system)은 자동화된 정보 필터링 기술을 적용하여 고객의 취향에 맞는 아이템(상품, 기사, 컨텐츠 등)을 추천하는 시스템이다. 이러한 추천시스템에서 가장 중요한 것은 고객의 특성을 정확히 파악하여 가장 적절한 아이템을 추천해 줄 수 있는 능력이라고 할 수 있다. 본 연구에서는 추천시스템을 위해 제안된 여러 알고리즘들을 소개하고 그 특징들을 비교하였으며, 연관성규칙발견과 군집분석을 이용한 추천시스템 알고리즘을 실제 자료에 적용하여 그 결과를 살펴보았다.

  • PDF

오차를 허용하는 주기적 연관규칙 탐사를 통한 오차의 경향성에 관한 연구 (Discovery Of Cyclic Association Rule With Loose Cycle and Error Cycle over Loose Cycle)

  • 배수균;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.317-324
    • /
    • 2000
  • 주기적인 연관규칙은 타겟데이터베이스를 일정 단위시간으로 나누었을 때 연관규칙이 만족하는 구간이 일정한 주기마다 발생하는 패턴을 탐색하는 방법이다. 하지만, 이 방법은 엄격한 주기를 가지도록 하여 실제 데이터에 그대로 적용하기가 어려웠다. 예를 들이 편의점 데이터에서 매일 오전 7시-8시 사이에 주기적으로 발생하는 연관규칙을 발견할 때, 이러한 연관규칙을 주기적인 연관규칙이라고 한다. 하지만, 실제 데이터에서는 날씨와 같이 사람의 행동에 영향을 미치는 다른 요인 때문에 항상 일정한 주기를 가지는 연관규칙을 찾기는 어렵다. 본 논문에서는 주기가 일정하지 않은 연관규칙을 찾기 위해서 연관규칙의 주기성을 허용 오차를 포함하며 재정의하고, 오차를 허용하기 위한 탐색 알고리즘을 보완하였다. 반면에, 오차를 허용함으로써 오차를 허용하지 않는 경우보다 더 많은 주기성을 찾을 수 있을 뿐만 아니라, 동일한 주기를 가지지만 오프셋이 다른 여러 개의 비슷한 주기가지 찾게 되어 사용자가 의미 있는 연관규칙을 찾는데 방해가 된다. 본 논문에서는 이를 해결하기 위해서 오차를 허용하는 주기적 연관규칙의 오차의 정도를 측정하기 위한 단위로 집중도(intensity)와 경향성(tendency)을 제안한다. 주기적 연관규칙이 매 주기마다 정확한 세그먼트에 나타나는 정도를 나타내는 집중도와, 최소 평균오차를 의미하는 경향성을 이용하여 유사한 주기들 중에서 대표주기만을 찾을 수 있도록 한다. 또한, 오차를 허용하는 주기적 연관규칙에서 오차가 주로 발생하는 패턴을 분석함으로써 고객들의 수요 경향성을 더 잘 파악할 수 있다. 예를 들어, 평소에는 매일 오진 7시∼8시에 나타나던 연관성이 지각하는 사람들이 같은 월요일에는 1시간 늦은 8시∼9시에 나타난다는 오타 정보까지 파악할 수 있다. 이러한 월요일마다 1시간 늦게 나타나는 오차의 경향성을 나타내는 오차 주기(error cyc1e)를 이용함으로써 고객들의 수요의 경향성을 좀 더 세밀한 부분까지 파악할 수 있게 해 준다.

  • PDF

퍼지 연관규칙과 연관규칙의 성능 평가 (Performance Estimation of Fuzzr Quantitative Association Rules and Crisp Quantitative Association Rules)

  • 손영경;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.235-237
    • /
    • 2002
  • 연관규칙(association rule)이란 데이터 베이스에 존재하는 속성들 사이에 유사성 또는 패턴을 기술하는 것으로, 사용자에게 데이터에 관한 유용한 조보를 줄 수 있다. 그러나, 지금가지의 연관규칙은 이진 (boolean) 데이터 베이스에 존재하는 연관규칙의 발견에 대해서 주로 연구되어 왔으며, 정량적(수치적, quantitative) 속성을 갖는 데이터에 대한 연관규칙의 연구는 미비하였다. 그 이유는 정량적 속성을 갖는 데이터를 기호적(nominal) 속성값으로 바꾼 후 연관규칙 보다 성능이 우수함을 보이고 있다. 또한 본 논문에서는 퍼지 연관규칙에서 소속함수(항목, 아이템, 속성값)의 모양과 개수를 데이터 분포에 대한 통계적 특성을 나타내는 히스토그램을 이용하여 소속함수를 자동 생성하는 효율적인 연관규칙 추출방법을 제안한다

  • PDF

항목 알에프엠 점수를 고려한 가중 연관성 규칙 (Weighted association rules considering item RFM scores)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1147-1154
    • /
    • 2010
  • 데이터 마이닝의 중요 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 이를 위해 필요한 기법인 연관성 규칙은 각 항목들 간의 관련성을 찾아내는 데 활용되며, 지지도, 신뢰도, 향상도 등의 연관성 측도를 기반으로 두 항목간의 관계를 수치화함으로써 의미 있는 규칙을 찾아 낸다. 본 논문에서는 수익성이 가장 높은 고객을 찾기 위해 고객 정보를 이용하는 기법으로 가장 널리 사용되어온 방법인 알에프엠 기법을 항목에 적용하여 항목의 알에프엠 점수를 항목의 중요도로 고려하여 가중 연관성 규칙의 평가기준을 제시하였다. 모의실험에서는 일반적인 연관성 규칙과 알에프엠 점수를 가중치로 한 가중 연관성 규칙의 유용성을 비교하였다.

음의 순수 연관성 규칙 평가 기준의 제안 (Proposition of negatively pure association rule threshold)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.179-188
    • /
    • 2011
  • 연관성 규칙은 방대한 데이터베이스에서 항목간의 관계를 명확히 수치화 함으로써 그들간의 관련성을 표시해주는 기법으로 데이터 마이닝 기법들 중에서 가장 많이 활용되고 있다. 어느 항목이 발생하면 다른 항목도 발생한다는 규칙을 발견하기 위한 기법이 연관성 규칙이라면 음의 연관성 규칙 마이닝은 어느 항목이 발생하면 다른 항목도 발생하지 않는다는 규칙을 찾아내는 기법이다. 기존의 연관성 규칙에 음의 연관성 규칙을 추가하게 되면 어떤 제품을 판매하기 위해서는 그 제품만 마케팅 하는 것 뿐 만 아니라 더 나아가 그 제품이 아닌 어느 제품을 마케팅 하는 것이 필요한지를 판단할 수 있다. 본 논문에서는 음의 연관성 규칙의 단점을 보완할 수 있는 음의 순수 연관성 규칙의 측도들을 제시하고 흥미도 측도가 가져야 할 조건들을 조사하였으며, 예제 데이터를 활용하여 음의 순수 연관성 규칙의 유용성에 대해 살펴보았다.

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF