• 제목/요약/키워드: 연관성 측도

검색결과 47건 처리시간 0.022초

기준 확인 측도와 연관성 평가기준과의 관계 탐색 (Exploration of relationship between confirmation measures and association thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.835-845
    • /
    • 2013
  • 데이터 마이닝닝 기법들 중에서 연관성 규칙 마이닝 (association rule mining)은 대용량의 사건 발생 기록 데이터로부터 항목 간의 연관성을 측정하는 기법이다. 이 기법은 매우 방대한 양의 상품 또는 서비스 거래 기록 데이터로부터 항목들 간의 연관성을 측정하는 기법으로 제조업, 유통업, 보험업, 의료 및 교육 분야 등 많은 분야에 적용되고 있다. 의미 있는 연관성 규칙을 탐색하기 위한 흥미도 측도는 크게 객관적 흥미도 측도와 주관적 흥미도 측도, 그리고 의미론적 흥미도 측도로 분류할 수 있다. 이와는 별개로 기준 확인 또는 증거 지원과 관련된 측도들을 개발하기 위해 많은 시도가 있었으나 기준 확인 측도에 대한 연관성 평가 기준 조건 충족 여부나 기본적인 연관성 평가 측도인 지지도, 신뢰도, 그리고 향상도 등과의 관계는 아직 규명되지 않았다. 이에 본 논문에서는 가장 많이 활용되고 있는 비대칭적 기준 확인 측도에 대해 흥미도 측도의 기준에 대한 조건 충족 여부를 검토하는 동시에 기본적인 연관성 평가 측도들과의 관계를 수식을 통해 유도한 후, 예제를 통해 연관성 규칙의 관점에서 기준 확인 측도의 유용성을 살펴보았다. 그 결과, 본 논문에서 고려한 모든 기준 확인 측도들이 흥미도 측도의 기준에 대한 조건들을 모두 만족하였다. 또한 이들을 기본적인 연관성 평가 기준인 지지도, 신뢰도, 그리고 향상도와의 관계를 식을 통해 규명한 동시에 방향성과 행태적 해석 가능성을 예제를 통해 확인할 수 있었다. 특히 이들 측도 중에서 Kemeny와 Oppenheim이 제안한 측도와 Rips가 제안한 측도가 가장 바람직한 연관성 평가 기준으로 활용할 수 있다는 사실을 확인할 수 있었다.

연관성 규칙의 탐색을 위한 순수 대칭적 J 측도의 활용 (Utilizing Purely Symmetric J Measure for Association Rules)

  • 박희창
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2865-2872
    • /
    • 2018
  • 데이터 마이닝 분야에서 개발된 기법에는 연관성 규칙, 군집분석, 의사결정나무, 신경망 등 여러 가지가 있는데 이들 중에서 연관성 규칙은 지지도, 신뢰도, 그리고 향상도 등 여러 가지 연관성 평가 기준을 이용하여 항목들 간에 특정한 연관성을 탐색하는 기법이다(Park, 2014). 이러한 연관성 규칙은 Agrawal et al.(1993)이 처음 제안하였으며, 그 이후로 여러 연구자들에 의해 연구가 진행되고 있으며, 최근에는 교차 엔트로피와 관련된 연구들이 발표되고 있다(Park, 2016b). 본 논문에서는 기존에 발표된 J 측도에 방향성과 순수성을 고려한 순수 대칭적 J 측도를 제안하고 예제를 활용하여 그 유용성에 대해 알아보았다. 그 결과, 동시발생빈도가 증가함에 따라 순수 대칭적 J 측도가 기존의 J 측도와 대칭적 J 측도, 순수 교차 엔트로피 측도보다 훨씬 분명하게 변하는 것을 알 수 있었으며, 불일치빈도의 크기에 따라서도 순수 대칭적 J 측도가 변화하는 폭이 더 커짐에 따라 연관성 유무를 더 분명하게 파악할 수 있었다. 따라서 순수 대칭적 J 측도는 데이터가 존재하는 어느 분야에서든지 연관성 규칙의 평가에 적용이 가능할 것으로 생각된다.

연관성 방향을 고려한 부호 헬링거 측도의 제안 (Signed Hellinger measure for directional association)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.353-362
    • /
    • 2016
  • 데이터 마이닝은 빅 데이터에 내재되어 있는 새로운 법칙이나 잠재되어 있는 지식을 탐색한 후, 이를 근거로 하여 의사결정에 활용하고자 하는 것이다. 위키 백과사전에 의하면 데이터 마이닝 기법 중의 하나인 연관성 규칙은 연관성 평가 기준에 의해 관심 있는 항목들 간에 관련성을 찾아내는 기법으로 많은 연구자들에 의해 연관성 평가를 위한 흥미도 측도들이 개발되어 왔다. 이들 중에서 헬링거 측도는 여러 가지 흥미도 측도들에 비해 많은 장점이 있으나 연관성의 방향을 판단하기가 곤란한 문제를 내포하고 있다. 이 문제를 해결하기 위해 본 논문에서는 부호를 가지는 헬링거 측도를 제안하고 몇 가지 예제를 통하여 유용성을 고찰하였다. 그 결과, 본 논문에서 제안하는 부호 헬링거 측도는 양의 연관성을 가지는 경우에는 양의 값으로 나타나고 음의 연관성을 가지는 경우에는 음의 값을 갖는 것으로 나타났다. 또한 동시발생빈도, 동시 비 발생빈도, 그리고 불일치 빈도가 증가함에 따라 기본적인 연관성 평가 기준들과 부호 헬링거 측도는 증감 여부가 동일한 것을 알 수 있었다.

이분형 예측 유사성 측도의 연관성 평가 기준 적용 방안 (The application for predictive similarity measures of binary data in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권3호
    • /
    • pp.495-503
    • /
    • 2011
  • 데이터 마이닝에서의 연관성 규칙은 방대한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화 하는 방법이다. 의미 있는 연관성 규칙을 탐사하기 위한 가장 기본적인 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 향상도는 그 값에 의해 양의 연관성이 있는지 아니면 음의 연관성이 있는지, 즉 연관성의 방향을 알 수 있는 반면에 지지도와 신뢰도는 그 방향을 알 수가 없다. 이를 위해 순수 신뢰도와 기여 순수 신뢰도가 제안되었으나 이들 또한 단점을 안고 있다. 본 논문에서는 기존의 여러 형태의 신뢰도가 가지고 있는 문제점을 해결하기 위해 군집분석이나 다차원 분석에서 활용되고 있는 이분형 예측 유사성 측도 중에서 -1과 1 사이의 값을 가지는 Yule의 Y 및 Q 측도를 연관성 평가 기준으로 제안하였다. 또한 기존의 순수 신뢰도 및 기여 순수 신뢰도의 문제점을 파악한 후, 예제를 통하여 이분형 예측 유사성 측도의 유용성에 관해 알아보았다. 그 결과, 본 논문에서 고려한 유사성 측도들은 기존의 측도들이 가지고 있는 문제점을 해결할 수 있어서 본 논문에서 제안한 이분형 예측 유사성 측도가 연관성 평가 기준으로 활용할 수 있다는 사실을 확인하였다.

모든 주변 비율을 고려한 확률적 흥미도 측도 기반 유사성 측도의 연관성 평가 기준 활용 방안 (Utilization of similarity measures by PIM with AMP as association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.117-124
    • /
    • 2013
  • 연관성 규칙 탐사는 상당한 양의 데이터베이스에 내재되어 있는 항목들 간의 관련성을 파악하는 것으로 쇼핑몰, 보건 및 의료, 교육분야 등의 현장에서 많이 적용되고 있다. 이러한 연관성 규칙을 생성하기 위해 연관성 규칙 평가 기준인 지지도, 신뢰도, 향상도 등이 활용되고 있다. 이들 중에서 신뢰도가 연관성 평가 기준으로 가장 많이 활용되고는 있으나 항상 양의 값을 취하는 비대칭적 측도이기 때문에 항목 간에 연관성 규칙을 생성하는 데 어려움이 존재하게 된다. 이러한 문제를 해결하기 위해 본 논문에서는 주변 비율 전부를 포함한 확률적 흥미도 기반 유사성 측도를 연관성 평가 기준으로 활용하는 방안을 고려하였다. 이 측도들은 주변비율 전부와 교차표의 모든 항을 고려하여 연관성의 강도를 측정하는 측도이므로 나타나는 모든 정보를 충실히 반영해주는 측도라고 할 수 있다. 모의실험을 통해 확인한 결과, 모든 주변 비율을 고려한 확률적 흥미도 기반 유사성 측도 대부분이 기존의 연관성 평가 기준과 마찬가지로 연관성의 정도를 파악할 수 있는 동시에 부호를 포함하고 있어서 연관성의 방향도 알 수 있었다.

동시 비 발생 빈도를 고려한 유사성 측도의 연관성 규칙 평가 기준 활용 방안 (Association rule thresholds of similarity measures considering negative co-occurrence frequencies)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권6호
    • /
    • pp.1113-1121
    • /
    • 2011
  • 최근 여러 분야에서 다양한 데이터 마이닝 방법들을 현업에 적용하고 있는 추세이다. 가장 많이 활용되고 있는 데이터 마이닝 기법 중의 하나인 연관성 규칙은 대용량 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화하여 그들 간의 연관 정도를 나타내는 기법이다. 의미 있는 연관성 규칙을 생성하기 위해 지지도, 신뢰도, 향상도 등의 측도가 가장 기본적으로 활용되고 있다. 본 논문에서는 군집 분석이나 다차원 분석법에서 많이 활용되고 있는 유사성 측도들 중에서 동시 비 발생 빈도를 고려한 유사성 측도를 연관성 평가 기준으로 제안한 후, 예제를 통하여 기존의 신뢰도 및 지지도와 비교함으로써 그 유용성을 알아보았다. 모의실험 결과를 종합해볼 때, 동시 발생 빈도 또는 동시 비 발생 빈도가 증가하면 본 논문에서 고려한 모든 유사성 측도들은 지지도 및 신뢰도와 마찬가지로 증가하며, 불일치 계수의 값이 증가하면 이 측도들은 감소하게 된다는 사실을 알 수 있었다. 또한 이들 유사성 측도들은 지지도 및 신뢰도와 매우 유의한 상관관계가 있는 것으로 나타났으며, 전항과 후항이 바뀌더라도 값의 변화가 없기 때문에 신뢰도 보다 더 바람직한 연관성 규칙 평가 기준이라고 할 수 있다.

확률적 흥미도를 이용한 유사성 측도의 연관성 평가 기준 (Exploration of PIM based similarity measures as association rule thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1127-1135
    • /
    • 2012
  • 연관성 규칙 기법은 대용량데이터베이스에 있는 항목들 간의 관련성을 수치화 하는 것으로 데이터 마이닝 기법 중에서는 가장 많이 활용되고 있다. 연관성 규칙을 탐사하기 위한 연관성 규칙 평가 기준에는 지지도, 신뢰도, 향상도 등이 있다. 이들 중에서 가장 중심이 되는 신뢰도는 비대칭적 측도일 뿐만 아니라 항상 양의 값만을 취하고 있어서 항목 간에 연관성 규칙을 생성하는 데 여러가지 문제가 존재한다. 이러한 문제를 해결하기 위해 본 논문에서는 확률적 흥미도 측도 기반, 특히 주변 비율을 고려하지 않은 유사성 측도를 연관성 평가 기준으로 적용하는 방안에 대해 연구하였다. 예제에 의한 비교를 통하여 Yule과 Michael의 유사성 계수와 Pearson의 파이 계수는 신뢰도와 동일하게 연관성의 정도를 파악할 수 있는 동시에 부호를 포함하고 있어서 연관성의 방향도 알 수 있었으나, 카이 제곱 통계량 기반 측도들은 항상 양의 값만 나타날 뿐만 아니라 신뢰도와는 변화하는 양상이 다르다는 것을 확인할 수 있었다.

일변량 공간 연관성 측도의 통계적 검정을 위한 일반화된 고차 적률 추출 절차: 정규성 가정의 경우 (A Generalized Procedure to Extract Higher Order Moments of Univariate Spatial Association Measures for Statistical Testing under the Normality Assumption)

  • 이상일
    • 대한지리학회지
    • /
    • 제43권2호
    • /
    • pp.253-262
    • /
    • 2008
  • 이 논문의 주요 목적은 정규성 가정 하에 일변량 공간 연관성 측도의 첫 번째 네 적률을 구해내는 일반화된 추출 절차를 정식화하고, 그것을 바탕으로 각 측도의 가설 검정을 위해 정규근사가 갖는 가능성과 한계를 평가하는 것이다. 중요 연구 결과는 다음과 같다. 첫째, 이전의 연구에 기반함으로써, 정규성 가정 하에 전역적 측도와 국지적 측도에 모두 적용될 수 있는 일반화된 적률 추출절차가 도출되었다. 개별 공간 연관성 측도를 위한 필수적인 메트릭스가 적절히 정의되었을 때, 일반화된 유의성 검정 방법은 각 공간 연관성 측도의 기대값과 분산은 물론 첨도와 왜도를 효과적으로 산출하였다. 둘째, 첫 번째 두 적률에 근거한 정규근사 방법은 전역적 통계량에 대해서는 유효한 것으로 판명되었지만, 국지적 통계량에 대해서는 매우 높은 왜도와 첨도로 말미암아 그 유효성이 현저히 떨어지는 것으로 드러났다.

혼합자료에서 독립성검정에 의한 연관성 측정 (A unified measure of association for complex data obtained from independence tests)

  • 이승천;허문열
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.523-536
    • /
    • 2021
  • 두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다. 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여 진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.

혼합자료에서 독립성 검정에 의한 연관성 측정 (A Unified Measure of Association for Complex Data Obtained from Independence Tests)

  • 이승천;허문열
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.151-167
    • /
    • 2003
  • 두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.