• 제목/요약/키워드: 데이터 연관

검색결과 1,883건 처리시간 0.021초

관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준 (Association rule thresholds considering the number of possible rules of interest items)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.717-725
    • /
    • 2012
  • 데이터 마이닝은 데이터베이스로부터 쉽게 드러나지 않는 의미 있는 정보를 생성하는 기법이다. 이 중에서 연관성 규칙은 일반적으로 발생 여부를 나타내는 자료를 이용하여 지지도, 신뢰도, 향상도 등을 수치화함으로써 항목들 간의 관련성을 나타낸다. 기존의 연관성 규칙은 발생 빈도의 크기를 고려하지 않음으로써 정보 손실에 의한 오류를 범할 수 있다. 이를 위해 본 논문에서는 발생 가능한 규칙의 수를 고려한 연관성 평가 기준들을 제안하고 예제를 통하여 기존 연구와 비교한 후, 본 논문에서 제안한 연관성 평가 기준의 유용성을 살펴보았다. 실제 데이터를 통하여 분석한 결과, 기존의 연관성 규칙 평가 기준은 관심항목 수와 트랜잭션의 수를 2배로 하여도 지지도와 신뢰도, 향상도의 값이 동일한 반면에 본 논문에서 제안한 평가 기준은 발생 가능한 규칙의 수를 고려하기 때문에 각각의 평가 기준의 값들이 트랜잭션의 수에 따라 다르다는 것을 알 수 있었다. 또한 본 논문에서 제안하는 평가 기준이 기존의 연관성 규칙 평가 기준에 비해 좀 더 정확한 정보를 제공하는 것을 알 수 있다. 특히 본 논문에서 제안한 신뢰도의 범위가 기존 연관성 평가 기준에 비해 크므로 좀 더 비교 가능한 정보를 제공하는 동시에 향상도의 비교를 용이하게 한다고 할 수 있다.

연관성 규칙의 탐색을 위한 순수 대칭적 J 측도의 활용 (Utilizing Purely Symmetric J Measure for Association Rules)

  • 박희창
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2865-2872
    • /
    • 2018
  • 데이터 마이닝 분야에서 개발된 기법에는 연관성 규칙, 군집분석, 의사결정나무, 신경망 등 여러 가지가 있는데 이들 중에서 연관성 규칙은 지지도, 신뢰도, 그리고 향상도 등 여러 가지 연관성 평가 기준을 이용하여 항목들 간에 특정한 연관성을 탐색하는 기법이다(Park, 2014). 이러한 연관성 규칙은 Agrawal et al.(1993)이 처음 제안하였으며, 그 이후로 여러 연구자들에 의해 연구가 진행되고 있으며, 최근에는 교차 엔트로피와 관련된 연구들이 발표되고 있다(Park, 2016b). 본 논문에서는 기존에 발표된 J 측도에 방향성과 순수성을 고려한 순수 대칭적 J 측도를 제안하고 예제를 활용하여 그 유용성에 대해 알아보았다. 그 결과, 동시발생빈도가 증가함에 따라 순수 대칭적 J 측도가 기존의 J 측도와 대칭적 J 측도, 순수 교차 엔트로피 측도보다 훨씬 분명하게 변하는 것을 알 수 있었으며, 불일치빈도의 크기에 따라서도 순수 대칭적 J 측도가 변화하는 폭이 더 커짐에 따라 연관성 유무를 더 분명하게 파악할 수 있었다. 따라서 순수 대칭적 J 측도는 데이터가 존재하는 어느 분야에서든지 연관성 규칙의 평가에 적용이 가능할 것으로 생각된다.

유용한 연관 규칙 추출을 위한 시각적 탐색 기반 접근법 (Visual Exploration based Approach for Extracting the Interesting Association Rules)

  • 김준우;강현경
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권9호
    • /
    • pp.177-187
    • /
    • 2013
  • 연관 규칙 탐사는 다양한 분야에서 널리 쓰이는 데이터 마이닝 기법으로 트랜잭션 데이터에 포함된 이산적인 항목들 간의 인과관계를 추출하는데 목적을 둔다. 하지만 분석자들은 때로 방대한 양의 데이터에서 추출된 많은 연관규칙들을 해석하고 활용하는데 곤란을 겪기도 한다. 이러한 문제점을 해결하기 위하여 본 논문에서는 주어진 트랜잭션 데이터에서 유용한연관 규칙을 탐색하기 위한 새로운 방법인 HTM 접근법을 제안하고자 한다. HTM 접근법은 크게 계층 군집, 테이블 뷰 및 모자이크 플롯의 세 가지 단계로 구성되며, 각 단계는 분석자들에게 적절한 시각적 표현을 제공한다. 예시를 위해 본 논문에서는 상기 접근법을 건강 검진 결과 데이터 분석에 적용하였으며, 실험결과 HTM 접근법을 통해 분석자들은 유용한 규칙들을 보다 효과적으로 탐색할 수 있을 것으로 기대된다.

공간 데이터 분석을 위한 공간 연관 규칙 탐사 시스템의 설계 및 구현 (Design and Implementation of Spatial Association Rule Discovery System for Spatial Data Analysis)

  • 안찬민;이윤석;박상호;이주홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.27-34
    • /
    • 2006
  • 최근 공간 정보들을 효과적으로 이용할 수 있는 기술에 대한 연구가 활발하게 이루어지고 있다. 효율적인 지식 탐사를 위해 다양한 기존의 데이터 마이닝 방법들이 확장되어 공간 데이터 마이닝에 사용되고 있다. 그러나 기존의 공간 연관 규칙 탐사 시스템들은 프레디킷 간의 연산을 통해 규칙을 발견함에 따라 질의 결과에 다양한 비공간 속성들을 반영하지 못하는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 공간 데이터베이스에서 사용되는 질의를 확장하고, 위상정보에 따른 데이터를 구성한 후 비공간 객체 속성간의 연관 규칙을 발견하는 시스템을 제안한다. 특히 지리 정보 시스템에 적용 가능한 모델을 구현하였다. 이렇게 구현된 시스템은 사용 중인 공간 데이터베이스를 확장하므로 이식성이 뛰어나고, 공간 속성뿐만 아니라 다양한 비공간 속성을 고려함으로써 좀 더 실생활에 유용한 공간 연관 규칙을 발견할 수 있다.

  • PDF

전자 상거래 에이전트를 위한 연관 규칙 발견 및 확장 (Association Rule Discovery & Expansion for Electronic Commerce Agents)

  • 문홍기;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.33-35
    • /
    • 1999
  • 대용량 데이터베이스의 데이터로부터 지식을 발견하는 방법으로 사용되고 있는 연관 규칙 발견은 기존에는 알려지지 않았던 지식을 찾아 이를 이용할 수 있는 형태로 제공된다. 하지만, 제공되는 형태는 단순한 데이터베이스에 포함되어 있는 정보만을 이용하여 보여주므로, 특정한 부분에만 제한적으로 활용된다. 따라서, 본 연구에서는 데이터로부터 연관 규칙을 발견하여 이를 개념 계층구조를 이용하여 일반적인 규칙으로 확장하는 방법을 제안한다. 또한 발견된 규칙을 기반으로 전자 상거래 에이전트를 위해 어떻게 활용될 수 있는지를 제안한다.

  • PDF

연관 규칙 탐사를 위한 효율적인 자료 구조 (Efficient Data Structure for Mining Association Rules)

  • 권경희;정균락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.7-9
    • /
    • 2001
  • 정보화 시대에 정보의 양이 폭발적으로 증가함에 따라 데이터 마이닝(Data Mining) 또는 데이터베이스에서의 지식 발견이라 불리는 분야가 새로운 정보기술의 활용방법으로 대두되었다. 데이터 마이닝의 한 기법인 연관 규칙 탐사를 위한 자료 구조로 그 동안 해쉬 트리, prefix 트리, 이진 트리 구조 등이 제안되었다. 본 논문에서는 연관 규칙 탐사를 위한 효율적인 자료 구조를 제안하고 실험을 통해 해쉬 트리보다 그 성능이 우수함을 보였다.

  • PDF

시맨틱 웹 데이터에서 접미사 배열 기반의 경로 질의 처리 기법 (Suffix Array Based Path Query Processing Scheme for Semantic Web Data)

  • 김성완
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.107-116
    • /
    • 2012
  • 서로 연결된 데이터들의 의미를 컴퓨터가 이해하여 자동으로 처리할 수 있는 시맨틱 기술의 보급이 확산되고 있다. 시맨틱 웹에서 데이터에 대한 처리는 데이터 자체에 대한 접근뿐만 아니라 데이터 상호간의 연관성 즉, 데이터 상호간의 의미에 대한 이해와 접근을 중요시 하고 있다. 시맨틱 웹의 데이터와 그 연관성을 표현하기 위해 W3C에서는 RDF를 표준 형식으로 제정하였으며 RDF로 표현된 데이터에 대한 질의 처리를 지원하기 위해 여러 RDF 질의어가 제안되었으나 시맨틱 연관성을 고려한 질의어 정의와 이에 관련한 질의 처리 기법은 계속적인 연구가 필요한 분야이다. 본 논문에서는 RDF 질의 처리를 위해 소개된 접미사 배열 기반의 인덱싱 기법을 기반으로 시맨틱 연관성의 대표적 유형인 ${\rho}$-path 질의를 처리하기 위한 방법을 제안한다. 제안된 질의 처리 방법의 성능 평가를 위해 다른 두 가지 형태의 처리 방법을 구현하여 실험적으로 비교하였다. 평균 질의 처리 시간 측정을 통해 제안 기법이 다른 두 가지 처리 방법에 비해 각각 약 1.8~2.5배와 3.8~11배의 우수한 처리 성능을 보인다.

기준 확인 측도와 연관성 평가기준과의 관계 탐색 (Exploration of relationship between confirmation measures and association thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.835-845
    • /
    • 2013
  • 데이터 마이닝닝 기법들 중에서 연관성 규칙 마이닝 (association rule mining)은 대용량의 사건 발생 기록 데이터로부터 항목 간의 연관성을 측정하는 기법이다. 이 기법은 매우 방대한 양의 상품 또는 서비스 거래 기록 데이터로부터 항목들 간의 연관성을 측정하는 기법으로 제조업, 유통업, 보험업, 의료 및 교육 분야 등 많은 분야에 적용되고 있다. 의미 있는 연관성 규칙을 탐색하기 위한 흥미도 측도는 크게 객관적 흥미도 측도와 주관적 흥미도 측도, 그리고 의미론적 흥미도 측도로 분류할 수 있다. 이와는 별개로 기준 확인 또는 증거 지원과 관련된 측도들을 개발하기 위해 많은 시도가 있었으나 기준 확인 측도에 대한 연관성 평가 기준 조건 충족 여부나 기본적인 연관성 평가 측도인 지지도, 신뢰도, 그리고 향상도 등과의 관계는 아직 규명되지 않았다. 이에 본 논문에서는 가장 많이 활용되고 있는 비대칭적 기준 확인 측도에 대해 흥미도 측도의 기준에 대한 조건 충족 여부를 검토하는 동시에 기본적인 연관성 평가 측도들과의 관계를 수식을 통해 유도한 후, 예제를 통해 연관성 규칙의 관점에서 기준 확인 측도의 유용성을 살펴보았다. 그 결과, 본 논문에서 고려한 모든 기준 확인 측도들이 흥미도 측도의 기준에 대한 조건들을 모두 만족하였다. 또한 이들을 기본적인 연관성 평가 기준인 지지도, 신뢰도, 그리고 향상도와의 관계를 식을 통해 규명한 동시에 방향성과 행태적 해석 가능성을 예제를 통해 확인할 수 있었다. 특히 이들 측도 중에서 Kemeny와 Oppenheim이 제안한 측도와 Rips가 제안한 측도가 가장 바람직한 연관성 평가 기준으로 활용할 수 있다는 사실을 확인할 수 있었다.

향상도 영향 감소화에 의한 연관성 순위결정함수 (Association rule ranking function by decreased lift influence)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.397-405
    • /
    • 2010
  • 데이터 마이닝은 대규모의 데이터베이스에 내재되어 있는 유용한 정보를 찾아내는 과정이며, 중요한 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 이를 위해 필요한 기법인 연관성 규칙 마이닝은 각 항목들 간의 관련성을 찾아내는 데 활용되며, 지지도, 신뢰도, 향상도 등의 연관성 측도를 기반으로 두 항목간의 관계를 수치화함으로써 의미 있는 규칙을 찾아낸다. 본 논문에서는 3개의 연관기준값들 중 어느 하나라도 기준 이상이 되는 규칙의 순위를 매겨 필요한 연관성 규칙만을 생성할 수 있는 연관성 순위 결정 함수를 개발하는데 기존의 연구 결과를 개선하기 위해 특정 연관 기준값의 영향을 더 많이 받지 않도록 3개 연관기준값의 범위를 조정한 연관성 순위 결정 함수를 제안하고자 한다. 모의실험을 해본 결과, 대체적으로 본 논문에서 제안한 함수는 연관성 측도들과 최저 연관기준값들간의 차이를 잘 반영하고 있으며, 최저 연관성 기준값들의 범위와는 관계없이 항상 -1과 1 사이의 값을 가지며, 최저 연관기준값을 모두 충족하게 되면 1의 값을 가지며, 3개 모두 충족되지 않으면 -1의 값을 갖게 된다는 사실을 알 수 있었다.

지역별 발생집중 화물량 추정을 위한 산업연관분석의 Nonsurvey법 개발에 관한 연구 (Development of Nonsurvey Method of Input-Output Analysis for Production and Attraction Freight Flow Estimation According to Region)

  • AN, Sihyoung;IIDA, Katuhiro;MORI, Yasuo
    • 대한교통학회지
    • /
    • 제16권1호
    • /
    • pp.79-98
    • /
    • 1998
  • 교통계획의 수립은 사람과 화물의 이동상태에 대한 파악으로부터 시작되며 화물이동상태를 파악 하기 위한 가장 기본적인 데이터는 지역별 발생집중 화물량일 것이다. 이러한 지역별 발생집중 화물량의 추계방법중 추계의 간편성과 경제상황변화의 반영이 용이하다는 점에서, 최근 학자들의 상당한 주목 을 받으며 연구되고 있는 것이 산업연관분석을 응용한 물류해석방법이다. 그러나 이방법은 대상지역의 산업연관표를 기본 data로 하기 때문에 해당지역의 산업연관표의 존재 여부에 따라서 그 적용범위가 제한된다. 이러한 문제점을 해결하기 위해서 연구되고 있는 방법이 Nonsurvey법이다. Nonsurvey법은 대 지역의 산업연관표로부터 그 지역에 포함된 소지역의 산업연관표를 여러 가지 보조적인 데이터를 이용해 서 간접적으로 추계하는 방법이다. 본연구에서는 이러한 Nonsurvey법의 하나로서 대지역의 산업연관표 와 지역분해된 각 소지역의 산업부문별 생산량만을 이용해서 각 소지역의 발생집중화물량을 추계하는 방법을 제안했다. 그리고 일본의 긴키(Kinki)지역과 이에 속하는 4부현을 대상으로 본연구의 방법으로 추계된 이출입양과 실제의 산업연관표상의 이출입량을 비교.분석함으로써 본 연구의 방법에 대한 검증을 실시했다. 본 연구에서 제아한 지역별 발생집중 화물량 추계방법의 특징은 다음과 같다. 첫째, 대지역내 각 소지역간의 이출입량이 분기계수라고 하는 산업관계표의 산업관계표의 행방향의 합에 대한 비율을 사용함으로서 간단히 추계가능 하다. 둘째, 추계된 소지역의 산업관계표는 대지역에 대한 시스템전체의 정합성이 유지된다. 셋째 분해되는 소지역의 수에 관계없이 각소지역의 이출입양에 대한 추계가 가능하다.

  • PDF