• 제목/요약/키워드: 연관정보

검색결과 3,818건 처리시간 0.038초

관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준 (Association rule thresholds considering the number of possible rules of interest items)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.717-725
    • /
    • 2012
  • 데이터 마이닝은 데이터베이스로부터 쉽게 드러나지 않는 의미 있는 정보를 생성하는 기법이다. 이 중에서 연관성 규칙은 일반적으로 발생 여부를 나타내는 자료를 이용하여 지지도, 신뢰도, 향상도 등을 수치화함으로써 항목들 간의 관련성을 나타낸다. 기존의 연관성 규칙은 발생 빈도의 크기를 고려하지 않음으로써 정보 손실에 의한 오류를 범할 수 있다. 이를 위해 본 논문에서는 발생 가능한 규칙의 수를 고려한 연관성 평가 기준들을 제안하고 예제를 통하여 기존 연구와 비교한 후, 본 논문에서 제안한 연관성 평가 기준의 유용성을 살펴보았다. 실제 데이터를 통하여 분석한 결과, 기존의 연관성 규칙 평가 기준은 관심항목 수와 트랜잭션의 수를 2배로 하여도 지지도와 신뢰도, 향상도의 값이 동일한 반면에 본 논문에서 제안한 평가 기준은 발생 가능한 규칙의 수를 고려하기 때문에 각각의 평가 기준의 값들이 트랜잭션의 수에 따라 다르다는 것을 알 수 있었다. 또한 본 논문에서 제안하는 평가 기준이 기존의 연관성 규칙 평가 기준에 비해 좀 더 정확한 정보를 제공하는 것을 알 수 있다. 특히 본 논문에서 제안한 신뢰도의 범위가 기존 연관성 평가 기준에 비해 크므로 좀 더 비교 가능한 정보를 제공하는 동시에 향상도의 비교를 용이하게 한다고 할 수 있다.

Boolean Analyzer를 이용한 역 연관규칙의 발견 (Finding negative association rules with Boolean Analyzer)

  • 이종인;박상호;강윤희;박선;이주홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.187-189
    • /
    • 2003
  • 연관 규칙이 구매한 항목에 관심을 가져 구매 항목간의 규칙을 생성하는 것이라면 역 연관규칙은 구매하지 않은 항목에도 관심을 가짐으로써 더욱 효과적으로 데이터 마이닝을 하려는 시도이다. 역 연관규칙을 찾기 위한 기존의 방법들은 규칙의 일부분만 찾거나. 연관규칙을 찾는 알고리즘보다 더 복잡한 알고리즘의 사용으로 역 연관규칙을 찾는데 어려움이 있다. 이에 본 논문에서는 ITEM들 사이의 dependency를 이용하는 Boolean Analyzer를 사용하여 보다 간단한 과정으로 역 연관규칙을 생성하는 방법을 제시하고, 실험을 통하여 Boolean Analyzer로 역 연관규칙을 찾고 다른 알고리즘과 비교를 통해 보다 다양한 규칙을 찾을 수 있음을 보여준다.

  • PDF

시간 의존적인 상품 추천을 위한 지수 평활 시간 연관 규칙 (Exponential Smoothing Temporal Association Rules for Recommendation of Temperal Products)

  • 정경자
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.45-52
    • /
    • 2005
  • 본 연구에서는 시간 연관 규칙에 지수 평활법을 적용한 상품 추천 알고리즘을 제안한다. 시간 연관 규칙은 기존의 연관 규칙에 시간 개념을 적용한 연관 규칙이다. 본 연구에서는 과거 데이터 보다 최신의 데이터에 가중치를 더 부여한 지수 평활 시간 연관 규칙을 제안한다. 제안한 알고리즘은 시간 의존적인 데이터에 적용하여 시뮬레이션을 한 결과 지수 평활법을 적용한 시간 연관 규칙이 기존의 시간 연관 규칙보다 실행시간 면에서 다소 오래 걸리지만 상품 추천 측면에서 더 효과적이다.

  • PDF

디지털 콘텐츠 연관 정보 관리를 위한 메타데이터 설계 및 시스템 개발 (Design of Metadata and Development of System for Managing Connection Information of Digital Contents)

  • 김재인;김대인;송명진;한대영;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.27-36
    • /
    • 2009
  • 통신 기술 발전 및 네트워크 대중화는 디지털 콘텐츠에 대한 수요, 요구 및 창조적으로 생산되는 디지털 콘텐츠 수의 증가를 야기하였다. 디지털 콘텐츠는 원 자료 수집 및 생산 시기, 그리고 방법 등에 따라 그 형태가 매우 다양하며 디지털 콘텐츠들 사이에는 많은 연관 관계가 존재한다. 그러나 디지털 콘텐츠를 표준화하기 위한 메타데이터는 많이 있지만 디지털 콘텐츠들 사이에 존재하는 연관 정보 표현은 고려하지 않는다. 본 논문은 디지털 콘텐츠의 연관 정보 표현을 위한 메타데이터를 제안한다. 제안하는 메타데이터는 디지털 콘텐츠의 국제 표준 메타 데이터인 더블린 코어와 호환가능하다. 설계할 메타데이터는 더블린 코어의 관계 요소를 확장하여 디지털 콘텐츠에 대한 다양한 직간접적인 연관 관계를 표현할 수 있다 또한 설계된 메타데이터에 기반한 디지털 콘텐츠 연관 정보 관리 시스템을 구축함으로써 더욱 유용한 정보를 제공할 수 있음을 보인다.

보안경보 검증을 확장한 다단계 상호연관 분석에 관한 연구 (A Study on Multi-Level Correlation Technique extended Security Alert Verification)

  • 최대수;이용균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.1059-1062
    • /
    • 2005
  • 보안위협은 갈수록 심각해지고 다양한 정보보호시스템들을 통합하는 통합보안관리시스템에 관한 연구 개발도 활발히 진행 중이다. 이기종 정보보호시스템에서 발생하는 다량의 경보와 이벤트를 효과적으로 수집, 통합하고 상호연관 분석할 수 있는 방법이 절실하다. 현재 연구되고 있는 상호연관분석 방법들에 대해서 조사 분류하고 각 분류별로 장단점을 분석하여 이기종 통합보안관리에 적합한 상호연관분석 방법을 제안한다. 보안 경보 검증과정과 분산화된 경보처리방법으로 실시간 상호연관분석이 가능하도록 설계하였다.

  • PDF

연관마이닝에 의한 데이터베이스캐시 설계 (Design of Database Cache by Association Mining Method)

  • 사재학;남인길
    • 한국산업정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.16-32
    • /
    • 2002
  • 효율적인 데이타마트 정보의 축척과 질의 정보 추출을 위한 연관 마이닝 방법을 적용하여 검색 속도를 빠르게 할 수 있도록 테이블을 생성하고 고객의 속성별 가중치와 선호기준을 입력받아 선호 점수를 계산하여 점수가 높은 과목을 우선적으로 검색할 수 있도록 기존 연관 알고리즘에서 사용한 단일 항목 입력 데이터 구조를 확장하여 다중 항목 연관 알고리즘(Multiple Item Association Mining : MIAM)을 이용하여 생성된 연관 검색 유형 테이블을 데이터베이스캐시화를 설계하였다. 동일한 알고리즘에서도 데이터베이스캐시 시스템을 적용한 시스템의 질의 처리 수행속도가 우수성을 이용하여 설계함으로써 효율적인 웹 서버 기능을 수행할 수 있음과 동시에 데이터베이스 캐싱의 주요 이점인 효율성 증대, 속도 향상, 비용절감의 효과를 얻을 수 있으므로 연구 설계하였다.

  • PDF

가중치가 부여된 연관 규칙을 이용한 문서 분류 (Document Classification using Weighted Associative Classifier)

  • 김흥남;이기성;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

IPsec 지원을 위한 보안 정책 시스템에서의 연관성 제거 알고리즘 구현 (Design and Implementation of Policy De-correlation Algorithm on The Security Policy System for IPsec support.)

  • 박명찬;신동명;인소란;최용락
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.383-386
    • /
    • 2001
  • IPsec 프로토콜에서는 각 보안 영역에 따라 각기 다른 보안 정책을 내부적으로 정의하여 사용한다. 각 보안 정책들 간에는 상호 연관성을 가진 정책들이 존재할 수 있다. 이때 상호 연관성을 가진 정책들로 인하여 정책 요청에 의한 정책 협상과정에서 뜻하지 않은 정책정보를 적용할 수 있다. 본 논문에서는 이와 같이 각 보안 정책들간에 연관성을 가진 정책으로 인하여 발생할 수 있는 문제점을 분석하여, 이들 정책들간의 연관성을 제거함으로써 신뢰성 높은 정책정보를 제공하려고 한다.

  • PDF

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템 (TF-IDF Based Association Rule Analysis System for Medical Data)

  • 박호식;이민수;황성진;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.145-154
    • /
    • 2016
  • u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

카테고리 정보를 이용한 추천 성능의 향상 (Improvements of Recommendation Performance with Categorical Information)

  • 김춘호;김준태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.398-400
    • /
    • 2003
  • 추천 시스템은 사용자의 아이템에 대한 선호도를 예측함으로써. 사용자에게 적합한 아이템을 추천한다. 이러한 추천 시스템은 희소성과 확장성의 문제를 안고 있다. 희소성이란 사용자의 선호도 예측의 토대가 되는 정보의 부족으로 인하여 추천 아이템의 범위가 제한되는 것이고, 확장성이란 사용자나 아이템의 수가 증가함에 따라 추천 시간이 증가하는 것이다. 본 논문에서는 아이템의 카테고리 정보를 이용한 다중 레벨 연관규칙을 선호도 예측에 적용하여 희소성과 확장성의 문제를 완화하고자 하였다. 연관규칙을 이용하여 선호도 예측을 위한 모델을 구축하여 확장성을 해결하고, 다중 레벨 연관규칙을 이용하여 추천 아이템의 범위를 확장할 수 있었다. 단일 레벨만을 사용한 방법과 비교한 결과, 다중 레벨을 사용한 방법이 좋은 성능을 보임을 확인할 수 있었다.

  • PDF