• 제목/요약/키워드: 연관 규칙 알고리즘

검색결과 198건 처리시간 0.027초

협력적 필터링을 위해 연관 단어 빈도를 이용한 웹 문서 분류 (Classification of Web Documents Using Associative Word Frequency for Collaborative Filtering)

  • 하원식;정경용;정헌만;류중경;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.160-162
    • /
    • 2004
  • 기존의 웹 문서 분류 시스템서는 많은 시간과 노력을 요구하며, 연관 단어가 아닌 단일 단어만으로 웹 문서들을 분류하여 단어의 중의성을 반영하지 못해 많은 오분류가 있었다. 이러한 문제점을 해결하기 위해 본 논문에서는 협력적 필터링을 위한 연관 단어 빈도를 사용한 웹 문서 분류 방법을 제안한다. 제안된 방법에서는 웹 문서 내에서 단어들을 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘에 의해 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 반영한다. 수정된 신뢰도를 ARHP 알고리즘에 적용하여 연관 단어들 사이의 유사정도를 계산하고 유사 클래스를 구성한다 생성된 유사 클래스들을 기반으로 웹 문서를 $\alpha$-cut을 이용하여 분류한다 성능평가를 위해 기존의 문서 분류 방법들과 비교 평가를 하였다.

  • PDF

연관 규칙 기반의 상품 검색 데이터베이스 최적화 연구 (A Study on the Product Searching Database Optimization Based on Association Rules)

  • 황현숙;박규석
    • 한국멀티미디어학회논문지
    • /
    • 제7권2호
    • /
    • pp.145-155
    • /
    • 2004
  • 인터넷 쇼핑몰을 구성하는 관리자 입장에서는 사용자 중심의 편리한 검색 기능과 시스템 중심의 빠른 검색 기능을 가지는 것이 매우 중요하다. 전자는 사용자의 다양한 요구를 만족시킬 수 있는 최적화된 입력 매개 변수를 찾아내는 것이며, 후자는 속성이 다른 다양한 입력 변수들을 효과적으로 정규화 하여 빠른 검색 해를 찾아내는 것이다. 본 연구에서는 기본적으로 사용자의 다양한 요구를 최대한 반영하기 위해 다중 속성을 가진 검색 기능은 물론 보다 빠른 검색 기능을 가지기 위한 데이터베이스 최적화 구성에 초점을 두고 있다. 이를 위해 인터넷 쇼핑몰의 검색 특성을 반영할 수 있는 연관 규칙의 척도인 지지도와 신뢰도를 고려한 수정된 연관 알고리즘을 제시하며, 빠른 검색 기능을 가지기 위한 모델관리 시스템을 제안한다. 수행된 시뮬레이션 결과에 의하면 고객의 검색 트랜잭션 수가 증가할수록 전체 평균 검색 시간은 상대적으로 줄어든다.

  • PDF

단어 빈도와 α-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템 (Recommendation System using Associative Web Document Classification by Word Frequency and α-Cut)

  • 정경용;하원식
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.282-289
    • /
    • 2008
  • 협력적 필터링을 개선하기 위하여 많은 기술들이 개발되고 실용화되었으나 아이템의 연관 관계를 정확하게 반영하지는 못한다. 본 논문에서는 협력적 필터링의 문제점을 보완하기 위하여 단어 빈도와 ${\alpha}$-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템을 제안한다. 제안된 방법은 형태소 분석을 통한 웹문서에서 단어를 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘을 이용해서 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 적용한다. 그리고 연관 규칙 하이퍼그래프 분할을 이용하여 연관 단어간의 유사도를 계산한다. 마지막으로 유사 클래스를 기반으로 연관 웹문서를 ${\alpha}$-cut을 이용하여 분류하고 개선된 코사인 유사도를 이용하여 유사도를 계산한다. 실험 결과 제안한 방법이 기존의 방법들보다 우수함을 확인하였다.

데이터 마이닝의 전처리를 위한 K-means 알고리즘을 이용한 빈발패턴 생성 (Creation of Frequent Patterns using K-means Algorithm for Data Mining Preprocess)

  • 유희종;박지연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.336-339
    • /
    • 2008
  • 우리가 사용하는 데이터베이스 내에는 많은 양의 데이터 들이 들어 있으며, 계속적으로 그 양은 늘어나고 있다. 이러한 데이터들로부터 질의를 통해 얻을 수 있는 기본적이고 단순한 정보들과 달리 고급 정보를 얻게 해주는 방법이 데이터 마이닝이다. 데이터 마이닝의 기법 중에서 본 논문에서는 k-means 알고리즘을 사용하여 트랜잭션을 클러스터링 함으로써 데이터베이스의 트랜잭션 수를 줄여 연관규칙의 대표적인 알고리즘인 Apriori 알고리즘의 단점인 트랜잭션 스캔으로 인한 성능 저하를 개선하고자 한다.

데이터 마이닝을 이용한 시험 응답데이터 분석시스템 설계 및 구현 (Design and Implementation of Analysis System for Answer Dataset with Data Mining)

  • 곽은영;김현철
    • 컴퓨터교육학회논문지
    • /
    • 제11권1호
    • /
    • pp.65-74
    • /
    • 2008
  • 본 논문은 데이터 마이닝 기법 중 연관규칙 추출 알고리즘을 이용하여 시험 응답 데이터에서 서로 연관된 문항들을 찾아내고, 그 원인을 규명함으로써 교육평가에서 사용되고 있는 기존의 검사이론 기반의 분석 결과와 함께 사용되면 문항의 질뿐만 아니라 피험자의 성취 수준을 심층적으로 분석하는데 도움을 줄 수 있는 시험 응답데이터 분석시스템을 개발하고 구현하는데 연구의 목적이 있다. 현재의 교육평가 분야에서 문항 분석에 사용되는 고전검사 이론과 문항반응 이론은 각 문항의 독립성을 전제로 하고, 피험자들이 각 개별 문항에 반응하여 나타나는 결과를 통계적 수치를 이용하여 설명하고 있다. 그러나 실제 학교 현장에서 실시한 시험의 결과를 보면, 피험자들의 반응에 의하여 문항간 연관성이 발생하게 되며 이러한 연관성은 각각의 문항들을 분석하고 피험자의 능력을 추정하는 데 의미 있는 영향을 미치게 된다. 제안된 시스템은 연관규칙 마이닝을 이용하여 흥미로운 문항간 연관성을 추출하고, 그 원인을 분석하여 사용자에게 제공함으로써 교수-학습 방법 개선이나 문제은행의 질을 향상시키는데 도움을 줄 수 있도록 하였다.

  • PDF

연관규칙을 활용한 학교도서관 도서추천시스템 개발에 관한 연구 (A Study on the Development of the School Library Book Recommendation System Using the Association Rule)

  • 임정훈;조창제;김종헌
    • 정보관리학회지
    • /
    • 제39권3호
    • /
    • pp.1-22
    • /
    • 2022
  • 본 연구는 학교도서관에서 활용할 수 있는 도서추천시스템을 제안하는데 목적이 있다. 도서추천시스템은 DLS의 대출 데이터를 활용하여 연관규칙 기반의 알고리즘을 적용하였으며, 학교도서관 이용자들에게 개인화 도서추천 서비스 제공이 가능하도록 설계하였다. 이를 위해 Apriori 알고리즘 기반의 연관규칙과 매개 중심성 분석을 적용하고, 기술통계, 연관규칙 생성, 학생중심 추천, 도서 중심추천 등 세부 기능을 구현하였다. 이어서 사서교사를 대상으로 심층면담을 통해 도서추천시스템 사용에 대한 의견을 조사하였다. 조사 결과, 도서추천의 필요성 및 어려움, 학생의 반응, 기존 추천방식과의 차이점 및 활용방안, 개선 사항에 대한 의견을 확인할 수 있었으며, 이를 토대로 다음의 논의점을 제안하였다. 첫째, 개별학교의 특성을 파악하기 위해서 장기간의 대출 데이터의 제공이 필요하다. 둘째, 지역별 혹은 학교 특성별 데이터 통합 방안에 대한 논의가 필요하다. 셋째, 독서교육종합시스템에서 제공하는 도서추천시스템의 구축이 필요하다. 본 연구에서 제안된 내용을 토대로 향후 학교도서관 현장에서 활용할 수 있는 개인화 추천시스템 적용에 대한 다양한 논의가 이루어지길 기대한다.

연관규칙과 협업적 필터링을 이용한 상품 추천 시스템 개발 (Development of the Goods Recommendation System using Association Rules and Collaborating Filtering)

  • 김지혜;박두순
    • 컴퓨터교육학회논문지
    • /
    • 제9권1호
    • /
    • pp.71-80
    • /
    • 2006
  • 전자상거래가 급속도로 발전함에 따라 고객들의 행동 패턴을 어떻게 발견하느냐와 웹 마이닝 기술을 사용하는 것에 의해 어떻게 상거래를 지능화 할 것인가에 대한 연구가 진행되고 있다. 현재까지 개인화와 상품 추천 시스템을 만들기 위해 가장 성공적이고 가장 넓게 사용되는 기술은 협업필터링 방법이다. 그러나 협업 필터링 방법은 특정 수 이상의 아이템에 대한 평가가 필요하다는 문제를 가지고 있다. 또한, 기존의 연관 규칙 기법은 개인별 사용자의 성향을 반영하지 못하는 단점을 가지고 있다. 본 논문에서는 개선된 Apriori 알고리즘을 이용하고, 아이템들 간에 상호 관계를 가진 협업 필터링 방법을 사용하여 사용자 성향이 반영된 상품 추천 시스템을 개발하였다.

  • PDF

웹 마이닝과 협력적 정보 여과를 이용한 개인화 서비스의 성능 개선 방안 (Improving Web Personalization Service Using Web Mining and Collaborative Filtering)

  • 이치훈;고세진;김용환;이필규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.63-65
    • /
    • 2000
  • 웹 개인화 기술의 발달은 많은 업체들이 기존 고객의 유지와 신규 고객의 확보를 위한 수단을 제공하였다. 현재의 개인화 기술은 크게 내용 기반 그리고 협력적 정보 여과 방식에 기반한 기술로 나뉘어질 수 있다. 내용 기반 정보 여과 방식에 기반한 개인화 기술은 멀티미디어 정보로 표현된 대부분의 웹 오브젝트(페이지, 이미지, 동영상, 사운드, 상품 등)에는 적용하기 어렵고, 협력적 정보 여과방식은 Cold Start Problem과 단일 도메인내에서의 개인화 서비스만이 가능하다는 문제점이 있다. 본 논문에서는 협력적 정보 여과 방식과 데이터 마이닝 기술 중의 연관 규칙 생성 방법을 혼합한 웹 개인화 시스템을 제안한다. 다양한 멀티미디어 형태로 표현되는 웹 오브젝트의 내용 분석이 어려우므로, 각각의 오브젝트를 하나의 아이템으로 인식하고 개인화 서비스를 시도하는 협력적 정보 여과 방식을 채택하였다. 협력적 정보 여과의 결과로 발견된 도메인별 유사 사용자의 웹 오브젝트 사용 정보를 연관 규칙 생성 알고리즘에 적용하여 오브젝트간의 연관성을 발견한다. 발견된 오브젝트간의 연관성은 서로 다른 정보 도메인의 오브젝트가 현재 사용자에게 흥미있는 것인가를 예측할 수 있는 자료로서 사용될 수 있다. 협력적 정보 여과 방식에 의해 생성된 오브젝트의 선호도값과 오브젝트 연관성 정보를 비교하여 사용자에게 개인화된 웹 서비스를 제공한다.

  • PDF

최적 연관 속성 규칙을 이용한 비명시적 단백질 상호작용의 예측 (Prediction of Implicit Protein - Protein Interaction Using Optimal Associative Feature Rule)

  • 엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2006
  • 단백질들은 서로 다른 단백질들과 상호작용 하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질 상호작용의 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이타가 산출되고 있는 현(現) 게놈시대에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모(Saccharomyces cerevisiae)에 대해 공개되어있는 단백질 상호작용 데이타들에서 속성들 간의 연관을 통해 유추 가능한 잠재적 단백질 상호작용들을 예측하기 위한 연관속성 마이닝 방법을 제시한다. 단백질의 속성들 중 연속값을 가지는 속성값들은 최대상호 의존성에 기반을 두어 이산화 하였으며, 정보이론기반 속성선택 알고리즘을 사용하여 단백질들 간의 상호작용 예측을 위해 고려되는 단백질의 속성(attribute) 수 증가에 따른 속성차원문제를 극복하도록 하였다. 속성들 간의 연관성 발견은 데이타마이닝 분야에서 사용되는 연관규칙 발견(association rule discovery) 방법을 사용하였다 논문에서 제안한 방법은 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 최대 약 96.5%의 예측 정확도를 보였으며 속성필터링을 통하여 속성필터링을 하지 않는 기존의 방법에 비해 최대 약 29.4% 연관규칙 발견속도 향상을 보였다.

FP-tree와 DHP 연관 규칙 탐사 알고리즘의 실험적 성능 비교 (Performance Evaluation of the FP-tree and the DHP Algorithms for Association Rule Mining)

  • 이형봉;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권3호
    • /
    • pp.199-207
    • /
    • 2008
  • FP-tree(Frequency Pattern Tree) 연관 규칙 탐사 알고리즘은 DB 스캔에 대한 부담을 획기적으로 절감시킴으로써 전체적인 성능을 향상시키고자 제안되었고, 따라서 다른 기법에 기반하는 알고리즘보다 성능이 매우 우수한 것으로 알려져 있다. 그러나, FP-tree 알고리즘은 기본적으로 DB에 저장된 거래 내용 중 빈발 항목을 포함하는 모든 거래를 트리에 저장해야 하기 때문에 그만큼 많은 메모리를 필요로 한다. 이 논문에서는 범용 운영체제인 유닉스 시스템 환경에서 FP-tree 알고리즘을 구현하여 소요 메모리와 실행시간 등 두 가지 성능 관점에서 해시 트리 및 직접 해시 테이블을 사용하는 DHP(Direct Hashing and Pruning) 알고리즘과 비교한다. 그 결과로서 알려진 바와는 크게 다르게 시스템 메모리가 충분한 상황에서도 대형 편의점 수준의 규모에 적용 가능한 거래 건수 100K, 전체 항목 개수 $1K{\sim}7K$, 평균 거래 길이 $5{\sim}10$, 평균 빈발 항목 집합 크기 $2{\sim}12$인 데이타에 대해서 FP-tree 알고리즘이 DHP 알고리즘보다 열등한 경우가 존재함을 보인다.