• 제목/요약/키워드: 웹 데이터 마이닝

검색결과 222건 처리시간 0.022초

데이터마이닝을 이용한 웹 데이터 분석 (Analysis of Web Data Applying Data Mining)

  • 채승경;서용무
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.345-361
    • /
    • 2001
  • 인터넷의 확산으로 웹 구조, 웹 로그 등을 분석하는 웹마이닝(Web Mining)에 대한 연구가 활발히 진행되고 있다. 그러나 웹에서 발생하는 데이터에 대한 분석은 아직 미약한 상태이다. 웹에서 획득된 데이터는 신뢰도가 낮아 통계와 같은 기존의 분석 방법을 적용하기에 많은 어려움이 따른다. 또한 대용량 데이터와 실제 데이터에 유연한 분석을 제공하는 데이터 마이닝은 아직까지 적용 분야가 매우 한정되어 있다. 본 논문에서는 인터넷 사이트의 실제 데이터를 이용하여 데이터마이닝 과정에 따라 데이터 정제, 데이터 선택, 데이터 변환 등 효과적인 데이터 전처리 방법을 제시한다. 또한 이렇게 전처리된 데이터로 고객 세분화, 우수 고객 분류를 위한 데이터마이닝 기법을 적용한 후 수행 결과를 분석한다. 마지막으로 분석의 한계점을 지적하고 보다 양질의 데이터마이닝을 위한 시스템 및 사이트 설계 방안을 제시한다.

  • PDF

사용자의 피드백을 통한 퍼지 연관규칙의 웹 사용자 마이닝 (Web Usage Mining Using Fuzzy Association Rule Considering User Feedback)

  • 장재성;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.49-51
    • /
    • 2001
  • 데이터 마이닝은 KDD의 분야로서, 의미 있는 정보와 관심 있는 행동 패턴을 추출해 나가는 과정이다. WWW의 발전으로, 웹 데이터가 거대해지고 있다. 이러한 데이터 마이닝 분야에서도, 웹 사용 마이닝의 목적은 의미 있는 사용자 행동 패턴을 찾아내는 것이다. 특히 현재 전자상거래가 널리 활성화되고 있는 환경에서, 사용자의 특성을 발견해내는 것은 매우 중요한 부분이다. 사용자의 특성에 따라 사용자에게 상품을 추천하거나 메일을 보내는 것이나 사용자에게 적절하게 사이트를 구축하는 것이 가능하다. 전처리 과정을 통해서 추출된 트랜잭션 데이터를 모호한 사용자의 요구를 분석할 수 있는 퍼지 집합으로 변형시켜 Fuzzy Association Rule을 통해 분석한다. 그리고 분석된 결과에 대한 규칙을 사용자의 피드백을 통해서 다시 분석하는 과정을 거치게 된다. 사용자의 요구 사항을 적절히 반영할 수 있다.

  • PDF

WMSQL을 이용한 Web Mining System의 설계 및 구현 (Design and Implementation of a Web Mining System Using WMSQL)

  • 최성경;박민호;이근호;백인구;한기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.166-168
    • /
    • 2000
  • World-Wide Web(WWW)이 발전하면서 웹으로부터 사용자가 원하는 정보를 효과적으로 찾기 위한 정보검색 방법론이 연구가들로부터 중요한 이슈로서 대두되었고 이에 기반하여 여러 상용 정보검색 시스템들이 등장하게 되었다. 그러나, 이러한 정보검색 시스템들은 웹에 존재하는 데이터의 비구조화와 다양성, 사용자의 다양성, 그리고 정보의 질과 양이 문제로 인하여 사용자의 의도와 요구에 맞는 정보를 구하기 어렵다. 또한, 웹 상의 많은 데이터들로부터 단순히 일반적인 정보만을 얻어 이용할 뿐 효과적인 지식의 탐사나 관리 기능을 갖고 있지 않다. 본 논문에서는 이전의 정보검색 시스템들이 갖는 문제점을 분석하고 이를 보완하고자 웹에 대한 지식 발견(Knowledge Discovery)의 새로운 시도인 웹 마이닝(Web Mining)에 대한 관련 연구를 토대로 웹 마이닝 시스템을 설계 및 구현한다. 특히, 사용자의 의도를 정확히 전달하기 위하여 기존의 SQL 과 유사한 형태의 질의어인 WMSQL을 사용하여 웹 문서의 내용에 직접적인 웹 마이닝을 수행하는 Web Content Mining을 개발함으로서 웹의 비구조화된 데이터로부터 의미있고 함축적인 지식을 추출할 수 있도록 한다.

  • PDF

적응형 웹 사이트 구축을 위한 연관규칙 알고리즘 개발과 적용 (Development and Application of An Adaptive Web Site Construction Algorithm)

  • 최윤희;전우천
    • 정보처리학회논문지D
    • /
    • 제16D권3호
    • /
    • pp.423-432
    • /
    • 2009
  • 컴퓨터의 보급과 인터넷의 발달로 인해 데이터의 유통은 증가하고 있으나 전통적인 방법으로는 가치 있고 의미 있는 정보를 획득하는 것은 어렵다. 또한, 정보화 사회에서의 많은 정보 중에서 자신에게 알맞은 정보를 탐사하는 데이터 마이닝의 필요성이 대두되고 있다. 또한 사용자들의 편리한 인터넷 항해를 돕고 적절한 정보를 제공할 수 있는 적응형 웹 사이트에 관한 연구도 필요하다. 본 연구의 목적은 사용자들에게 연관성이 있는 웹 페이지를 연결해 주는 적응형 웹 사이트 구축을 위해 웹 로그 분석을 통한 웹 사이트 사용자들의 행동 패턴을 발견하는 연관규칙 알고리즘의 개발에 있다. 데이터 마이닝의 기법 중에서 연관규칙은 웹 사이트에 접속하는 사용자들의 행동을 파악하는데 효과적이다. 본 논문에서는 웹 사용 마이닝을 이용하여 웹 서버의 로그 데이터를 분석하여 트랜잭션을 구성하고, 사용자들의 행동 패턴을 발견하기 위한 의미 있는 문서만을 추출하여 추출된 문서를 대상으로 발견한 빈발 항목으로 연결리스트를 구성하며, 빈발 패턴을 찾아 웹 페이지에 적용하는 일련의 알고리즘을 제안한다. 제안한 알고리즘의 특징은 첫째, 빈발패턴 발견을 위해 생성하는 연결리스트 이외에는 마이닝 과정에서 다른 중간생성물이 필요하지 않으므로 공간 사용면에 있어 효율적이다. 둘째, 기존의 연관규칙 알고리즘에 비해 데이터 베이스의 스캔 횟수를 줄이고, 시간복잡도를 개선하였다.

다차원 FCM을 이용한 웹 로그 데이터의 유사 패턴 분석 (Similarity Pattern Analysis of Web Log Data using Multidimensional FCM)

  • 김미라;조동섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.190-192
    • /
    • 2002
  • 데이터 마이닝(Data Mining)이란 저장된 많은 양의 자료로부터 통계적 수학적 분석방법을 이용하여 다양한 가치 있는 정보를 찾아내는 일련의 과정이다. 데이터 클러스터링은 이러한 데이터 마이닝을 위한 하나의 중요한 기법이다. 본 논문에서는 Fuzzy C-Means 알고리즘을 이용하여 웹 사용자들의 행위가 기록되어 있는 웹 로그 데이터를 데이터 클러스터링 하는 방법에 관하여 연구하고자 한다. Fuzzv C-Means 클러스터링 알고리즘은 각 데이터와 각 클러스터 중심과의 거리를 고려한 유사도 측정에 기초한 목적 함수의 최적화 방식을 사용한다. 웹 로그 데이터의 여러 필드 중에서 사용자 IP, 시간, 웹 페이지 필드를 WLDF(Web Log Data for FCM)으로 가공한 후, 다차원 Fuzzy C-Means 클러스터링을 한다. 그리고 이를 이용하여 샘플 데이터와 임의의 데이터간의 유사 패턴 분석을 하고자 한다.

  • PDF

유비쿼터스 데이터 마이닝, 도전과 과제 (Ubiquitous Data Mining, Challenge and Task)

  • 전성해
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.57-60
    • /
    • 2005
  • 21세기에 들어서면서 인터넷은 새로운 패러다임인 유비쿼터스 컴퓨팅 환경으로 빠르게 바뀌고 있다. 특히 2005년에 접어들면서 유비쿼터스는 정보기술 분야에서 건설, 의료, 교통, 안전, 교육 등 사회 각 분야에서 유비쿼터스 컴퓨팅의 도입을 추진하고 있다 동시에 유비쿼터스 컴퓨팅이 각 분야에서 적용이 될 때에는 지능형 시스템에 의한 서비스가 이루어 져야 한다는 것에 대하여 모두가 공감하고 있다. 지능형 유비쿼터스 서비스가 이루어지기 위한 하나의 방법으로서 현재 인터넷의 지능형 서비스에서 활발하게 이루어지고 있는 데이터 마이닝 전략이 있다. 즉 유비쿼터스 컴퓨팅 환경에서 발생하는 엄청난 양의 데이터를 분석하여 지능형 유비쿼터스 서비스를 하기 위한 데이터 마이닝 분야가 바로 유비쿼터스 데이터 마이닝이다. 유비쿼터스 데이터 마이닝은 오프라인 데이터 마이닝, 웹 마이닝 등에 비해 여러 가지 다른 점들이 있다. 본 논문에서는 유비쿼터스 데이터 마이닝에 대한 소개와 기존의 데이터 마이닝 프로세스와의 차이점을 알아본다. 아울러 유비쿼터스 컴퓨팅 환경에서 이루어져야 할 데이터 마이닝 전략의 과제와 도전에 대한 이슈들을 살펴보고 몇 가지 모의실험을 통하여 이것들에 대한 확인을 하였다.

  • PDF

프로세스 마이닝을 이용한 웹 사이트의 이용 패턴 분석 및 그룹 간 비교 분석 (Usage Pattern Analysis and Comparative Analysis among User Groups of Web Sites Using Process Mining Techniques)

  • 김슬기;정재윤
    • 한국빅데이터학회지
    • /
    • 제2권2호
    • /
    • pp.105-114
    • /
    • 2017
  • 오늘날 많은 서비스 지원이 웹 사이트를 통해 제공되고 있다. 웹 사이트의 이용 및 효율성을 최적화하기 위하여 방문자들의 이용 패턴 분석이 매우 중요하다. 본 연구에서는 BPI Challenge 2016에서 제공하는 웹 사이트 접속 로그를 분석하여 이용 패턴 분석 및 이용자 그룹별 비교 분석 연구를 수행하였다. 이 데이터는 네덜란드 고용보험사(UWV)의 IT 시스템의 웹 사이트 접속 로그를 제공하며, 고객의 인적 정보, 해당 기관의 웹 사이트를 사용할 때의 고객 행동을 설명하는 클릭 데이터 등의 대한 정보를 포함하고 있다. 본 연구에서는 프로세스 마이닝 기법을 이용하여 사용 고객의 사용 패턴과 고객 그룹 간 특징을 분석하여, 궁극적으로 웹 서비스를 이용하는 고객들을 대상으로 서비스 품질을 향상시키고자 한다.

  • PDF

프로세스 마이닝을 이용한 웹 로그 분석 프레임워크 (A Framework for Web Log Analysis Using Process Mining Techniques)

  • 안윤하;오규협;김상국;정재윤
    • 정보화연구
    • /
    • 제11권1호
    • /
    • pp.25-32
    • /
    • 2014
  • 웹 마이닝은 사용자의 웹 이용 분석을 위해 웹에서 발생한 데이터를 대상으로 유용한 패턴을 찾아내는 기법이다. 하지만 기존의 웹 마이닝은 웹 로그의 연속적인 특성을 충분히 반영하여 분석하지 못하였다. 이를 보완하기 위하여 본 연구에서는 프로세스 마이닝을 활용하여 프로세스 모델에 의한 순차적인 관계에 따른 웹 접속 로그를 분석하는 프레임워크를 제시한다. 프로세스 모델에 기반한 웹 로그 분석은 웹 페이지들을 이동한 사용자들의 행위를 이해하고 문제점과 개선방안을 도출하는 데 유용하게 사용될 수 있다. 본 연구에서는 제안한 방법론을 이용하여 대학정보시스템의 웹 로그를 분석하여 적용 가능성과 그 분석 결과를 제시하였다.

웹 데이터에서의 사용자 탐색 패턴 발견 및 추천 (Discovery and Recommendation of User Search Patterns from Web Data)

  • 구흠모;양재영;홍광희;최중민
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.287-296
    • /
    • 2002
  • 웹 사용 마이닝은 데이터마이닝을 바탕으로 사용자의 로그 파일 정보를 이용하여 웹이 이용되는 패턴을 발견한다. 이를 이용하여 웹을 개선하여 사용자들이 보다 빨리 원하는 내용을 검색할 수 있도록 할 수 있으며 시스템 관리자에게는 효율적인 웹 구조를 인한 정보를 제공할 수 있다. 웹 사용 마이닝에서 사용하는 데이터는 성형화되어 있지 않으며 웹 사용 패턴을 분석하는데 방해가 되는 잡음 데이터까지 포함하고 있다. 이것은 기존에 개발된 여러 데이터마이닝 기법을 적용하는데 어려움으로 작용한다. 이러한 어려움을 해결하기 위해 본 논문에서는 새로운 방법을 도입한 SPMiner을 .제안한다. SPMiner는 웹의 구조를 이용하여 로그 파일의 전처리 과정을 줄이며 사용자의 탐색 패턴 분석을 효율적으로 수행 할 수 있는 시스템이다. SPMiner는 WebTree 에이전트를 이용하여 웹 사이트 구조를 분석하여 WebTree를 생성하고 사용자 로그 파일을 분석하여 각 웹 페이지의 사용빈도에 대한 정보를 추출한다. WebTree와 로그 파일에서 추출된 웹 페이지에 대한 정보는 SPMiner에 의해 패턴을 분석할 퍼 이용될 수 있는 형태인 WebTree$^{+}$로 병합된다 WebTree$^{+}$는 패턴 발견을 쉽게 해주며 사용자에게 추천할 정보나 웹 페이지를 능동적으로 추천할 수 있게 만들어 준다.

  • PDF

소셜미디어 빅데이터의 텍스트 마이닝과 오피니언 마이닝 기법을 활용한 웹드라마 분석과 제안 (Webdrama Analysis and Recommendation using Text Mining and Opinion Mining Technique of Social Media)

  • 오세종;김치호
    • 만화애니메이션 연구
    • /
    • 통권44호
    • /
    • pp.285-306
    • /
    • 2016
  • 1인 스마트폰 사용으로 웹툰, 웹소설, TV드라마는 생산자에서 소비자에게 직접적으로 소비할 수 있는 Direct-to-Consumer로 전환되고 있다. 특히, 포털사이트의 웹드라마는 새로운 미디어로 급성장하고 있다. '연애세포', '0시의 그녀', '최고의 미래', '우리 옆집에 EXO가 산다' 등을 TV드라마의 시청률처럼 조회수, 유입자, 댓글, 좋아요 등으로 다양한 반응을 분석할 수 있다. 분석 방법은 소셜미디어 빅데이터의 텍스트 마이닝 기법과 오피니언 마이닝 기법으로 작품을 분석했다. 즉, 웹드라마 마다의 특정 키워드를 추출하고, 추출한 키워드의 긍정, 부정, 중립 등 시청자의 감정을 예측할 수도 있다. 주요 인기 웹드라마를 분석한 결과로는 이미 팬을 확보한 K-Pop 아이돌 멤버의 출현과 포털사이트의 편성 회사와의 연관성이 재생수, 유입자, 댓글, 좋아요에 큰 영향을 미치는 것으로 나타났다. 또한 TV 이외의 매체로 '모바일 TV'의 영향력을 증명하였다. 한계점으로는 모바일 특화 콘텐츠 확보와 비즈니스 모델을 정립하는 것이 필요하겠다. 이 부분을 해결한다면, 한국은 웹드라마의 콘텐츠 강국이라는 긍정적 이미지를 보여줄 수 있는 계기가 될 것이다.