• Title/Summary/Keyword: 웹 사용 마이닝

Search Result 159, Processing Time 0.04 seconds

Spam Filtering using Opinion Mining (오피니언 마이닝을 이용한 스팸 필터링)

  • Oh, Jin-Soo;Ryu, Joon-Suk;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.745-746
    • /
    • 2009
  • 오늘날 사람들의 의견을 제시하는 공간은 폐쇄적인 인쇄물이나 수동적인 답변 수준을 벗어나 무한의 공간을 가지는 웹에서 이루어지고 있다. 불특정 다수를 대상으로 하며 정형화된 틀을 없는, 더욱 유용한 의견을 많이 얻을 수 있는 특징을 가졌기 때문에, 이를 위해 오피니언 마이닝에 대한 연구가 활발히 진행되고 있다. 기본적으로 오피니언 마이닝은 해당 분야에 대한 정확한 정보를 찾는 것을 목적으로 하지만, 그러한 정보를 제외한 나머지 부분에 대해서도 충분히 유용하게 사용할 수 있다. 본 논문에서는 그 나머지 부분을 이용하여 무분별하게 등록되고 있는 스팸성 댓글을 효과적으로 필터링 할 수 있는 방법을 제안한다.

Design of Web-based Phylogentic Tree Inference System Using DataBase (데이터 베이스를 이용한 웹 기반 계통수 추론 시스템 설계)

  • Kim, Shin-Suck;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.121-124
    • /
    • 2001
  • 계통수는 특정 객체의 분류 즉 특정 객체로부터 추출한 염기서열을 이용하여 그 객체의 소속 분류 집단을 결정하기 위해서 사용될 수 있다. 만약 특정지역에서 획득한 토끼의 종을 구분하기 위해서 이미 분류된 토끼의 염기서열들을 가지고 염기서열들과의 관계를 표현하는 계통수를 제작함으로써, 객체를 분류 할 수 있다. 계통수 제작은 기존의 계통수 제작 도구들(MEGA등)이 사용되지만, 이러한 계통수 제작 도구는 객체의 어떤 특성에 의해서 종이 나뉘어지는 가는 예측 할 수 없다. 계통수 제작에 이용되는 염기서열 데이터는 기존의 염기서열 데이터 베이스들(EMBL, GenBank, DDBJ)에서 인터넷을 이용하여 찾을 수 있지만, 계통생물학을 위해 누적된 데이터가 아니므로, 계통수 제작을 위해서는 사용이 제한적이다. 또 계통수 제작 도구을 사용하기 위해서는 자신이 관련 염기서열 데이터를 수집하여야 한다. 본 논문은 웹기반 계통수 추론 시스템을 제시한다. 본 시스템은 염기서열 데이터를 검색하여, 계통 분류 즉 계통수 제작을 위한 데이터로 저장하고, 이를 이용하여 계통수를 그릴 수 있다. 또한 이렇게 저장된 데이터는 데이터 마이닝 분류 기법을 사용하여, 각 객체 분류 집단을 모델링하며, 분류 속성을 예측할 수 있다.

  • PDF

Feature Extraction of Web Document using Association Word Mining (연관 단어 마이닝을 사용한 웹문서의 특징 추출)

  • 고수정;최준혁;이정현
    • Journal of KIISE:Databases
    • /
    • v.30 no.4
    • /
    • pp.351-361
    • /
    • 2003
  • The previous studies to extract features for document through word association have the problems of updating profiles periodically, dealing with noun phrases, and calculating the probability for indices. We propose more effective feature extraction method which is using association word mining. The association word mining method, by using Apriori algorithm, represents a feature for document as not single words but association-word-vectors. Association words extracted from document by Apriori algorithm depend on confidence, support, and the number of composed words. This paper proposes an effective method to determine confidence, support, and the number of words composing association words. Since the feature extraction method using association word mining does not use the profile, it need not update the profile, and automatically generates noun phrase by using confidence and support at Apriori algorithm without calculating the probability for index. We apply the proposed method to document classification using Naive Bayes classifier, and compare it with methods of information gain and TFㆍIDF. Besides, we compare the method proposed in this paper with document classification methods using index association and word association based on the model of probability, respectively.

Web Contents Mining System for Real-Time Monitoring of Opinion Information based on Web 2.0 (웹2.0에서 의견정보의 실시간 모니터링을 위한 웹 콘텐츠 마이닝 시스템)

  • Kim, Young-Choon;Joo, Hae-Jong;Choi, Hae-Gill;Cho, Moon-Taek;Kim, Young-Baek;Rhee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.1
    • /
    • pp.68-79
    • /
    • 2011
  • This paper focuses on the opinion information extraction and analysis system through Web mining that is based on statistics collected from Web contents. That is, users' opinion information which is scattered across several websites can be automatically analyzed and extracted. The system provides the opinion information search service that enables users to search for real-time positive and negative opinions and check their statistics. Also, users can do real-time search and monitoring about other opinion information by putting keywords in the system. Proposing technique proved that the actual performance is excellent by comparison experiment with other techniques. Performance evaluation of function extracting positive/negative opinion information, the performance evaluation applying dynamic window technique and tokenizer technique for multilingual information retrieval, and the performance evaluation of technique extracting exact multilingual phonetic translation are carried out. The experiment with typical movie review sentence and Wikipedia experiment data as object as that applying example is carried out and the result is analyzed.

Web Usage Mining Algorithm for Personalized Recommender System (개인화 된 추천정보 소기를 위한 Web Usage Mining 알고리즘)

  • Lee, Eun-Young;Kwak, Mi-Ra;Youm, Sun-Hee;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 2000.11d
    • /
    • pp.827-829
    • /
    • 2000
  • 오늘날 인터넷 사용자들은 정보의 홍수 속에 놓여있다. 웹사이트에 들어가면 대부분은 자신과 관련 없는 정보들이 쏟아진다. 따라서 인터넷 사용자들의 관심에 맞는 내용을 제 공해주어 시간의 절약과 동시에 사용자에게 가치 있는 정보를 제공할 수 있게 하는 서비스가 필요하다. 이러한 개인화 된 서비스를 제공해주기 위해 사용자에 대한 정확한 분석을 바탕으로 사용자에게 효율적인 서비스를 제공하여야 할 것이다. 따라서 본 논문에서는 사용자 프로파일 및 웹 로그 등을 토대로 각 고객의 성향과 패턴을 정확하게 분석하여, 사용자 각 개인에게 적합하며 효율적인 서비스를 제공해 줄 수 있는 Web Usage Mining 을 통한 사용자 패턴 추출 알고리즘을 개발하고자 한다. 본 논문에서 연구한 Web Usage Mining 알고리즘은 사용자의 웹 사용 습관을 토대로 데이터 마이닝의 과정을 거쳐 사용자의 성향과 관심을 결정하고, 이를 바탕으로 사용자에게 알맞은 내용을 제공할 수 있도록 할 것이다. 이때, 사용자의 정보는 웹 내에서의 행동 중에서 중요하게 사용되는 특정한 페이지를 보는 시간, 웹 서핑 패턴, 전자 상거래 사이트의 경우에는 구매한 상품과 쇼핑 카트에 넣은 상품 등의 관찰된 정보를 기반으로 하며, 개인의 사생활을 침해하지 않는 범위 내에서 이루어지도록 했다.

  • PDF

Building Data Warehouse System for Weblog Analysis (웹로그 분석을 위한 데이터 웨어하우스 시스템 구축)

  • Lee, Joo-Il;Baek, Kyung-Min;Shin, Joo-Hahn;Lee, Won-Suk
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2010.05a
    • /
    • pp.291-295
    • /
    • 2010
  • 최근 급격한 하드웨어 기술과 데이터베이스 시스템의 발전은 우리 주변에서 발생하는 다양한 분야의 데이터를 자동으로 수집하는 것을 가능하게 하였다. 흔히 데이터 스트림(data stream)이라고 언급되는 끊임없이 생산되는 대용량의 데이터를 효율적으로 처리하여 유용한 정보를 얻어내는 기술은 이미 많은 응용 분야에서 광범위하게 연구되고 있다. 인터넷은 이러한 데이터 스트림을 양산해 내는 주요 원천 중의 하나이다. 인터넷 비즈니스의 활성화와 더불어 웹로그 데이터 스트림은 마케팅, 전략 수립, 고객관리 등 여러 부분에 광범위하게 활용되기 시작했으며, 보다 정확하고 효율적인 분석에 대한 요구사항도 점점 늘어나고 있다. 데이터 웨어하우스(Data Warehouse)는 수집된 데이터를 주제 기반으로 통합하여 시계열 형태로 적재하는 저장소서 유용한 분석이나 의사결정에 많이 사용되어 왔다. 데이터웨어하우스는 데이터를 요약하고 통합 및 정제하는 기능을 제공하여 대용량의 데이터 처리에 적합하고 데이터의 품질을 향상시키기 때문에 데이터 마이닝 분야에서 전처리 과정으로도 많이 이용되어 왔다. 본 논문에서는 웹로그 데이터 스트림에 대한 데이터 웨어하우스를 구축하여 보다 고품질의 유용한 정보를 효율적으로 얻어내는 시스템을 제안한다.

  • PDF

Constructing A Small Tree with High Accuracy through Web Log Classification (웹 로그 분석을 통한 높은 정확도를 가지는 소형 트리 구축)

  • Hyun Woo-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.229-231
    • /
    • 2006
  • 웹 마이닝은 e-서비스 시스템에서 고객 활동을 분석하기 위하여 널리 보급된 방법 중 하나로서 궁극적인 목표는 새로운 고객을 얻고 기존 고객을 유지하면서 고객의 생산성을 증가시키는데 도움을 줄 수 있는 유용한 정보를 인식하는 것이다. 그러나 웹 로그 자료와 고객의 구매 패턴 사이에 직접적인 관계가 없고, 실험 데이터 집합이 적고 부정확 할 경우 실험 데이터의 적은 집합만으로 유용한 정보를 인식하는 것은 불충분하기 때문에 유용한 정보를 인식하는 것은 더욱 어렵게 된다. 본 논문에서는 기업들에게 유용한 패턴을 제공할 수 있는 독자적인 분류 방법을 사용하여 기존 고객의 보존력을 높일 수 있는 높은 정확도를 가지는 소형 트리를 구축할 수 있었다.

  • PDF

Mining Interesting Sequential Pattern with a Time-interval Constraint for Efficient Analyzing a Web-Click Stream (웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색)

  • Chang, Joong-Hyuk
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.16 no.2
    • /
    • pp.19-29
    • /
    • 2011
  • Due to the development of web technologies and the increasing use of smart devices such as smart phone, in recent various web services are widely used in many application fields. In this environment, the topic of supporting personalized and intelligent web services have been actively researched, and an analysis technique on a web-click stream generated from web usage logs is one of the essential techniques related to the topic. In this paper, for efficient analyzing a web-click stream of sequences, a sequential pattern mining technique is proposed, which satisfies the basic requirements for data stream processing and finds a refined mining result. For this purpose, a concept of interesting sequential patterns with a time-interval constraint is defined, which uses not on1y the order of items in a sequential pattern but also their generation times. In addition, A mining method to find the interesting sequential patterns efficiently over a data stream such as a web-click stream is proposed. The proposed method can be effectively used to various computing application fields such as E-commerce, bio-informatics, and USN environments, which generate data as a form of data streams.

Design of Database Cache by Association Mining Method (연관마이닝에 의한 데이터베이스캐시 설계)

  • 사재학;남인길
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.7 no.2
    • /
    • pp.16-32
    • /
    • 2002
  • 효율적인 데이타마트 정보의 축척과 질의 정보 추출을 위한 연관 마이닝 방법을 적용하여 검색 속도를 빠르게 할 수 있도록 테이블을 생성하고 고객의 속성별 가중치와 선호기준을 입력받아 선호 점수를 계산하여 점수가 높은 과목을 우선적으로 검색할 수 있도록 기존 연관 알고리즘에서 사용한 단일 항목 입력 데이터 구조를 확장하여 다중 항목 연관 알고리즘(Multiple Item Association Mining : MIAM)을 이용하여 생성된 연관 검색 유형 테이블을 데이터베이스캐시화를 설계하였다. 동일한 알고리즘에서도 데이터베이스캐시 시스템을 적용한 시스템의 질의 처리 수행속도가 우수성을 이용하여 설계함으로써 효율적인 웹 서버 기능을 수행할 수 있음과 동시에 데이터베이스 캐싱의 주요 이점인 효율성 증대, 속도 향상, 비용절감의 효과를 얻을 수 있으므로 연구 설계하였다.

  • PDF

Classifying Korean Comparative Sentences Using Transformation-based Learning (변환 기반 학습을 이용한 한국어 비교 문장 유형 분류)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.31-34
    • /
    • 2009
  • 본 연구의 목표는 비교 문장들을 일곱 가지 유형으로 자동 분류하는 것으로서, 비교 문장 추출, 비교 문장 유형 분류, 유형별 비교 관계 분석으로 이어지는 비교마이닝 세 단계 중 두 번째 과제이다. 본 연구에서는 변환 기반 학습(Transformation-based Learning) 기법을 이용한다. 자연어 처리 분야 여러 부문에서 사용되고 있는 변환 기반 학습은 오류를 감소시키는 최적의 규칙을 자동으로 생성하여 정답을 찾는 규칙 기반 학습 방법이다. 웹상의 다양한 도메인에서 추출한 비교 문장들을 대상으로 실험한 결과, 일곱 가지 비교 문장 유형을 분류하는데 있어서 정확도 80.01%의 우수한 성능을 산출하였다.

  • PDF