• 제목/요약/키워드: database mining

검색결과 572건 처리시간 0.024초

Criteria of Association Rule based on Chi-Square for Nominal Database

  • 박희창;이호순
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 춘계학술대회
    • /
    • pp.25-38
    • /
    • 2004
  • Association rule mining searches for interesting relationships among items in a given database. Association rules are frequently used by retail stores to assist in marketing, advertising, floor placement, and inventory control. There are three primary quality measures for association rule, support and confidence and lift. In this paper we present the relation between the measure of association based on chi square statistic and the criteria of association rule for nominal database and propose the objective criteria for association.

  • PDF

분산데이터베이스 환경하의 시간연관규칙 적용 (Discovery Temporal Association Rules in Distributed Database)

  • Yan Zhao;Kim, Long;Sungbo Seo;Ryu, Keun-Ho
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.115-117
    • /
    • 2004
  • Recently, mining far association rules in distributed database environments is a central problem in knowledge discovery area. While the data are located in different share-nothing machines, and each data site grows by time. Mining global frequent itemsets is hard and not efficient in large number of distributed sewen. In many distributed databases. time component(which is usually attached to transactions in database), contains meaningful time-related rules. In this paper, we design a new DTA(distributed temporal association) algorithm that combines temporal concepts inside distributed association rules. The algorithm confirms the time interval for applying association rules in distributed databases. The experiment results show that DTA can generate interesting correlation frequent itemsets related with time periods.

  • PDF

데이터 마이닝의 수학적 배경과 교육방법론 (Mathematical Foundations and Educational Methodology of Data Mining)

  • 이승우
    • 한국수학사학회지
    • /
    • 제18권2호
    • /
    • pp.95-106
    • /
    • 2005
  • 본 논문에서는 수학을 기반으로 한 데이터베이스의 지식탐사 절차를 통하여 데이터의 선택, 정제, 통합, 변환, 축소, 데이터 마이닝 기법의 선택과 적용 및 모형의 평가에 관한 개념과 방법론을 소개하고 수학의 한 분야로서 통계학의 역할과 적용방법에 관하여 연구하고자 한다. 또한 오늘날 관심이 대상이 되고 있는 데이터 마이닝의 역사와 수학적 배경, 통계 및 정보 기술을 이용한 데이터 마이닝의 주요 모델링 기법, 실용적 응용 분야 및 적용 사례 그리고 데이터 마이닝과 통계의 차이점에 관하여 조사하고 논하고자 한다.

  • PDF

A Prototyping Framework of the Documentation Retrieval System for Enhancing Software Development Quality

  • Chang, Wen-Kui;Wang, Tzu-Po
    • International Journal of Quality Innovation
    • /
    • 제2권2호
    • /
    • pp.93-100
    • /
    • 2001
  • This paper illustrates a prototyping framework of the documentation-standards retrieval system via the data mining approach for enhancing software development quality. We first present an approach for designing a retrieval algorithm based on data mining, with the three basic technologies of machine learning, statistics and database management, applied to this system to speed up the searching time and increase the fitness. This approach derives from the observation that data mining can discover unsuspected relationships among elements in large databases. This observation suggests that data mining can be used to elicit new knowledge about the design of a subject system and that it can be applied to large legacy systems for efficiency. Finally, software development quality will be improved at the same time when the project managers retrieving for the documentation standards.

  • PDF

데이터마이닝 기법을 이용한 건강보험공단의 수술 통계량 근사치 추정 -허니아 수술을 중심으로- (Estimation of a Nationwide Statistics of Hernia Operation Applying Data Mining Technique to the National Health Insurance Database)

  • 강성홍;서숙경;양영자;이애경;배종면
    • Journal of Preventive Medicine and Public Health
    • /
    • 제39권5호
    • /
    • pp.433-437
    • /
    • 2006
  • Objectives: The aim of this study is to develop a methodology for estimating a nationwide statistic for hernia operations with using the claim database of the Korea Health Insurance Cooperation (KHIC). Methods: According to the insurance claim procedures, the claim database was divided into the electronic data interchange database (EDI_DB) and the sheet database (Paper_DB). Although the EDI_DB has operation and management codes showing the facts and kinds of operations, the Paper_DB doesn't. Using the hernia matched management code in the EDI_DB, the cases of hernia surgery were extracted. For drawing the potential cases from the Paper_DB, which doesn't have the code, the predictive model was developed using the data mining technique called SEMMA. The claim sheets of the cases that showed a predictive probability of an operation over the threshold, as was decided by the ROC curve, were identified in order to get the positive predictive value as an index of usefulness for the predictive model. Results: Of the claim databases in 2004, 14,386 cases had hernia related management codes with using the EDI system. For fitting the models with applying the data mining technique, logistic regression was chosen rather than the neural network method or the decision tree method. From the Paper_DB, 1,019 cases were extracted as potential cases. Direct review of the sheets of the extracted cases showed that the positive predictive value was 95.3%. Conclusions: The results suggested that applying the data mining technique to the claim database in the KHIC for estimating the nationwide surgical statistics would be useful from the aspect of execution and cost-effectiveness.

관계형 데이터베이스에서 효과적 데이터 마이닝 정보 추출을 위한 관계 연산자의 정의 (Definition of Relational Operators for Effective Extracting Data Mining Information from Relational Relational Database)

  • 송지영
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권2호
    • /
    • pp.123-130
    • /
    • 2001
  • 데이터베이스의 크기가 증대함에 따라, 데이터의 분석 및 데이터베이스로부터의 지식 습득필요성이 대두되고 있다. 데이터 마이닝 기법은 그 대표적인 예이다. 대부분의 마이닝 대상 데이터 집합은 규모가 매우 크고, 데이터베이스 내에 저장되어 있다. 효과적인 마이닝 기능을 구현하기 위해서는 기존의 데이터베이스로부터 분석 대상 데이터 집합을 추출하고, 일반화시켜 함께 유지 관리함이 요구된다. 본 논문에서는 새로운 미이닝 연산자를 정의함으로써 기존 SQL 언어를 확장하여 릴레이션으로부터 분석 대상 데이터를 도메인 중심 방법으로 추출 후 일반화시킨다. 분석 대상 애트리뷰트 값과 일반화된 정보를 포함하는 배경지식은 관계형 데이터베이스의 릴레이션과 동일한 구조로 저장 및 관리된다. 또한 본 논문에서 제안된 배경지식 추출을 수행하는 SQL 유사 연산자와 집단 함수를 예제를 통하여 그 사용 예를 보임으로써, 마이닝 표현력을 나타낸다.

  • PDF

데이터베이스 시스템에서 연관 규칙 탐사 기법을 이용한 비정상 행위 탐지 (Anomaly Intrusion Detection based on Association Rule Mining in a Database System)

  • 박정호;오상현;이원석
    • 정보처리학회논문지C
    • /
    • 제9C권6호
    • /
    • pp.831-840
    • /
    • 2002
  • 컴퓨터와 통신 기술의 발달고 사용자에게 많은 정보가 편리하게 제공되는 반면, 컴퓨터 침입 및 범죄로 인한 피해가 증가하고 있다. 특히, 고객 개인 정보, 기업 기밀과 같은 주요 정보가 저장되어 있는 데이터베이스의 보안을 위해서 데이터베이스 관리 시스템의 기본적인 보안 기능 및 기존의 오용 탐지 모델이 사용되고 있다. 하지만, 다양한 시스템 침입 유형에 대한 분석 격과에 따르면 외부 침입자에 의한 시스템 파괴보다는 내부 사용자에 의한 기밀 정보 유출과 같은 권한 오용 행위에 의한 손실이 더 큰 문제가 되고 있다. 따라서, 효과적으로 데이터베이스 보안을 유지하기 위해서 사용자의 비정상 행위 판정 기술에 대한 연구가 필요하다. 본 논문에서는, 연관 규칙 마이닝 방법을 이용하여 데이터베이스 로그로부터 사용자 정상 행위 프로파일을 생성하는 방법을 제안한다. 이를 위해서 데이터베이스 로그를 의미적인 패턴 트리로 구조화하여 생성된 정상 행위 프로파일을 온라인에서 발생된 해당 사용자의 트랜잭션과 비교하여 온라인 데이터베이스 작업에 대한 비정상 행위 여부를 탐지할 수 있다. 다양한 실험을 통해 제시된 알고리즘의 효용성을 분석하고 결과를 제시하였다

Waste Database Analysis Joined with Local Information Using Decision Tree Techniques

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 춘계학술대회
    • /
    • pp.164-173
    • /
    • 2005
  • Data mining is the method to find useful information for large amounts of data in database. It is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud detection, data reduction and variable screening, category merging, etc. We analyze waste database united with local information using decision tree techniques for environmental information. We can use these decision tree outputs for environmental preservation and improvement.

  • PDF

데이터마이닝을 이용한 관측적 침하해석의 신뢰성 연구 (A Study on the Reliability of Observational Settlement Analysis Using Data Mining)

  • 우철웅;장병욱
    • 한국농공학회지
    • /
    • 제45권6호
    • /
    • pp.183-193
    • /
    • 2003
  • Most construction works on the soft ground adopt instrumentation to manage settlement and stability of the embankment. The rapid progress of the information technologies and the digital data acquisition on the soft ground instrumentation has led to the fast-growing amount of data. Although valuable information about the behaviour of the soft ground may be hiding behind the data, most of the data are used restrictedly only for the management of settlement and stability. One of the critical issues on soft ground instrumentation is the long-term settlement prediction. Some observational settlement analysis methods are used for this purpose. But the reliability of the analysis results is remained in vague. The knowledge could be discovered from a large volume of experiences on the observational settlement analysis. In this article, we present a database to store settlement records and data mining procedure. A large volume of knowledge about observational settlement prediction were collected from the database by applying the filtering algorithm and knowledge discovery algorithm. Statistical analysis revealed that the reliability of observational settlement analysis depends on stay duration and estimated degree of consolidation.

e-Business에서의 BI지원 데이타마이닝 시스템 (A Data Mining System for Supporting of Business Intelligence in e-Business)

  • 이준욱;백옥현;류근호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권5호
    • /
    • pp.489-500
    • /
    • 2002
  • 비즈니스 인텔리젼스에 대한 관심이 증대되면서 핵심 기술로써 데이타마이닝의 적용이 증대되고 있다. e-Business에서의 비즈니스 인텔리젼스를 지원하기 위해 다양한 마이닝 연산을 통합적으로 제공하는 마이닝 시스템은 데이타베이스 시스템과 유연하게 통합될 수 있어야 하며, 또한 다양한 비즈니스 응용에서의 마케팅 프로세스를 쉽게 구현할 수 있는 인터페이스를 제공하여야 한다. 이 연구에서는 e-Business영역에서의 BI를 지원하기 위해 데이타마이닝 기법을 통합적으로 제공하는 시스템으로써 EC-DaMiner 시스템을 설계, 구현하였다. 데이타마이닝 시스템은 기존의 데이타베이스 시스템과의 표준적인 인터페이스를 통하여 연동될 수 있도록 하였다. 아울러 비즈니스 어플리케이션들은 마이닝 질의어인 MQL을 통하여 규칙을 탐사하고 탐사된 규칙을 기존의 마케팅 데이타베이스에 모델화하여 반영함으로써 마케팅 전략의 구현을 용이하게 하였다.