• Title/Summary/Keyword: 속성데이터

Search Result 1,594, Processing Time 0.025 seconds

Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data (교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교)

  • Kim, Jeongmin;Ryu, Kwang Ryel
    • Journal of Intelligence and Information Systems
    • /
    • v.21 no.4
    • /
    • pp.1-16
    • /
    • 2015
  • Traffic accident is one of the major cause of death worldwide for the last several decades. According to the statistics of world health organization, approximately 1.24 million deaths occurred on the world's roads in 2010. In order to reduce future traffic accident, multipronged approaches have been adopted including traffic regulations, injury-reducing technologies, driving training program and so on. Records on traffic accidents are generated and maintained for this purpose. To make these records meaningful and effective, it is necessary to analyze relationship between traffic accident and related factors including vehicle design, road design, weather, driver behavior etc. Insight derived from these analysis can be used for accident prevention approaches. Traffic accident data mining is an activity to find useful knowledges about such relationship that is not well-known and user may interested in it. Many studies about mining accident data have been reported over the past two decades. Most of studies mainly focused on predict risk of accident using accident related factors. Supervised learning methods like decision tree, logistic regression, k-nearest neighbor, neural network are used for these prediction. However, derived prediction model from these algorithms are too complex to understand for human itself because the main purpose of these algorithms are prediction, not explanation of the data. Some of studies use unsupervised clustering algorithm to dividing the data into several groups, but derived group itself is still not easy to understand for human, so it is necessary to do some additional analytic works. Rule based learning methods are adequate when we want to derive comprehensive form of knowledge about the target domain. It derives a set of if-then rules that represent relationship between the target feature with other features. Rules are fairly easy for human to understand its meaning therefore it can help provide insight and comprehensible results for human. Association rule learning methods and subgroup discovery methods are representing rule based learning methods for descriptive task. These two algorithms have been used in a wide range of area from transaction analysis, accident data analysis, detection of statistically significant patient risk groups, discovering key person in social communities and so on. We use both the association rule learning method and the subgroup discovery method to discover useful patterns from a traffic accident dataset consisting of many features including profile of driver, location of accident, types of accident, information of vehicle, violation of regulation and so on. The association rule learning method, which is one of the unsupervised learning methods, searches for frequent item sets from the data and translates them into rules. In contrast, the subgroup discovery method is a kind of supervised learning method that discovers rules of user specified concepts satisfying certain degree of generality and unusualness. Depending on what aspect of the data we are focusing our attention to, we may combine different multiple relevant features of interest to make a synthetic target feature, and give it to the rule learning algorithms. After a set of rules is derived, some postprocessing steps are taken to make the ruleset more compact and easier to understand by removing some uninteresting or redundant rules. We conducted a set of experiments of mining our traffic accident data in both unsupervised mode and supervised mode for comparison of these rule based learning algorithms. Experiments with the traffic accident data reveals that the association rule learning, in its pure unsupervised mode, can discover some hidden relationship among the features. Under supervised learning setting with combinatorial target feature, however, the subgroup discovery method finds good rules much more easily than the association rule learning method that requires a lot of efforts to tune the parameters.

Establishing Data Quality Metric from Dirty Data (오류 데이터로부터의 데이터 품질 메트릭의 정립)

  • 김수경;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.409-411
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제 표준인 ISO/IEC9126은 소프트웨어 품질 특성 및 측적 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 오류 데이터 형태를 분류하고, 이를 기반으로 데이터 품질 특성을 추출한다. 추출된 데이터 품질 특성을 측정하기 위해, 오류 데이터를 품질 속성으로 하는 데이터 품질 특성을 추출한다. 본 논문에서 제시하는 데이터 품질 메트릭은 지식 공학(knowledge engineering) 시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF

The Generation of Control Rules for Data Mining (데이터 마이닝을 위한 제어규칙의 생성)

  • Park, In-Kyoo
    • Journal of Digital Convergence
    • /
    • v.11 no.11
    • /
    • pp.343-349
    • /
    • 2013
  • Rough set theory comes to derive optimal rules through the effective selection of features from the redundancy of lots of information in data mining using the concept of equivalence relation and approximation space in rough set. The reduction of attributes is one of the most important parts in its applications of rough set. This paper purports to define a information-theoretic measure for determining the most important attribute within the association of attributes using rough entropy. The proposed method generates the effective reduct set and formulates the core of the attribute set through the elimination of the redundant attributes. Subsequently, the control rules are generated with a subset of feature which retain the accuracy of the original features through the reduction.

A Study on Recommendation Systems based on User multi-attribute attitude models and Collaborative filtering Algorithm (다속성 태도 모델과 협업적 필터링 기반 장소 추천 연구)

  • Ahn, Byung-Ik;Jung, Ku-Imm;Choi, Hae-Lim
    • Smart Media Journal
    • /
    • v.5 no.2
    • /
    • pp.84-89
    • /
    • 2016
  • For a place-recommendation model based on user's behavior and multi-attribute attitude in this thesis. We focus groups that show similar patterns of visiting restaurants and then compare one and the other. We make use of The Fishbein Equation, Pearson's Correlation Coefficient to calculate multi-attribute attitude scores. Furthermore, We also make use of Preference Prediction Algorithm and Distance based method named "Euclidean Distance" to provide accurate results. We can demonstrate how excellent this system is through several experiments carried out with actual data.

Extending Na$ddot{i}$ve Bayesian Classifier for Catalog Classification Systems (Na$ddot{i}$ve-Bayesian Classifier를 이 용한 전자 카탈로그 자동 분류 시스템)

  • 서광훈;이경종;김현철;이태희;이상구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.91-93
    • /
    • 2004
  • B2B Marketplace상에서의 거래에서 나타나는 주요한 특징은 다품종 및 대량의 물품 거래가 n:n거래 관계에 놓여있다는 점과 거래자가 원활한 거래 및 기업 내 관리를 위해 각자의 전자 카탈로그를 이용한 거래를 원한다는 정이다. 하지만 개별적인 전자 카탈로그 사용과 미흡한 표준안은 전자 카탈로그 상호 연계의 걸림돌이 되어 시장 형성의 걸림돌이 되고 있다. B2B Marketplace는 표준 분류체계를 중심으로 거래 대상 상품을 재분류하여 구매 당사자간의 거래 대상 물품에 대한 상호 애핑을 지원하는 방법 등으로 이를 충족시키려 하고 있다. 하지만 요청되는 다량의 물품에 대해 매번 분류를 수행해야 하는 고비용의 작업이라는 문제점이 있다. 본 논문에서는 이를 극복하기 위하여 기계학습 기법을 이용한 전자 카탈로그 상품 자동분류기를 모델링하고 이를 구현하는 것에 초점을 두었다. 상품의 속성별로 분류에 끼치는 영향력이 다론 것이라는데 착안하여 전자 카탈로그를 상품 단위로 재 모델링 하였으며 속성별 정보가 풍부하지 못한 정물 극복하기 위하여 속성값을 어휘 단위로 구분한 데이터를 추가 하는 확장 모델을 정의하였다. 또한 해당 모델을 학습시키기 위한 알고리즘으로는 속성별로 다른 가중치를 부여 할 수 있도록 확장된 Naive Bayesian Classifier를 고안하였다. 그리고 이론 B2B Market Place상의 실 데이터에 적용하여 고안된 모델의 유효성을 검증하였다.

  • PDF

A WebDAV Extension for an Effective Resource Sharing and Its Application (효과적인 자원공유를 위한 WebDAV의 확장과 그 응용)

  • Ahn, Geon-Tae;Jung, Hye-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06d
    • /
    • pp.384-388
    • /
    • 2007
  • WebDAV(Web-based Distributed Authoring and Versioning)는 웹 기반의 분산 저작과 버전관리를 지원하는 표준 명세로서, 인터넷을 통하여 다양한 콘텐츠의 비동기적인 협업을 지원하는 표준 하부구조를 제공한다. 특히 WebDAV의 속성 관리 기능은 자원의 주요 정보를 속성으로 설정하여 관리할 수 있는 기능이다. 이러한 WebDAV의 속성 관리기능을 이용하는 경우 사용자 측에서 자유롭게 속성관리가 가능하여 웹을 기반으로 하는 협업시스템 및 자원공유 시스템을 개발하는데 매우 유용하게 활용될 수 있다. 본 논문에서는 웹을 통한 문서 및 데이터의 관리를 제공하는 응용시스템의 개발을 효율적으로 지원할 수 있도록 한 WebDAV 프로토콜의 확장과 이를 이용하여 기업내에서 생성되는 기술문서 및 도면 문서에 대한 협업을 지원해주는 도면공유시스템을 개발하였다. 확장된 WebDAV의 기능을 이용하는 경우 응용시스템 개발자는 사용자 속성을 정의함으로써 어플리케이션을 간편하게 설계할 수 있게 되며, 기존의 웹 서버에서는 복잡하게 구현해야했던 자원에 대한 잠금관리 및 버전관리 기능도 지원받을 수 있게 된다.

  • PDF

Fine-Grain Weighted Logistic Regression Model (가중치 세분화 기반의 로지스틱 회귀분석 모델)

  • Lee, Chang-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.53 no.9
    • /
    • pp.77-81
    • /
    • 2016
  • Logistic regression (LR) has been widely used for predicting the relationships among variables in various fields. We propose a new logistic regression model with a fine-grained weighting method, called value weighted logistic regression, by assigning different weights to each feature value. A gradient approach is utilized to obtain the optimal weights of feature values. We conduct experiments on several data sets and the experimental results show that the proposed method shows meaningful improvement in prediction accuracy.

A Study on the Influence of the Flow by the Presence and Satisfaction Factors - Focused on Online Game - (실재감요인과 만족감요인이 몰입에 미치는 영향에 관한 연구 - 온라인게임을 중심으로 -)

  • Jo, Jin-Wan;Lee, Jong-Ho
    • Proceedings of the Korea Database Society Conference
    • /
    • 2008.05a
    • /
    • pp.87-106
    • /
    • 2008
  • This study identified the properties of online game, and analyzed existing studies on the impact of the properties of online game on flow. As a result, graphics, sounds, scenarios, game speed, manipulability, and item difficulty were identified as properties of online game, which were influential factors to flow. As a result, the hypotheses on scenarios, game speed, and item difficulty were adopted as significantly influential factors to flow, Attribute of online game. Meanwhile, the hypotheses on graphics, sounds, and manipulability, which were expected to significantly impact flow, were rejected.

  • PDF

Feature Selection for Bio Named Entity Recognition from Biological Literature (바이오 문헌에서의 단백질, 유전자 객체 인식을 위한 특징 추출)

  • Kim, Tae-Wook;Li, Meijing;Tsendsuren, Munkhdalai;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.166-168
    • /
    • 2012
  • 바이오 문헌으로부터의 의미 있는 객체 추출 및 상호작용 관계 추출은 수 많은 바이오 문헌으로부터 유용한 정보를 얻기 위한 필수적인 과정이다. 특히 문헌으로부터 유전자 또는 단백질 이름과 같은 바이오 객체를 정확하게 인지하는 것은 새로운 객체인식의 어려움과 객체를 찾기 위한 특징 패턴의 다양성으로 인해 도전적인 과제로 남아있다. 본 논문에서는 전처리 과정을 거친 문헌 데이터로부터 12개의 의미 있는 속성들을 선택하였다. 선택된 속성에 데이터마이닝 기법중 하나인 속성 추출 기법을 적용하여 객체를 분류하는데 있어 의미 있는 속성들을 추출하였다. 특징 추출 방법과 분류 알고리즘이 분류 성능에 미치는 영향을 평가하기 위해 각 방법의 정확도를 사용하여 분류 성능을 비교였으며, Gain Ratio Attribute Evaluation과 Symmetrical Uncertainty Attribute Evaluation 기법에 의해 추출된 속성이 가장 정확한 분류 성능을 보여주었다.

A Transformation of XML Documents with Semantic Constraints using XML Schema (XML 스키마의 의미 구조 분석을 이용한 XML문서의 변환)

  • Kawk Dong-Guy;Park Ho-Byung;Yoo Chae-Woo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.592-594
    • /
    • 2005
  • XML은 현재 어플리케이션에서 데이터를 저장하는 W3C 표준으로 많은 응용 분야에서 사용되고 있다. 어떤 응용 프로그램에서 사용하던 기존의 XML문서를 다른 응용 프로그램에서 재사용하기 위해서는 변환 XML 문서가 가지고 있는 정보와 구조의 손실 없이 피 변환 XML의 구조에 합당하게 변환해야 한다. XML 문서 정보의 의미는 엘리먼트를 통해 표현되는데 자동으로 분석하여 변환에 적용하기 어렵다. 그러나 XML 문서는 DTD나 XML 스키마와 같은 구조적 정보를 가지고 있고 XML의 구조 정보는 엘리먼트에 속성을 표현한다. 이에 착안하여 DTD의 의미정보를 분석하여 XML 문서의 변환에 적용하는 방법이 제안되었다. 하지만 DTD는 지원하는 데이터 형식이 한정되어 있고 엘리먼트의 반복 속성도 제안되어 있다. 본 논문은 XML의 엘리먼트 정보를 분석하기 위해서 XML 스키마를 사용한다. XML 스키마는 기존에 DTD보다 다수의 데이터 타일과 엘리먼트의 반복적 속성을 다양하게 제공하고 있다. 그러므로 기존 방법보다 더 많은 정보를 변환에 적용할 수 있는 장점을 가지고 있다. 제안하는 시스템은 한번 작성한 XML 문서를 다른 XML 어플리케이션에서 재사용함으로써 XML 문서 제작성에 따른 비용을 절감할 것으로 기대된다.

  • PDF