• Title/Summary/Keyword: Tree mining

Search Result 566, Processing Time 0.033 seconds

The Informative Support and Emotional Support Classification Model for Medical Web Forums using Text Analysis (의료 웹포럼에서의 텍스트 분석을 통한 정보적 지지 및 감성적 지지 유형의 글 분류 모델)

  • Woo, Jiyoung;Lee, Min-Jung;Ku, Yungchang
    • Journal of Information Technology Services
    • /
    • v.11 no.sup
    • /
    • pp.139-152
    • /
    • 2012
  • In the medical web forum, people share medical experience and information as patients and patents' families. Some people search medical information written in non-expert language and some people offer words of comport to who are suffering from diseases. Medical web forums play a role of the informative support and the emotional support. We propose the automatic classification model of articles in the medical web forum into the information support and emotional support. We extract text features of articles in web forum using text mining techniques from the perspective of linguistics and then perform supervised learning to classify texts into the information support and the emotional support types. We adopt the Support Vector Machine (SVM), Naive-Bayesian, decision tree for automatic classification. We apply the proposed model to the HealthBoards forum, which is also one of the largest and most dynamic medical web forum.

Medical Fraud Detection System Using Data Mining (데이터마이닝을 이용한 의료사기 탐지 시스템)

  • Lee, Jun-Woo;Jhee, Won-Chul;Park, Ha-Young;Shin, Hyun-Jung
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.05a
    • /
    • pp.357-360
    • /
    • 2009
  • 본 연구는 데이터마이닝 기법을 이용하여 건강보험청구료에 있어서 이상정도가 심한 요양기관을 탐지하고, 실제 의료영역에 적용하기 위한 시스템 개발을 목적으로 한다. 현재 건강보험 심사평가원의 이상탐지시스템은 평가대상이 되는 항목을 개별적으로 평가하고, 탐지된 기관의 선정 이유에 대한 근거제시가 부족한 단점을 가지고 있다. 따라서 본 연구에서는 항목을 종합적으로 평가할 수 있는 정량적 지표를 설계하고, 항목들의 상대적 중요도를 파악할 수 있도록 항목들에 대한 가중치 부여한다. 또한 지표에서 얻어진 값으로 등급을 구분하고, 의사결정나무기법(decision tree)를 이용하여 해석력을 높이는 방법을 제시한다.

  • PDF

Classification of Web Data Using SASOM+DT for Web Usage Mining (웹 사용 마이닝을 위한 SASOM+DT를 이용한 웹 데이터의 분류)

  • 유시호;김경중;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.346-348
    • /
    • 2002
  • 웹 마이닝은 크게 구조 마이닝, 컨텐츠 마이닝, 사용 마이닝으로 분류될 수 있다. 이 중에서도 사용 마이닝은 사용자의 로그 데이터를 바탕으로 사용자가 탐색한 웹 페이지의 순서를 추출하거나 연관관계를 분석하는 작업이다. 특히 웹에 기반을 둔 애플리케이션의 요구를 충족시키기 위해서 사용 마이닝은 웹 마이닝에 있어서 중요한 부분으로 부각되고 있다. 본 논문에서는 사용자들의 웹 페이지의 방문 패턴을 분석하여, 미래행동을 예측하는 것을 문제로 삼고, 사용자들의 이용패턴을 SASOM(Strtcture-Adaptive SOM)분류기들의 DT(Decision Tree)앙상블을 이용하여 분류하는 방법을 제안해보았다. MS웹 데이터를 가지고 SASOM 분류기의 집합을 DT를 이용하여 결합한 결과, 분류기 하나만 사용한 경우 보다 더 좋은 결과를 얻어, 3.5% 이하의 낮은 오류율을 보였다.

  • PDF

Multi-Label Classification Approach to Location Prediction

  • Lee, Min Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.22 no.10
    • /
    • pp.121-128
    • /
    • 2017
  • In this paper, we propose a multi-label classification method in which multi-label classification estimation techniques are applied to resolving location prediction problem. Most of previous studies related to location prediction have focused on the use of single-label classification by using contextual information such as user's movement paths, demographic information, etc. However, in this paper, we focused on the case where users are free to visit multiple locations, forcing decision-makers to use multi-labeled dataset. By using 2373 contextual dataset which was compiled from college students, we have obtained the best results with classifiers such as bagging, random subspace, and decision tree with the multi-label classification estimation methods like binary relevance(BR), binary pairwise classification (PW).

Design and Implementation of a Data Extraction Tool for Analyzing Software Changes

  • Lee, Yong-Hyeon;Kim, Kisub;Lee, Jaekwon;Jung, Woosung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.21 no.8
    • /
    • pp.65-75
    • /
    • 2016
  • In this paper, we present a novel approach to help MSR researchers obtain necessary data with a tool, termed General Purpose Extractor for Source code (GPES). GPES has a single function extracts high-quality data, e.g., the version history, abstract syntax tree (AST), changed code diff, and software quality metrics. Moreover, features such as an AST of other languages or new software metrics can be extended easily given that GPES has a flexible data model and a component-based design. We conducted several case studies to evaluate the usefulness and effectiveness of our tool. Case studies show that researchers can reduce the overall cost of data analysis by transforming the data into the required formats.

Extracting Web-Table Information Using Decision Tree and Rule Based Approach (기계학습과 규칙 기반 접근 방법을 결합한 의미 있는 표 구분과 헤드 영역 추출)

  • Jung, Sung-Won;Park, Dae-Won;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.5-11
    • /
    • 2004
  • 일반적으로 HTML문서는 크게 내용과 구조로 이루어져 있다. HTML은 일반 문서와 달리 태그라는 것으로 문서에 추가 정보를 주며, 문서의 내용을 더욱 명확하게 한다. 따라서 태그를 이용하면 일반 문서보다 정보를 쉽게 구별하고 추출할 수 있다. 이러한 여러 가지 태그들 중에서 본 연구는 표를 중점적으로 연구한다. 표는 행과 열을 이용하여 어떤 사실을 조직하여 전달하는 것으로, 다른 구조적 특성들 보다 정보를 조직하는데 매우 유용하며, 글로 기술할 많은 분량을 간단히 줄이는 역할을 한다. 이와 같은 표의 특성에 주목하여 표에서 정보를 추출하는 분야를 기존 연구자들은 Web Table Mining 명명하였다. 본 연구는 기존 연구자들이 간과한 표의 구조적인 특성을 이용하여 전체 인터넷 문서에 적용할 수 있는 방법과 함께, 표에서 의미 있는 정보 추출을 위한 단계적인 모형을 제시한다.

  • PDF

A Study of cost data modeling for Megaproject (메가프로젝트 원가 자료 분석에 관한 연구)

  • Ji, Seong-Min;Cho, Jae-Kyung;Hyun, Chang-Taek
    • Proceedings of the Korean Institute of Building Construction Conference
    • /
    • 2009.11a
    • /
    • pp.253-256
    • /
    • 2009
  • To the success of the megaproject including various and complex facilities, it is needed to establish a database system. Developments in data collection, storage and extracting technology have enabled iPMIS to manage various and complex information about cost and time. Especially, when we consider that both the go and no go decision in feasibility, Cost is an important and clear criteria in megaproject. Thus, Cost data modeling is the basis of the system and is necessary process. This research is focus on the structure and definition about CBS data which is collected from sites. We used four tools which are Function Analysis in VE, Casual loop Diagram in System Dynamics, Decision Tree in Data-mining, and Normalization in SQL to identify its cause and effect relationship on CBS data. Cost data modeling provide iPMIS with helpful guideline.

  • PDF

Subtree Mining to extract Association rules from Tree Data (트리 데이터에서 연관규칙 추출을 위한 서브트리 마이닝)

  • Kang, Woo-Jun;Shin, Jun
    • Annual Conference of KIPS
    • /
    • 2006.11a
    • /
    • pp.317-320
    • /
    • 2006
  • XML 트리 데이터들로부터 빈번 서브 트리들을 추출하는 기존 방법들은 복잡하고 다수의 입력데이터 스캐닝을 필요로 할 뿐만 아니라 빈번 서브 트리를 구하기 위해 에지 하나하나의 조인 작업을 필요로 하였다. 이는 결과적으로 많은 수행 시간을 요한다. 본 논문에서는 트리데이터를 레벨 별로 나누고 이를 마치 채로 거르듯이 필터링하여 특정 수치 이상의 출현 횟수를 가지는 노드들만을 남겨 빠르게 빈번한 서브 트리를 찾고, 이를 이용하여 XML 연관규칙들을 생성하는 방법을 제시한다. 제시된 방법을 위해서 PairSet 이라는 새로운 자료구조를 도입하였으며, 이를 이용하는 크로스필터링 알고리즘을 개발하여 제시하였다.

  • PDF

Efficient Sequence Association Rule Mining for Discovering Protein Relations (단백질 서열 연관 규칙 마이닝을 위한 효율적인 알고리즘 설계)

  • Kim, Hyun-Min;Kim, Ji-Hye;Ramakrishna, R.S.
    • Annual Conference of KIPS
    • /
    • 2002.04b
    • /
    • pp.1183-1186
    • /
    • 2002
  • DNA 의 염기서열 탐색을 위한 유전체학의 다음 세대인 구조유전체학은 유전체 사업으로 인한 인간 게놈지도의 완성과 축적된 생물정보를 이용한 생물정보학의 발달과 함께 급속한 성장을 계속하고 있다. 포스트 게놈 시대를 맞이하여 생명현상에 대한 궁극적인 이해를 위한 노력으로 단백질의 구조와 기능에 대한 연구가 주목을 받게 되었다. 다양한 구조 규명을 위한 도구들과 단백질 정보를 관리하기 위한 데이터베이스 구축에 따른 관련 기술의 발전은, 앞으로 다가올 생물정보의 방대함을 감안할 때, 가치 있는 지식정보를 얻기 위한 데이터 마이닝 기법들을 통해서만 가능하다. 본 논문은 데이터 마이닝의 근간 기술인 연관규칙 마이닝을 응용한 효율적인 서열 연관 규칙 알고리즘을 제안하며, 단백질 구조의 예측을 위한 단백질 서열 및 DNA 서열간의 패턴 비교 및 연관성을 목적으로 한다. 또한, 공간적 시간적 복잡성을 CMS-tree 라는 자료구조를 통해 알고리즘의 확장성 및 병렬화의 기본 알고리즘으로 사용하도록 개발하였다.

  • PDF

Continuous Mining Over Append-Only Databases (추가전용 데이터베이스에 대한 연속 마이닝)

  • Jin, Long;Lee, Jun-Wook;Lee, Yang-Woo;Ryu,Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.10-12
    • /
    • 2002
  • 최근에 많은 새로운 타입의 어플리케이션에서 정보 시스템들에 대한 사용의 증가로 인해 연속 질의들은 여러 연구 프로젝트들에서 초점이 되고 있으며 연구가 활발히 진행되고 있다. 특히 시계열에 대해서 미래의 값에 대한 예측 모델과 FFT(Fast Fourier Transform)을 이용하여 새로운 값이 입력될 때마다 신속하게 응답할 수 있는 이웃에 관한 연속 질의에 대해 이미 연구되었다. 그러나 이것은 이웃에 관한 질의이며 또한 방대한 데이터를 처리함에 있어서 매우 효율적이지 못하다. 이 논문에서는 시계열에 있어서 예측 모델을 이용하여 미래의 값을 예측한다. 다음 DFT(Discrete Fourier Transform)을 이용하여 변환한 후 R*-tree를 구성하고, 새로운 값이 입력될 때마다 신속하게 유사성 시계열들을 찾아서 응답하는 연속 범위 질의 과정과 시스템 구조에 대해 제안한다.

  • PDF