• 제목/요약/키워드: 패턴 분류 규칙

검색결과 142건 처리시간 0.025초

이산화 알고리즘을 이용한 계층적 클러스터링의 실험적 성능 평가 (Performance Comparison of Clustering using Discritization Algorithm)

  • 원재강;이정찬;정용규;이영호
    • 서비스연구
    • /
    • 제3권2호
    • /
    • pp.53-60
    • /
    • 2013
  • 데이터로부터 의미있는 형태의 정보를 얻기 위한 여러 가지 기법들이 개발되어 왔지만, 최근 들어 가장 각광받는 분야 중 하나는 패턴인식과 기계학습 방법이다. 기존의 학습 알고리즘은 대부분 범주 형 속성에 기반 한 규칙 또는 의사 결정 모델을 생성한다. 그런데, 실세계의 데이터는 보통 범주 형 속성 외에도 수치 값을 갖는 속성을 포함하고, 또 많은 경우에 있어 수치 형 속성으로만 구성되기도 한다. 따라서 이러한 경우, 데이터를 학습에 사용하기 위해서는 수치형 속성에 대한 적절한 처리 과정이 필요하다. 본 논문에서는, 수치형 속성의 도메인을 여러 개의 분절된 부분으로 나누어 학습 알고리즘에 사용하는 방법인 이산화 기법을 설명하고 또한 데이터마이닝의 기법으로 사용되는 클러스터링(Clustering)을 사용한다. 클러스터란 대량의 데이터베이스로부터 유사한 레코드 특성을 지닌 작은 그룹으로 여러 개를 분할하는 것으로 패턴 공간에 주어진 유한 개의 패턴들이 서로 가깝게 모여서 무리를 이루고 있는 패턴 집합이다. 그 집합들 중에서 특정한 카테고리를 지정하지 않고 주어진 데이터들에서 어떤 패턴을 추출하여, 비슷한 데이터들을 묶어서 데이터를 분류하는 기법인 클러스터링에 대해 실험한다.

  • PDF

TMA 분석을 위한 지능적 의학 전문가 시스템의 설계 및 구현 (Design and Implementation of an Intelligent Medical Expert System for TMA(Tissue Mineral Analysis))

  • 조영임;한근식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권2호
    • /
    • pp.137-152
    • /
    • 2004
  • 모발분석(TMA: Tissue Mineral Analysis)은 머리카락 속에 있는 30여 가지의 미네랄과 8가지의 중금속의 양과 중요 미네랄 비율을 분석하여 체내에 과잉, 결핍 및 불균형 상태를 평가하고, 그 결과가 현재 인체에 미치는 영향을 예측하여, 건강을 유지하는 방향을 제시하는 임상 영양학 및 독성학 모발조직 검사방법을 말한다. 그러나 국내 TMA 분석방법은 몇 가지 문제점이 있다. 첫째, TMA 분석기기는 있으나 분석결과를 해석할 수 있는 한국형 의학 정보 데이타베이스가 없다. 둘째, 미국에서 보내오는 TMA 검사결과 자료가 영문이며 철저한 보안에 바탕을 둔 그래픽 파일 형태이므로 활용성이 적다. 셋째, TMA 관련 데이터베이스가 있어도 의료기관에서 사용하기 어려운 매우 낮은 수준이므로 TMA 분석 및 의료서비스를 위해 매번 미국에 의뢰해야 하므로 심각한 외화낭비를 초래한다. 넷째, TMA 결과가 서구식 생활패턴에서 비롯된 데이터 베이스로부터 구축된 것이므로 검사결과의 신뢰성 문제가 발생한다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 국내 전문 기관으로부터 자료를 제공받아 TMA 관련 국내 최초 지능적 의학 전문가 시스템(IMES: Intelligent Medical Expert System)을 개발하였다. IMES는 TMA 자료를 다단계 통계분석 방법에 의한 결정 트리 분류기를 이용하여 분류하고 다중 퍼지 규칙베이스를 구축하여, 지능적 퍼지추론 방법에 의해 한글화된 데이터베이스로부터 복잡한 자료를 추론하도록 구축하였다. 본 IMES 시스템을 실제 적용한 결과 업무능률과 만족도가 각각 86%, 92% 증가함을 알 수 있었다.

침입탐지시스템의 경보데이터 분석을 위한 데이터 마이닝 프레임워크 (An Alert Data Mining Framework for Intrusion Detection System)

  • 신문선
    • 한국산학기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.459-466
    • /
    • 2011
  • 이 논문에서는 침입 탐지시스템의 체계적인 경보데이터관리 및 경보데이터 상관관계 분석을 위하여 데이터 마이닝 기법을 적용한 경보 데이터 마이닝 프레임워크를 제안한다. 적용된 마이닝 기법은 속성기반 연관규칙, 속성기반 빈발에피소드, 오경보 분류, 그리고 순서기반 클러스터링이다. 이들 구성요소들은 각각 대량의 경보 데이터들로부터 알려지지 않은 패턴을 탐사하여 공격시나리오를 유추하거나, 공격 순서를 예측하는 것이 가능하며, 데이터의 그룹화를 통해 고수준의 의미를 추출할 수 있게 해준다. 실험 및 평가를 위하여 제안된 경보데이터 마이닝 프레임워크의 프로토타입을 구축하였으며 프레임워크의 기능을 검증하였다. 이 논문에서 제안한 경보 데이터 마이닝 프레임워크는 기존의 경보데이터 상관관계분석에서는 해결하지 못했던 통합적인 경보 상관관계 분석 기능을 수행할 뿐만 아니라 대량의 경보데이터에 대한 필터링을 수행하는 장점을 가진다. 또한 추출된 규칙 및 공격시나리오는 침입탐지시스템의 실시간 대응에 활용될 수 있다.

세션화 방식을 통한 퍼지기반 네트워크 침입탐지시스템 (A Fuzzy-based Network Intrusion Detection System Through sessionization)

  • 박주기;최은복
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.127-135
    • /
    • 2007
  • 인터넷의 광범위한 보급에 따라 컴퓨터를 이용한 불법적인 범죄가 증가하고 있고, 이러한 범죄를 막기 위한 정보보호 기술자체가 국가의 경쟁력이 되어 가고 있다. 본 논문에서는 퍼지 논리를 네트워크 침입탐지시스템에 적용하여 보안 전문가와 유사한 결과를 얻을 수 있는 자동화된 퍼지 논리기반의 침입탐지시스템을 제안한다. 프로토콜의 유사성과 시간적인 연속성을 통한 세션화된 패킷분류방식을 통한 퍼지 규칙을 본 시스템에 적용함으로서 다양하고 다변적인 공격패턴으로부터 신속한 침입 판정을 내릴 수 있다. 또한, 대용량의 네트워크 트래픽을 처리해야하는 현재의 네트워크 환경에서, 퍼지추론을 통한 자동화된 트래픽의 프로토콜별/세션별 분석결과를 보여 줌으로써 보안전문가들의 분석 시간과 비용을 절감할 수 있는 장점을 제공한다.

  • PDF

마이닝 기반 유비쿼터스 헬스케어 멀티에이전트 시스템 (A Mining-based Healthcare Multi-Agent System in Ubiquitous Environments)

  • 강은영
    • 한국산학기술학회논문지
    • /
    • 제10권9호
    • /
    • pp.2354-2360
    • /
    • 2009
  • 유비쿼터스 컴퓨팅 환경에서 가장 널리 사용 가능한 분야는 헬스케어 분야이다. 본 논문에서는 유비쿼터스 환경에서 마이닝 기반 멀티 에이전트 헬스케어 시스템을 제안한다. 제안하는 기법은 환자의 몸으로부터 생성된 센싱 데이터를 마이닝을 이용하여 진단 패턴을 뽑아내어 정상 상태, 긴급 상태, 응급 상황으로 분류할 수 있다. 이는 실시간으로 센싱되는 엄청난 양의 생체 데이터를 처리할 수 있으며, 환자의 병력 데이터와 비교, 분석한다. 이를 위해 연관 규칙 탐사를 2가지 데이터 그룹으로 구분하여 적용한다. 첫 번째는, 기존의 방대한 의료 병력 데이터로 두 번째는, 체온, 혈압, 맥박등과 같은 센서로부터 센싱한 환자의 실시간 생체데이터로 분류한다. 제안하는 시스템은 PDA 같은 모바일 디바이스 등을 통하여 병원과 멀리 떨어진 지역에서도 긴급 상황을 판단하여 처리할 수 있다. 또한 환자(노인)의 상태를 실시간으로 모니터링 함으로써 요구되는 시간과 비용을 단축하게 되고, 의료 서비스의 지원에 대한 효율성을 높이게 된다.

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

연관분석을 이용한 데이터마이닝 기법에 관한 사례연구

  • 류귀열;문영수;최승두
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.109-120
    • /
    • 2006
  • 본 연구에서는 RFM 분석을 통하여 전체 고객들을 점수화(scoring)하고 이를 다시 5개의 그룹 (최우수그룹, 우수그룹, 일반그룹, 하위그룹, 최하위그룹)으로 세분화하고, 세분그룹별 유의성을 검정한다. 이렇게 분류된 5개의 세분화그룹들은 연관분석과 의사결정나무 등을 통하여 고객들의 인구학적 변수와 자 그룹별 유의한 변수들의 패턴을 찾아냄으로써 우수 고객들을 유지하기 위해 서는 어떻게 해야 하며, 경쟁업체로 떠날 가능성이 높은 고객은 누구이며, 이러한 이유가 무엇인지에 대하여 효과적인 분석을 할 수 있는 기반이 조성된다. 본 연구의 목적은 통하여 연관규칙(association rules)과 의사결정나무(decision tree)를 비친 분석을 함으로써, 이론적으로 설명할 수 없는 복잡한 세분그룹의 특성들에 대해 효과적으로 파악하는 방법을 제시하는 것이다.

  • PDF

분류모형을 이용한 여신회사 고객대출 분석에 관한 연구 (A study on the analysis of customer loan for the credit finance company using classification model)

  • 김태형;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.411-425
    • /
    • 2013
  • 데이터마이닝이란 대용량의 자료로부터 의미있는 패턴과 규칙을 찾기 위해서 자동화되거나 반자 동화된 도구를 이용하여 데이터를 탐색하고 분석하는 과정이다. 이러한 데이터마이닝 기법을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 합리적인 의사 결정이 가능하게 된다. 금융분야에서도 데이터베이스 마케팅, 신용평가, 서비스 품질개선, 부정행위 적발 등에 데이터마이닝 기법이 다양하게 사용되고 있다. 금융거래에서 대출의 중요도와 필요성이 시간이 지날수록 점점 높아지고 있으나, 대출을 이용하는 사람과 대출건수가 증가할수록 부실대출의 위험이 함께 증가하기 때문에 대출을 해주는 여신기관의 손실을 막기 위해서는 대출여부를 정확하게 예측할 필요성이 존재한다. 본 연구에서는 국내 A 여신기관의 실제 데이터를 사용하여 대출심사에 관한 연구를 진행하였으며, 모형 구축에 있어서 안정적이고 정확한 예측을 보이는 모형을 찾기 위하여 원 데이터에서의 샘플 정제와 여러가지 모형, 데이터마이닝 기법 등을 사용하여 다양한 모형을 구축하고 비교, 평가하였다.

데이터 마이닝 기법을 이용한 상품 추천 시스템 (Recommending System of Products based on Data mining Technique)

  • 정민아;박경우;조성의
    • 한국정보통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.608-613
    • /
    • 2006
  • 전자상거래의 활성화로 인하여 인터넷상에 많은 쇼핑몰이 존재한다. 상품 추천 시스템은 고객이 원하는 정보를 얻기 위해 소요되는 시간과 노력을 절약하기 위해 필요성이 강조되고 있다. 본 논문에서는 고객의 접근 로그 데이터를 분석하기 위해 데이터 마이닝 기법 중 분류 기법을 이용하였다. 접근 로그 데이터는 고객이 쇼핑몰에 접근하였거나 접근하여 상품을 구매한 내역 등에 관한 정보를 포함하고 있다. 제안한 시스템은 두 단계로 구성한다. 제 1 단계는 데이터 필터링 모듈과 고객이 접근한 웹 페이지들 사이의 관련성을 추출하는 모듈로 구성하고, 제 2단계는 개인화 모듈과 규칙 생성 모듈로 이루어져 있다. 결과적으로 제안한 시스템은 고객의 패턴을 파악하는데 있어서 고객에게 추천하는 웹페이지들을 등급화하여 제시함으로써 고객에게 상품 추천을 효율적으로 할 수 있다.

국내 학술논문의 동명이인 저자명 식별을 위한 방법 (A Method for Same Author Name Disambiguation in Domestic Academic Papers)

  • 신다예;양기덕
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.301-319
    • /
    • 2017
  • 저자명 식별이란 다른 이름으로 표기된 한 명의 개인을 식별하는 것과 같은 이름을 가진 서로 다른 저자들을 각기 구별된 개인으로 분류하는 것으로, 저자의 연구 목록 및 연구 업적 평가, 특정 분야의 전문가를 검색하거나, 인용색인과 같은 학술 정보 서비스의 원활한 운영을 위해 반드시 해결해야 할 문제이다. 본 연구는 단순 머신러닝만을 사용한 실험 결과와 휴리스틱 방식으로 데이터 셋의 오류 수정 및 정규화 작업을 이후 머신러닝의 처리 과정에 룰 베이스 기반의 규칙을 부여한 저자명 식별 실험의 결과의 비교를 통하여, 인간의 개입이 머신러닝의 단점을 보완하고 저자명 식별 성능을 향상시킬 수 있는지 알아보았다. 그 결과 F-measure 0.1 이상 향상시킨 정규화 된 email기반의 룰 베이스 저자식별 결과로 정규화 과정과 휴리스틱 설정에 필요한 인간의 패턴인식과 추론능력이 머신러닝의 단점을 보완해줄 수 있음에 대한 가능성을 나타내었다.