• 제목/요약/키워드: 항목 연관성 분석

검색결과 242건 처리시간 0.028초

관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준 (Association rule thresholds considering the number of possible rules of interest items)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권4호
    • /
    • pp.717-725
    • /
    • 2012
  • 데이터 마이닝은 데이터베이스로부터 쉽게 드러나지 않는 의미 있는 정보를 생성하는 기법이다. 이 중에서 연관성 규칙은 일반적으로 발생 여부를 나타내는 자료를 이용하여 지지도, 신뢰도, 향상도 등을 수치화함으로써 항목들 간의 관련성을 나타낸다. 기존의 연관성 규칙은 발생 빈도의 크기를 고려하지 않음으로써 정보 손실에 의한 오류를 범할 수 있다. 이를 위해 본 논문에서는 발생 가능한 규칙의 수를 고려한 연관성 평가 기준들을 제안하고 예제를 통하여 기존 연구와 비교한 후, 본 논문에서 제안한 연관성 평가 기준의 유용성을 살펴보았다. 실제 데이터를 통하여 분석한 결과, 기존의 연관성 규칙 평가 기준은 관심항목 수와 트랜잭션의 수를 2배로 하여도 지지도와 신뢰도, 향상도의 값이 동일한 반면에 본 논문에서 제안한 평가 기준은 발생 가능한 규칙의 수를 고려하기 때문에 각각의 평가 기준의 값들이 트랜잭션의 수에 따라 다르다는 것을 알 수 있었다. 또한 본 논문에서 제안하는 평가 기준이 기존의 연관성 규칙 평가 기준에 비해 좀 더 정확한 정보를 제공하는 것을 알 수 있다. 특히 본 논문에서 제안한 신뢰도의 범위가 기존 연관성 평가 기준에 비해 크므로 좀 더 비교 가능한 정보를 제공하는 동시에 향상도의 비교를 용이하게 한다고 할 수 있다.

인과적 확인 측도에 의한 연관성 규칙 탐색 (Proposition of causally confirmed measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.857-868
    • /
    • 2014
  • 대량의 데이터로부터 과거에 알려지지 않았던 유용한 정보를 발견하는 기술인 데이터 마이닝 기법은 오늘날 빅 데이터 시대에 가장 대표적인 분석 기법이라고 할 수 있다. 이들 중에서도 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 흥미도 측도를 기반으로 하여 항목들 간의 관련성을 찾아내는 것이다. 그러나 기본적인 연관성 평가 기준만으로는 두 항목 간의 인과관계를 설명할 수 없을 뿐만 아니라 연관성의 방향도 파악할 수 없다. 본 논문에서는 이러한 문제를 해결하기 위해 인과적 확인 연관성 평가 기준을 제안하는 동시에, 제안한 평가 기준들이 흥미도 측도의 조건을 충족하는지의 여부를 점검하였다. 본 논문에서 제안한 인과적 확인 향상도는 세 가지 조건 모두를 만족하는 것으로 입증되었다. 인과적 확인 지지도와 인과적 확인 신뢰도는 동시 발생 확률의 값에 따라 단조 증가하는 조건과 각 항목의 주변 확률의 값에 따라 단조 감소하는 조건은 만족하였다. 또한 예제를 통해 기본적인 연관성 평가 기준과 인과적 연관성 평가 기준, 그리고 인과적 확인 연관성 평가 기준을 비교해 본 결과, 본 논문에서 제안하는 인과적 확인 측도들이 다른 평가 기준에 비해 가장 바람직한 측도라는 사실을 파악하였다.

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (1) (Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (1))

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제22권1호
    • /
    • pp.113-129
    • /
    • 2020
  • 본 연구는 2020년 한농대 입학생의 비정형 텍스트인 자소서에서 의미 있는 정보 혹은 규칙을 추출하기 위하여 고교 재학 중 '학업 및 학습경험'과 '교내 활동'을 기술한 두 개 문항에 대하여 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 모집 전형을 구분하지 않은 텍스트 마이닝 분석 결과에서 '학업 및 학습 경험' 항목과 관련된 주요 키워드는 '공부', '생각', '노력', '문제', '친구' 등의 순으로 많이 나타났으며, '교내 활동' 항목과 관련된 주요 키워드는 '활동', '생각', '친구', '동아리', '학교' 등의 순으로 빈도가 높게 나타났다. 그러나 도시 인재 전형과 농수산 인재 전형 신입생들의 키워드 빈도 순위는 두 항목 모두 전형 특성에 따른 약간의 차이를 나타냈다. 빈도 분석에 결과는 빈도수 상위 50위까지의 키워드를 워드 클라우드로 시각화하여 키워드를 알기 쉽게 표현하였다. 연관 분석은 apriori() 함수를 사용하였으며 적정한 계산을 위하여 support(지지도)와 confidence(신뢰도)의 기준값을 항목별로 설정하였다. 먼저 '학업' 항목에 대한 연관 규칙은 46개를 추출하였으며, 그 가운데 {공부} => {생각}, {성적} => {공부} 및 {과목} => {공부} 등의 규칙에서 높은 연관성을 볼 수 있었다. 이 규칙을 바탕으로 매개체 역할의 키워드를 평가하는 관계 중심성 평가와 노드에 연결된 edge의 수에 따라 중요도를 파악하는 연결 중심성 평가에서는 '생각', '공부', '노력', '시간' 등의 키워드가 중심적인 역할을 하는 정보를 획득하였다. 다음으로 '교내 활동' 항목에서는 45개의 연관 규칙을 생성하여 {활동} => {생각}, {동아리} => {활동} 등의 규칙에서 높은 연관성을 볼 수 있었으며, 관계 중심성 평가와 연결 중심성 평가에서는 '생각', '활동', '학교', '시간', '친구' 등의 키워드가 중심 키워드라는 결과를 얻었다. 다음 연구에서는 자소서의 나머지 두 개의 문항 '배려·나눔·협력·갈등관리' 항목과 한농대 '지원동기와 향후 진로계획' 항목을 분석한다. 분석에는 '키워드의 빈도'에 '문서 빈도의 역수'를 곱하여 주로 다량의 문서에서 핵심어를 추출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 추가한다.

연관 규칙과 협력적 여과 방식을 이용한 추천 시스템 (Recommender System using Association Rule and Collaborative Filtering)

  • 이기현;고병진;조근식
    • 지능정보연구
    • /
    • 제8권2호
    • /
    • pp.91-103
    • /
    • 2002
  • 기존의 인터넷 웹사이트에서는 사용자의 만족을 극대화시키기 위하여 사용자별로 개인화 된 서비스를 제공하는 협력적 필터링 방식을 적용하고 있다. 협력적 여과 기술은 비슷한 선호도를 가지는 사용자들과의 상관관계를 기반으로 취향에 맞는 아이템을 예측하여 특정 사용자에게 추천하여준다. 그러나 협력적 필터링은 추천을 받기 위해서 특정 수 이상의 아이템에 대한 평가를 요구하며, 또한 전체 사용자에 대해 단지 비슷한 선호도를 가지는 일부 사용자 정보에 의지하여 추천함으로써 나머지 사용자 정보를 무시하는 경향이 있다. 그러나 나머지 사용자 정보에도 추천을 위한 유용한 정보가 숨겨져 있다. 우리는 이러한 숨겨진 유용한 추천 정보를 발견하기 위하여 본 논문에서는 협력적 여과 방식과 함께 데이터 마이닝(Data Mining)에서 사용되는 연관 규칙(Association Rule)을 추천에 사용한다. 연관 규칙은 한 항목 그룹과 다른 항목 그룹 사이에 존재하는 연관성을 규칙(Rule)의 형태로 표현한 것이다. 이와 같이 생성된 연관 규칙은 개인 구매도 분석, 상품의 교차 매매(Cross-Marketing), 카탈로그 디자인, 염가 매출품(Loss Leader)분석, 상품 진열, 구매 성향에 따른 고객 분류 다양하게 사용되고 있다. 그러나 이런 연관 규칙은 추천 시스템에서 잘 응용되지 못하고 있는 실정이다. 본 논문에서 우리는 연관 규칙을 추천 시스템에 적용해, 항목그룹 사이에 연관성을 유도함으로써 추천에 효율적으로 사용할 수 있음을 보였다 즉 전체 사용자의 히스토리(History) 정보를 기반으로 아이템 사이의 연관 규칙을 유도하고 협력적 여과 방식과 함께 보조적으로 연관 규칙을 추천을 위해 사용함으로써 추천 시스템에 효율성을 높였다.

  • PDF

인간공학적인 조종실 공간 설계에 관한 연구 (A study on the ergonomic design of the cockpit interior space)

  • 이창민;김영준;이종선;박세권;유희천
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1993년도 추계학술대회논문집
    • /
    • pp.145-162
    • /
    • 1993
  • 조종실은 항공기-조종사 시스템에서 항공기와 조종사간의 긴밀한 상호작용이 이루어지는 유일한 공유영역으로서, 조종사의 인간성능 특성과 조종업무 특성의 체 계적 반영이 요구되어 진다. 인간공학적으로 설계된 조종실은 조종 편이성, 운용성 및 비행 안정성의 향상을 가져올 수 있다. 항공산업 육성의 초기 단계에 있는 국내 에서는 항공기 장비성능 개발 연구가 활발히 진행되고 있으나, 조종실에 대한 인간 공학적 분석 연구는 미흡한 실정이다. 조종사의 인간요소특성에 적합한 조종실 공 간을 체계적으로 설계하기 위하여, -조종실 공간 설계요소의 체계적 추출 및 계층적 구조 설정 -공간 설계에 적용될 인체측정요소의 정의 및 계층적 구조 설정, -설계요 소의 특성 파악을 위한 설계요소간 연관관계 분석, -설계요소와 인간요소간의 연관 관계 분석, -기존 전투기, 훈련기의 설계 제원 현황 및 설계지침 파악, -한국인 인체 측정자료의 Data Base화, -인간공학적인 조종실 공간 설계제원 분석을 수행하였다. 조종실 공간 설계요소로는 143 항목이 정의 되었으며, 설계요소들 간의 연관관계 Matrix 분석을 통하여 선행/병행/후행 설계요소 및 설계요소의 중요도가 파악되었다. 조종실 공간 설계에 적용될 인간 측정요소로는 133개 항목이 정의 되었으며, 설계요소 와 인간요소간의 연관관계 분석을 통하여 설계요소별로 고려되어질 인간요소를 분석 하였다. 또한 설계요소와 관련된 다른 설계요소, 인간요소 및 인체측정치, 설계지침을 종합적으로 적용함으로써 인간공학적인 조종실 공간 설계제원을 제시하였다.

  • PDF

연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안 (Generally non-linear regression model containing standardized lift for association number estimation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.629-638
    • /
    • 2016
  • 최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다. 이에 대한 기존의 연구 결과는 결정함수를 이용하는 방법과 회귀모형을 이용하는 방법으로 분류할 수 있다. 회귀모형을 이용하여 수행한 연구에는 지지도와 신뢰도에 의한 모형, 세 가지 평가 기준의 쌍에 의한 모형, 표준화 향상도를 포함한 세 가지 평가 기준의 쌍에 의한 모형, 그리고 세 가지 평가 기준 전부를 고려한 모형 등이 있다. 본 논문에서는 기존의 연구를 확장하는 의미에서 표준화 향상도를 포함한 세가지 평가 기준 전부를 고려한 비선형 회귀모형을 이용하여 연관성 규칙의 수를 추정하는 방안에 대해 강구하고자 한다. 또한 분산분석에서의 F 통계량과 수정 결정계수를 이용하여 각 모형의 유의한 정도를 비교하는 동시에 분산팽창계수에 의한 공선성 문제를 진단함으로써 가장 유용한 회귀 모형을 탐색하고자 한다.

의료기기 소프트웨어 위험관리를 위한 개발생명주기 기반 위험관리 요구사항 연관성 분석 (Development Life Cycle-Based Association Analysis of Requirements for Risk Management of Medical Device Software)

  • 김동엽;박예슬;이정원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권12호
    • /
    • pp.543-548
    • /
    • 2017
  • 최근에는 의료기기의 구성 요소 중 소프트웨어의 기능과 역할이 커지고, 의료기기 소프트웨어의 작동이 사용자의 생명과 안전에 직결되는 특성으로 인해 의료기기 소프트웨어의 안전성 보장에 대한 중요함은 더욱 강조되고 있다. 이를 위해 의료기기의 안전성을 효과적으로 보장할 수 있는 활동과 각각의 요구사항들을 제시하고 있는 여러 표준이 제정되었다. 표준들이 의료기기 소프트웨어의 안전성을 보장하기 위해 제시하는 활동으로는 크게 의료기기 소프트웨어의 개발생명주기와 위험관리 프로세스로 나뉜다. 이 두 활동은 개발 과정 중 동시에 진행되어야 하지만, 의료기기 소프트웨어 개발생명주기의 각 단계에서 수행되어야하는 위험관리 요구사항들은 분류되어있지 않다는 한계점이 있다. 이로 인해 개발자들은 의료기기 개발 중에 직접 표준들의 연관성을 분석하여 위험관리 활동을 수행해야한다. 따라서 본 논문에서는 의료기기 소프트웨어 개발생명주기와 위험관리 프로세스의 연관성을 분석하고, 위험관리 요구사항 항목들을 추출한다. 그리고 분석한 연관성을 토대로 추출된 위험관리 요구사항 항목을 개발생명주기에 대응시킴으로서, 의료기기 소프트웨어의 개발 중 효과적이고 체계적인 위험관리를 가능하게 한다.

연관성규칙 발견을 위한 데이터마이닝 알고리즘 설계 (An Efficient Data Mining Algorithm For An Association Rule Discovery)

  • 이해각
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.587-591
    • /
    • 2004
  • 수많은 데이터로부터 우리가 이용할 수 있는 의미 있는 연관성 규칙을 찾는 것은 대단히 중요하다. 연관성 규칙은 데이터베이스의 각 트랜잭션을 분석하여 이에 대한 각종 측정치를 수집하여 이루어지는데 대단히 많은 시간과 노력을 요한다. 본 논문에서는 통계적 추론을 이용하여 탐색도중 주어진 조건을 만족하는 항목에 대하여 의사결정을 내려 탐색시간은 단축할 수 있는 알고리즘을 제안한다. 또한 추론에 따른 오류발생을 최소화 할 수 있는 기법을 제시한다.

  • PDF

SAR 자료에서 추출한 특징들과 토지 피복 항목 사이의 연관성 분석 (Analysis of Relationships between Features Extracted from SAR Data and Land-cover Classes)

  • 박노욱;지광훈;이훈열
    • 대한원격탐사학회지
    • /
    • 제23권4호
    • /
    • pp.257-272
    • /
    • 2007
  • 이 논문에서는 촬영 시기 및 촬영 모드(주파수, 편파, 입사각)에 있어서 여러 가지 조건을 가지는 다양한 SAR 자료로부터 특징을 추출하여 토지 피복 항목과의 상호 연관성을 분석하였다. 현재까지 가용한 인공위성 SAR 영상의 촬영 조건을 고려하여 다음의 두 가지 경우로 구분하여 특징을 추출하였다. 첫째, 단일 모드로 다중 시기에 얻어진 SAR 자료로부터 긴밀도, 시간적 변이도, 주성분 변환에 의한 특징들을 추출하였다. C-밴드인 ERS-1/2, ENVISAT SAR, Radarsat-1 자료와 L-밴드인 JERS-1 SAR 자료를 대상으로 이러한 특징들을 각각 추출하였으며, 일반적인 토지 피복 항목과의 연관성 분석을 통해 다중 센서의 특성 차이를 비교 분석하였다. 여러 특징들 중에서 Tandem 긴밀도는 대체적으로 토지 피복 항목간 구별력이 가장 좋게 나타났다. C-밴드 SAR 자료의 장기간 긴밀도에서는 도심 지역의 구분이 용이하였으며, 시간적 변이도에서는 모든 센서 자료에서 논 지역이 가장 높은 값을 나타내었다. 또한 시계열 후방 산란 계수와 긴밀도의 주성분 변환에 기반한 특징들에서는 토지 피복과 관련된 부가 정보 추출이 가능하였다. 둘째, 다중모드(편파, 입사각)로 비슷한 시기에 얻어진 SAR 자료로부터 편파비와 다중 채널 변이도를 주요 특징으로 추출하여 토지 피복 항목별로 비교하였다. 그 결과, VH/VV 편파비로부터 산림과 밭 항목의 구분력이 향상되는 것으로 나타났다. 이 연구의 분석 결과는 향후 다양한 모드의 시계열적 SAR 자료 및 지상 산란계 실험을 통한 다양한 사례 연구 결과와 결합된다면, SAR 자료를 이용한 토지 피복 분류의 정확도 향상을 위한 기초 정보로 활용될 수 있을 것으로 기대된다.

프레임워크 기반 통합관리시스템을 이용한 네트워크 트래픽 성능분석 (Network Traffic Performance Analysis using Framework-based Integrated Management System)

  • 최성만;변완섭;유철중;김용성;장옥배;태규열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.145-147
    • /
    • 2003
  • 본 논문에서 이용한 프레임워크 기반 통합관리시스템은 네트워크 관리와 분석을 위하여 관리기능, 분석 기능, 관리 및 분석 대상과 관련된 모든 항목을 측정하고 분석하여 예측할 수 있는 기능을 포함하는 시스템이다. 주요 연구방법으로는 세부 항목별로 현황 데이터를 수집, 가공, 분석하였으며, 각 항목간의 연관관계 및 대상별 연관관계를 상세하게 분석하고자 인프레인저(infRanger$^{TM}$)를 이용하였다. 프레임워크 기반통합관리시스템을 이용한 네트워크 트래픽 성능분석은 네트워크 운영에 있어서 성능 저하에 영향을 미치기 쉬운 장비나 구간, 그리고 현재의 문제 가능성이 예상되는 네트워크 자원을 선정하여 상세 분석을 실시하고 문제점을 도출할 수 있도록 하였다. 이렇게 해본 결과 사전에 네트워크에 대한 과잉투자를 예방하고 최적화된 네트워크 환경을 조성하여 관리의 효율성 및 보다 나은 서비스를 제공한다.

  • PDF