• 제목/요약/키워드: 데이터 연관

검색결과 1,868건 처리시간 0.043초

도로 위험 탐지를 위한 데이터 편향성 최적화 기반 연관 추론 모델 (Data Bias Optimization based Association Reasoning Model for Road Risk Detection)

  • 류성은;김현진;구병국;권혜정;박찬홍;정경용
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.1-6
    • /
    • 2020
  • 본 연구에서는 도로 위험 탐지를 위한 데이터 편향성 최적화 기반 연관 추론 모델을 제안한다. 이는 사용자의 개인적 특성과 주변 환경 데이터를 수집하고 교통사고 방지 서비스를 제공하기 위한 연관분석 기반의 마이닝 모델이다. 이는 다양한 상황 변수들로 구성된 트랜잭션 데이터를 생성한다. 생성된 정보를 바탕으로 연관 패턴 분석을 통해 각 트랜잭션 내 변수들의 유의미한 연관관계를 도출한다. 분류된 범주형 데이터의 편향성을 고려하여 최적화된 지지도 및 신뢰도 값으로 가지치기를 진행한다. 추출된 상위 연관규칙을 바탕으로 사용자에게 개인 특성과 주행 도로 상황에 대한 위험 탐지모델을 제공한다. 이는 데이터 편향성 문제를 극복하고 데이터간 연관성을 고려하여 잠재적인 도로 사고를 예방하는 교통 서비스가 가능하다. 성능 평가는 제안하는 방법이 정확도에서 0.778, Kappa 계수에서 0.743로 우수하게 평가된다.

데이터 마이닝에서 비트 트랜잭션 클러스터링을 이용한 빈발항목 생성 (Frequent Itemset Creation using Bit Transaction Clustering in Data Mining)

  • 김의찬;황병연
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.293-298
    • /
    • 2006
  • 데이터베이스에는 많은 데이터들이 저장되어 있다. 무수히 많은 데이터들로부터 어떠한 정보를 얻기 위해서는 질의문을 사용하면 된다. 질의문을 통해 얻는 정보들은 기본적이고 단순한 정보들이다. 데이터 마이닝은 데이터베이스를 통해서 얻을 수 없는 정보를 얻게 해주는 기법이다. 데이터 마이닝 기법에는 여러 가지가 있지만 본 논문에서는 클러스터링과 연관규칙을 찾아내는 기법을 다룬다. 기존의 연관규칙 기법에서의 문제점을 보완하고 더 나은 규칙들을 찾아내기 위한 방법을 제시한다. 여기에 클러스터링 방법을 적용하게 되는데 기존의 거리기반이나 범주 기반 등의 클러스터링이 아닌 연관규칙에 적합한 클러스터링 기법을 제안하여 적용하게 된다. 각 클러스터의 연관규칙들을 찾게 되면 기존의 전체 데이터베이스에서 찾아진 연관규칙 뿐만 아니라 클러스터들의 특징이 될 규칙들도 찾을 수 있게 된다. 본 연구를 통해 대용량 데이터베이스의 많은 트랜잭션 접근을 줄이고 소집단의 연관성도 찾을 수 있다.

텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구 (A novel on Context Information Analysis and Prediction Process using Text Mining)

  • 정세훈;강주희;김종찬;심춘보
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF

다차원 연관 분석을 이용한 인터넷 이용자의 특징 분석 (Analysis of Internet User Features using Multi-dimensional Association Analysis)

  • 이수은;정용규
    • 서비스연구
    • /
    • 제1권1호
    • /
    • pp.61-69
    • /
    • 2011
  • 데이터 마이닝은 대용량의 데이터베이스로부터 기존에 알려지지 않은, 즉 단순한 질의어로 추출할 수 없는 형태의 '유용한' 정보를 찾아내고 이를 바탕으로 데이터에 대한 통찰(insight)을 얻는 것으로 정의할 수 있다. 본 논문에서는 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내기 위하여 인터넷을 이용하는 이용자의 특징을 분석하기 위해 시도되었다. 즉 인터넷 사용자에 대한 일반적인 통계 정보 데이터에 연관성 분석을 적용하여 인터넷 사용 시간에 영향을 미치는 인터넷 이용자의 특징을 분석하였다. 실험을 통하여 데이터로부터의 연관 규칙을 추출 해내었으며, 최적의 결과를 도출하기위한 데이터 전처리 및 알고리즘을 적용하여 웹 마이닝을 위한 인터넷 사용자의 특징을 분석한 결과 그 유용성을 확인할 수 있었다.

  • PDF

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 (Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model)

  • 주영지;홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.75-82
    • /
    • 2016
  • 우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.

실시간 추천을 위한 분할셋 기반 Up-to-Moment 선호모델 탐색 (Mining the Up-to-Moment Preference Model based on Partitioned Datasets for Real Time Recommendation)

  • 한정혜;변루나
    • 인터넷정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.105-115
    • /
    • 2007
  • 최근 들어 유비퀴터스 컴퓨팅에 대한 많은 연구들이 활발히 시작되고 있는데, 특히 모바일을 활용한 실시간 추천 모델에 대한 요구는 점차 커지고 있다. 본 연구에서는 기존 대용량 데이터베이스에서 실시간 추천을 위하여 Up-To-Moment 연관규칙 탐색 알고리즘이 있는데, 보다 더 정교하게 과거의 거래 세부정보까지 고려할 수 있도록 UP-To-Moment 데이터 셋의 과거 데이터 셋 부분을 (k-1)개로 분할-조합규칙을 적용하는 연관규칙 선호모델을 제안하였다. 제안된 모델은 전자상점 뿐만 아니라 유비퀴터스 컴퓨팅에 적용 가능한 레스토랑 음식 추천 데이터에 대하여, 전통적인 Up-To-Moment 연관규칙 탐색모델 $EM_{past'}$ 데이터 셋 크기값을 가중 조합한 $EM^w_{past'}$ 그리고 시간에 따른 지수평활법 분할-조합규칙을 적용한 $EM^{ES}_{past}$을 비교하여 보았다. 특히 $EM^{ES}_{past}$의 지수평활 상수 a 값의 변화에 따른 세 알고리즘의 연관규칙 계산에 대한 민감도도 비교함으로써, 실제 데이터 적용 시에 보수적 또는 진보적 실시간 추천의 선택이 가능하도록 하였다. 세 알고리즘의 비교 시뮬레이션 결과를 보면, 데이터 셋 크기 값을 가중 조합한 $EM^w_{past}$이 가장 효율이 떨어지는 것으로 나타났으며, 누적된 과거 데이터 셋의 크기가 클수록 $EM^{ES}_{past}$의 정확성이 높은 추천을 하는 것으로 나타났다.

  • PDF

빅데이터 연구 논문의 주제 분야 연관관계 분석: 동시 인용 관계를 적용하여 (Subject Association Analysis of Big Data Studies: Using Co-citation Networks)

  • 곽철완
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.13-32
    • /
    • 2018
  • 본 연구의 목적은 빅데이터 연구 논문의 주제 분야 간의 연관관계를 분석하는데 있다. 동시 인용관계를 적용하여 분석 대상의 주제 분야를 추출하였으며, R 프로그램의 Apriori 알고리즘을 이용하여 연관관계의 규칙을 분석하고, arulesViz 패키지를 사용하여 시각화하였다. 연구 결과 22개 주제 분야가 추출되었는데, 이들 주제 분야는 3가지 군집으로 구분되었다. 주제 분야의 연관관계 유형을 분석한 결과, 연관관계의 복잡성에 따라 '전문형', '일반형', '확대형'으로 구분되었다. 전문형에는 문헌정보학, 신문방송학 등이 포함되었고, 일반형에는 정치외교학, 무역학, 관광학 등이 포함되었고, 확대형에는 기타인문학, 사회과학일반, 관광학일반 등이 포함되었다. 이 연관관계는 빅데이터 연구자가 한 주제분야를 인용할 때 관계가 있는 다른 주제 분야를 인용하는 경향을 보여주는 것으로, 도서관에서 학술정보서비스를 위해 연관관계를 활용한 서비스를 고려해야 할 필요가 있다.

효율적인 비행계획 연관을 위한 CWP MRT 데이터 처리 모듈 구현 (Implementation of CWP MRT Data Processing Module for Efficient Correlating Flight Plan)

  • 김강희;최상방
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.268-277
    • /
    • 2014
  • 비행계획 연관은 안전하고 신속한 관제 업무를 위해 매우 중요한 기능이다. 본 논문에서는 레이더 감시자료 중 MRT 데이터와 비행계획을 연관시키는 과정에서 발생하는 네트워크 부하를 최소화함으로써 전체적인 항공교통 자동화 시스템의 성능을 향상을 도모할 수 있는 CWP MRT 처리 모듈을 구현하였다. 구현 모듈은 분산형 연관 방식을 적용함으로써 항공교통관제 자동화 시스템의 효율성과 안전성을 동시에 확보하며, 인코딩 방식의 비행계획 연관 MRT 데이터 포맷을 사용함으로써 네트워크 사용률을 감소시킨다. 구현 모듈은 독립형 연관 방식에 비해 네트워크 사용량이 8.54~12.11% 낮았으며, 네트워크 공정성이 8.37~11.27% 높은 것을 확인하였다.

음의 순수 연관성 규칙 평가 기준의 제안 (Proposition of negatively pure association rule threshold)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.179-188
    • /
    • 2011
  • 연관성 규칙은 방대한 데이터베이스에서 항목간의 관계를 명확히 수치화 함으로써 그들간의 관련성을 표시해주는 기법으로 데이터 마이닝 기법들 중에서 가장 많이 활용되고 있다. 어느 항목이 발생하면 다른 항목도 발생한다는 규칙을 발견하기 위한 기법이 연관성 규칙이라면 음의 연관성 규칙 마이닝은 어느 항목이 발생하면 다른 항목도 발생하지 않는다는 규칙을 찾아내는 기법이다. 기존의 연관성 규칙에 음의 연관성 규칙을 추가하게 되면 어떤 제품을 판매하기 위해서는 그 제품만 마케팅 하는 것 뿐 만 아니라 더 나아가 그 제품이 아닌 어느 제품을 마케팅 하는 것이 필요한지를 판단할 수 있다. 본 논문에서는 음의 연관성 규칙의 단점을 보완할 수 있는 음의 순수 연관성 규칙의 측도들을 제시하고 흥미도 측도가 가져야 할 조건들을 조사하였으며, 예제 데이터를 활용하여 음의 순수 연관성 규칙의 유용성에 대해 살펴보았다.

클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 (Mining of Multi-dimensional Association Rules over Interval Data using Clustering and Characterization)

  • 임승환;권용석;김상욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.60-64
    • /
    • 2010
  • 비 트랜잭션 데이터를 대상으로 연관 규칙을 도출하기 위해서, 데이터의 속성들을 구간화하는 기법들이 활발하게 연구되었다. 이러한 기존의 연구들은 구간화 단계에서 구간 범위의 변화에 따른 연관 규칙의 신뢰도 변화를 반영하지 않고, 구간화 단계와 연관 규칙을 도출하는 단계들을 독립적으로 수행하였다. 이로 인해 속성들의 구간이 부적절하게 설정되고, 이 결과 높은 신뢰도를 갖는 연관 규칙들이 최종 결과에서 누락된다. 따라서 본 논문에서는 속성들을 구간화하는 단계와 연관 규칙들을 도출하는 단계를 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관규칙들을 도출할 수 있는 구간을 설정하는 방안을 제안한다. 이를 위해서 연관 규칙의 우변의 속성들을 대상으로 계층적 클러스터링을 수행하고, 각 클러스터들에 대해서 특성 분석을 수행한다. 실험 결과, 제안하는 기법은 기존의 기법들에 비해서 높은 신뢰도를 갖는 연관 규칙들을 발견하는 것으로 나타났다.