• 제목/요약/키워드: 지식기반 데이터 마이닝

검색결과 128건 처리시간 0.024초

연관 규칙 마이닝에서 비교 기여 순수 신뢰도의 제안 (The proposition of compared and attributably pure confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.523-532
    • /
    • 2013
  • 데이터 마이닝은 빅 데이터에 잠재되어 있는 지식이나 패턴을 찾아내는 기술이며, 대표적인 기법 중의 하나가 연관성 규칙 마이닝이다. 이 기법은 지지도, 신뢰도, 향상도 등의 연관성 평가 기준을 기반으로 하여 각 항목들 간의 관련성을 찾아내는 데 활용되고 있다. 연관성을 평가하기 위한 기준으로 여러 가지 흥미도 측도가 개발되어 있는데, 그 중에서도 신뢰도가 가장 많이 활용되고 있으나 연관성의 방향을 알 수가 없다는 단점을 가지고 있다. 이를 보완하기 위한 측도로 순수 신뢰도가 개발되었으나. 양의 신뢰도과 음의 신뢰도의 값이 동일한 경우에는 이 측도의 값이 같아지므로 정확한 연관성 규칙을 발견할 수 없게 된다. 이러한 단점을 보완하기 위해 기여 순수 신뢰도와 비교 신뢰도가 개발되었는데 이들은 이들 측도들이 취할 수 있는 값의 범위에 대한 문제를 제외하고는 흥미도 측도로서는 매우 바람직하다고 할 수 있으나 값의 범위에 대한 문제점이 존재한다. 이 문제를 해결하기 위해 본 논문에서는 기여 순수 신뢰도와 비교 신뢰도의 크기를 동시에 고려한 비교 기여 순수 신뢰도를 제안하였다. 또한 예제를 통하여 그 유용성을 알아본 결과, 비교 기여 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 파악할 수 있는 동시에 그 값의 범위가 [-1, +1]의 값을 가지므로 행태적 해석이 가능한 것으로 확인되었다.

기상 데이터를 이용한 데이터 마이닝 기반의 산불 예측 모델 (Data Mining based Forest Fires Prediction Models using Meteorological Data)

  • 김삼근;안재근
    • 한국산학기술학회논문지
    • /
    • 제21권8호
    • /
    • pp.521-529
    • /
    • 2020
  • 산불은 경제, 자연환경, 건강과 같은 삶의 여러 측면에서 몇 가지 악영향을 주는 가장 핵심적인 환경위험 중의 하나이다. 산불의 조기발견, 빠른 예측, 신속한 대응은 산불 위험으로부터 재산과 생명을 구하는데 본질적인 역할을 할 수 있다. 산불의 빠른 발견을 위해 기상청에서 각 지역에 설치한 로컬 센서를 통해 획득한 기상 데이터를 이용하는 방법이 있다. 기상 조건(예: 온도, 바람)은 산불 발생에 영향을 미친다고 알려져 있다. 본 논문에서는 산불의 피해 면적을 예측하기 위해 데이터 마이닝(DM) 기법을 적용한다. 다섯 종류의 DM 모델, 예를 들어 Stochastic Gradient Descent(SGD), Support Vector Machines(SVM), Decision Tree(DT), Random Forests(RF), Deep Neural Network(DNN)과 네 가지 입력 특성 그룹(공간, 시간, 기상 데이터 이용)을 최근 5년간의 경기도 지역에서 수집한 실제 산불 발생 데이터에 적용하였다. 실험결과는 기상 데이터만을 이용한 DNN 모델이 가장 우수한 성능을 보였다. 제안한 모델은 빈도수가 높은 작은 규모의 산불 예측에 더 효과적이었다. 제안한 예측 모델을 통해 도출된 이러한 지식은 소방 자원 관리를 개선하는데 특히 유용하다.

퍼지 결정트리를 이용한 패턴분류를 위한 데이터 마이닝 알고리즘 (Data Mining Algorithm Based on Fuzzy Decision Tree for Pattern Classification)

  • 이중근;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권11호
    • /
    • pp.1314-1323
    • /
    • 1999
  • 컴퓨터의 사용이 일반화됨에 따라 데이타를 생성하고 수집하는 것이 용이해졌다. 이에 따라 데이타로부터 자동적으로 유용한 지식을 얻는 기술이 필요하게 되었다. 데이타 마이닝에서 얻어진 지식은 정확성과 이해성을 충족해야 한다. 본 논문에서는 데이타 마이닝을 위하여 퍼지 결정트리에 기반한 효율적인 퍼지 규칙을 생성하는 알고리즘을 제안한다. 퍼지 결정트리는 ID3와 C4.5의 이해성과 퍼지이론의 추론과 표현력을 결합한 방법이다. 특히, 퍼지 규칙은 속성 축에 평행하게 판단 경계선을 결정하는 방법으로는 어려운 속성 축에 평행하지 않는 경계선을 갖는 패턴을 효율적으로 분류한다. 제안된 알고리즘은 첫째, 각 속성 데이타의 히스토그램 분석을 통해 적절한 소속함수를 생성한다. 둘째, 주어진 소속함수를 바탕으로 ID3와 C4.5와 유사한 방법으로 퍼지 결정트리를 생성한다. 또한, 유전자 알고리즘을 이용하여 소속함수를 조율한다. IRIS 데이타, Wisconsin breast cancer 데이타, credit screening 데이타 등 벤치마크 데이타들에 대한 실험 결과 제안된 방법이 C4.5 방법을 포함한 다른 방법보다 성능과 규칙의 이해성에서 보다 효율적임을 보인다.Abstract With an extended use of computers, we can easily generate and collect data. There is a need to acquire useful knowledge from data automatically. In data mining the acquired knowledge needs to be both accurate and comprehensible. In this paper, we propose an efficient fuzzy rule generation algorithm based on fuzzy decision tree for data mining. We combine the comprehensibility of rules generated based on decision tree such as ID3 and C4.5 and the expressive power of fuzzy sets. Particularly, fuzzy rules allow us to effectively classify patterns of non-axis-parallel decision boundaries, which are difficult to do using attribute-based classification methods.In our algorithm we first determine an appropriate set of membership functions for each attribute of data using histogram analysis. Given a set of membership functions then we construct a fuzzy decision tree in a similar way to that of ID3 and C4.5. We also apply genetic algorithm to tune the initial set of membership functions. We have experimented our algorithm with several benchmark data sets including the IRIS data, the Wisconsin breast cancer data, and the credit screening data. The experiment results show that our method is more efficient in performance and comprehensibility of rules compared with other methods including C4.5.

텍스트마이닝을 활용한 브랜드 플랫폼 사용자 감성 분석: 나이키 및 아디다스 러닝 앱 리뷰 비교분석을 중심으로 (Brand Platformization and User Sentiment: A Text Mining Analysis of Nike Run Club with Comparative Insights from Adidas Runtastic)

  • 박한나;맹윤호;김효근
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.43-66
    • /
    • 2024
  • 디지털 기술의 발전으로 브랜드와 소비자 간 커뮤니케이션 방식이 혁신적으로 변화하고 있다. 이러한 변화의 일환으로, 나이키와 아디다스와 같은 스포츠 브랜드들은 자체 러닝 앱을 통해 소비자들과 상호작용을 강화하고, 브랜드 경험을 통한 충성도 강화에 노력하고 있다. 하지만 이러한 브랜드 자체 플랫폼이 충성도 및 옹호도에 미치는 직접적 영향과 개선점에 대한 심도 깊은 연구는 더 많이 필요한 상황이다. 이에 본 연구는 2020년 1월부터 2023년 10월까지의 나이키 런 클럽(NRC)과 아디다스 런타스틱 앱 영어 리뷰 3,715건을 텍스트 마이닝 기법으로 분석하고, 브랜드 플랫폼이 소비자 충성도와 옹호에 끼치는 영향을 살펴보고자 하였다. 특히 '추천 리뷰' 155건에 대해 감성 분석 및 토픽모델링으로 심층 비교 분석하여, '핫 로열티'를 일으키는 이유와 두 브랜드에 대한 소비자 인식의 차이점을 찾고자 하였다. 그 결과 NRC는 개인화된 코칭과 감성적 교류를 제공하는 '동반자'로, 아디다스 런타스틱은 기능적 신뢰성에 초점을 맞춘 '도구'로 인식되는 차이를 발견했다. 이는 유사 기능의 앱에 대해서도 브랜드 별 소비자 인식과 성향은 다양할 수 있음을 시사하며, 브랜드 관리자는 이러한 차이를 플랫폼 디자인 및 기획에 세심하게 반영해야 함을 강조한다. 더불어, 기술적 오류가 브랜드에 대한 부정적 인식으로 직접 이어지는 경향이 공통적으로 확인되어, 앱 성능 개선과 관리의 중요성을 부각시킨다. 본 연구는 브랜드별 소비자 성향 파악과 그에 따른 맞춤 기술 도입이 브랜드 충성도와 옹호에 영향을 끼친다는 점을 실질적 데이터를 기반으로 보였다는 점에서 기존 연구 및 실무에 새로운 통찰과 실행 가이드 제공으로 기여한다.

클라우드 시스템에서 소셜 시멘틱 웹 기반 협력 프레임 워크 (Collaboration Framework based on Social Semantic Web for Cloud Systems)

  • 마테오 로미오;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-74
    • /
    • 2012
  • 클라우드 서비스는 비즈니스 향상을 위해 사용되며, 특히, 고객 관리에서는 고객 서비스 향상을 위한 툴로서 소셜 네트워크를 사용한다. 그러나 대부분의 클라우드 시스템은 시멘틱 구조를 지원하지 않기 때문에 소셜 네트워크 사이트의 중요한 정보는 비즈니스 정책을 위해 처리 및 사용이 어렵다. 본 연구에서는 클라우드 시스템에서 소셜 시멘틱 웹에 기반을 둔 협력 프레임 워크를 제안한다. 제안한 프레임 워크는 클라우드 소비자와 서비스 제공자를 위한 효율적인 협력시스템을 제공하기 위해, 소셜 시멘틱 웹 지원을 위한 요소들로 구성된다. 지식획득모듈은 소셜 에이전트가 수집한 데이터로부터 규칙을 추출하며, 이 규칙들은 협력 및 경영정책에 사용된다. 본 논문은 제안한 시멘틱 모델에서 소셜 네트워크 사이트 데이터의 처리 및 효율적인 협력을 위한 클라우드 서비스 제공자의 가상 그룹핑을 위해 사용될 패턴 추출에 대한 구현 결과를 보여준다.

지능적인 홈네트워크 서비스 제공을 위한 사용자 패턴 분석 기법 (User-patterns Analysis Method to provide the Intelligent Home Network Service)

  • 김학수;최윤호;이승미;손진현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.243-247
    • /
    • 2007
  • 오늘날 스마트 홈은 네트워크 센서, 가전 기기 등에 자동화된 서비스를 부여하여 사용자의 인지 없이 지능형 서비스를 제공하는 것이 목적이다. 이와 같은 지능형 홈 네트워크 서비스를 제공하기 위한 기존의 연구들은 온톨로지 기반의 컨텍스트 모델을 통해서 시맨틱 컨텍스트 표현, 추론, 지식 공유를 통해서 자동화된 서비스를 제공하는데 초점을 두고 있다. 그러나 이러한 연구들은 장치가 제공하는 서비스에 대한 자동화에 초점을 두고 있지만 진정한 지능형 홈 네트워크 서비스는 사용자의 다양한 패턴에 따라서 시간순으로 서비스를 자동으로 제공해야만 한다. 이러한 관점에서 본 논문은 사용자 패턴에 따른 자동화된 서비스를 사용자에게 지능적으로 제공하는 지능형 흠 네트워크 서비스를 제공하는 시스템 설계에 초점을 둔다. 이러한 자동화된 서비스를 제공하기 위하여 본 논문은 데이터 마이닝 기법을 사용하여 사용자 패턴 분석 기법을 제안할 것이다.

  • PDF

데이터 마이닝과 퍼지인식도 기반의 인과관계 지식베이스 구축에 관한 연구 (A Study on the Development of Causal Knowledge Base Based on Data Mining and Fuzzy Cognitive Map)

  • Kim, Jin-Sung
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.247-250
    • /
    • 2003
  • Due to the increasing use of very large databases, mining useful information and implicit knowledge from databases is evolving. However, most conventional data mining algorithms identify the relationship among features using binary values (TRUE/FALSE or 0/1) and find simple If-THEN rules at a single concept level. Therefore, implicit knowledge and causal relationships among features are commonly seen in real-world database and applications. In this paper, we thus introduce the mechanism of mining fuzzy association rules and constructing causal knowledge base form database. Acausal knowledge base construction algorithm based on Fuzzy Cognitive Map(FCM) and Srikant and Agrawal's association rule extraction method were proposed for extracting implicit causal knowledge from database. Fuzzy association rules are well suited for the thinking of human subjects and will help to increase the flexibility for supporting users in making decisions or designing the fuzzy systems. It integrates fuzzy set concept and causal knowledge-based data mining technologies to achieve this purpose. The proposed mechanism consists of three phases: First, adaptation of the fuzzy membership function to the database. Second, extraction of the fuzzy association rules using fuzzy input values. Third, building the causal knowledge base. A credit example is presented to illustrate a detailed process for finding the fuzzy association rules from a specified database, demonstration the effectiveness of the proposed algorithm.

  • PDF

CPC 기반 특허 기술 분류 분석 모델 (A Study of CPC-based Technology Classification Analysis Model of Patents)

  • 채수현;김장원
    • 한국콘텐츠학회논문지
    • /
    • 제18권10호
    • /
    • pp.443-452
    • /
    • 2018
  • 최근 들어 지식재산권의 확보는 기업의 기술 경쟁력 확보를 위해 점점 더 중요하게 되었다. 특히 특허는 기업의 핵심 기술 및 요소 기술을 포함하고 있기 때문에 특허 분석을 통한 기업 가치 측정 및 경쟁 기술 분야 분석 등의 연구가 활발히 진행되고 있다. 국제특허분류(IPC)를 기반으로 다양한 특허 분석 연구가 진행되었으나, IPC는 최신의 기술 분야를 포함하고 있지 않으며 기술의 상세 분류가 충분하지 않아 기술 분류 정확도가 낮아진다. 이를 보완하기 위해 최신의 기술 분야를 포함하고 상세한 기술 분류를 위한 선진특허분류(CPC)가 개발되었으나 이러한 특징을 고려한 특허 분석 연구가 아직 미흡하다. 본 논문에서는 CPC의 상세 분류체계를 이용하여 특허에 포함된 기술 분류 분석 모델을 제안한다. CPC의 상세 분류체계간의 연관관계 중요도 및 효율성을 고려하여 출원인의 특허를 분석하여 핵심 기술 분류 추출을 통해 기존 IPC 기반의 방법보다 상세하고 정확한 분석이 가능하다. 기존의 IPC 기반의 특허 분석 방법과 비교 평가를 통해 제안 모델이 출원인의 핵심 기술 분류를 분석함에 있어 더 좋은 성능을 보임을 확인하였다.

소셜 빅데이터 기반 융합연구 동향 분석 (Trend Analysis of Convergence Research based on Social Big Data)

  • 노영희;김태연;정대근;이광희
    • 한국콘텐츠학회논문지
    • /
    • 제19권2호
    • /
    • pp.135-146
    • /
    • 2019
  • 본 연구는 4차 산업혁명과 함께 학제간 융합연구의 중요성이 부각되는 시점에서 소셜미디어 빅데이터 분석을 통하여 학술적 연구를 넘어 융합연구 전반에 대한 동향을 분석하고자 하였다. 이를 위해 텍스트마이닝 기법을 활용하여 소셜미디어에서 융합연구와 관련하여 2009년 1월부터 2018년 9월까지 약 10년간 게시된 글과 제목 등 약 150,000건을 수집하였으며, 이를 바탕으로 기간별로 워드클라우드와 네트워크 분석을 실시하였다. 분석결과, 각 기간별로 활발하게 진행된 연구분야는 2009년과 2010년에는 친환경, 2011년과 2012년에는 스마트, 2013년과 2014년에는 정보통신, 2015년과 2016년에는 로봇, 2017년과 2018년에는 인공지능이다. 또한 약 10년간 지속적으로 수행되고 있는 연구분야는 문화, 디자인, 화학, 나노, 바이오, 로봇, IT, 정보통신이다. 본 연구에서는 기간별 융합연구 동향을 파악하므로 써, 융합연구를 기획하고 있는 연구자들에게 연구방향을 설정하는데 있어 도움이 될 수 있다.

조건(암, 정상)에 따라 특이적 관계를 나타내는 유전자 쌍으로 구성된 유전자 모듈을 이용한 독립샘플의 클래스예측 (Class prediction of an independent sample using a set of gene modules consisting of gene-pairs which were condition(Tumor, Normal) specific)

  • 정현이;윤영미
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권12호
    • /
    • pp.197-207
    • /
    • 2010
  • 대용량(High-throughput) 형태로 얻어진 cDNA 마이크로어레이 데이터에 다양한 데이터 마이닝 기법을 적용하면 서로 다른 조직에서 추출한 유전자의 발현정도를 비교할 수 있고 정상세포와 암세포에서 발현량의 차이를 보이는 DEG(Differently Expression Gene) 유전자를 추출할 수 있다. 이들을 이용하여 병을 진단할 수 있을 뿐만 아니라, 암의 진행 단계(Cancer Stage)에 따른 치료 방법을 결정할 수 있다. 마이크로어레이를 기반으로 한 대부분의 암 분류자는 기계학습 기법을 이용하여 암 관련 유전자를 추출하여, 이들 유전자를 총체적으로 이용하여 독립 샘플의 클래스(암, 정상)를 판정한다. 하지만 유전자의 발현량의 차이뿐만 아니라 유전자와 유전자의 상관관계의 변화가 질병 진단에 활용될 수 있다. 대부분의 질병은 단독 유전자의 변이에 의한 것이 아니라 유전자의 모듈로 이루어진 유전자조절네트워크의 변이에 의한 것이기 때문이다. 본 논문에서는 조건에 따라 특이적 관계를 나타내는 유전자 쌍을 식별하여, 이들 유전자 쌍을 이용한 유전자 분류 모듈을 생성한다. 분류 모듈을 이용한 암 분류 방법이 기존의 암 분류 방법보다 높은 정확도로 암과정상 샘플을 분류함을 보여주고 있다. 분류 모듈을 구성하는 유전자의 수가 상대적으로 적으므로 임상키트로의 개발도 고려할 수 있다. 향후 분류 모듈에 속하는 유전자의 기능적 검증을, GO(Gene Ontology)를 활용함으로서, 밝혀지지 않은 새로운 암 관련 유전자를 식별하고, 분류 모듈을 확대하여 암 특이적 유전자조절네트워크 구성에 활용할 계획이다.