• 제목/요약/키워드: Knowledge Mining

검색결과 580건 처리시간 0.032초

한국어 개념망 구축을 위한 지능형 워크벤치 (Intelligent Workbench for Korean Concept-Net Construction)

  • 허정;최미란;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.472-474
    • /
    • 2005
  • 개념망은 상당히 도메인에 의존적인 언어자원에 해당한다. 따라서, 도메인이 다른 분야에 적용하고자 한다면, 많은 수정이 요구된다. 그러나 개념망의 편집은 언어 이해 능력이 뛰어난 언어학자들 조차도 상당히 많은 시간이 요구되는 작업이다. 대부분의 시간소요는 개념망의 전체적인 계층구조를 스캐닝하는 작업과 특정 노드를 검색하는 작업에 의한 것이다. 기 구축된 개념망을 분석하면 계층관계에 있는 어휘들간의 일관된 규칙을 발견할 수 있다. 이 논문에서는 어휘들의 뜻풀이와 상위어간의 관계성, 복합명사와 상위어간의 관계성을 통계적으로 분석하였다 분석된 결과를 기반으로 확률모델을 이용하여 상위어 추천 기능을 구현하였다. 상위어 추천 기능의 시간 절감 효과를 실험하기 위해 실험자 2인을 대상으로 개념망 구축에 소요되는 시간을 측정하였다. 상위어 추천 기능이 있는 지능형 워크벤치를 이용할 경우 개념망 작업 시간은 약 $65\%$정도로 단축되는 것을 확인할 수 있었다. 본 지능형 워크벤치는 다양한 도메인에서 요구되는 개념망 구축의 시간 비용 절감에 크게 기절할 것으로 기대된다.

  • PDF

데이터 마이닝에서 샘플링 기법을 이용한 연속패턴 알고리듬 (An Algorithm for Sequential Sampling Method in Data Mining)

  • 홍지명;김낙현;김성집
    • 산업경영시스템학회지
    • /
    • 제21권45호
    • /
    • pp.101-112
    • /
    • 1998
  • Data mining, which is also referred to as knowledge discovery in database, means a process of nontrivial extraction of implicit, previously unknown and potentially useful information (such as knowledge rules, constraints, regularities) from data in databases. The discovered knowledge can be applied to information management, decision making, and many other applications. In this paper, a new data mining problem, discovering sequential patterns, is proposed which is to find all sequential patterns using sampling method. Recognizing that the quantity of database is growing exponentially and transaction database is frequently updated, sampling method is a fast algorithm reducing time and cost while extracting the trend of customer behavior. This method analyzes the fraction of database but can in general lead to results of a very high degree of accuracy. The relaxation factor, as well as the sample size, can be properly adjusted so as to improve the result accuracy while minimizing the corresponding execution time. The superiority of the proposed algorithm will be shown through analyzing accuracy and efficiency by comparing with Apriori All algorithm.

  • PDF

문장구조분석을 위한 서술성 명사 복원 (Restoring a Predicative Noun to Verb for Parsing)

  • 임수종;이창기;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.475-477
    • /
    • 2005
  • 본 연구는 신문기사나 백과사전 등의 문서에서 빈번히 발생하는 동사 파생 접미사와 어미가 생략된 형태의 서술성 명사를 동사로 복원하는 방법에 대한 것으로 이러한 복원은 문장구조 분석에 영향을 미친다. 기존 연구는 간단한 규칙만을 사용하지만 규칙을 사용하는 방법은 재현률에서 성능 저하를 보이기 때문에 본 연구에서는 이러한 생략 형태를 구분하여 규칙과 통계 방법을 사용하여 각각 적합한 형태에 적용하였다. 본 연구의 접근 방법은 규칙 기반에 비해 약 $30\%$, 통계 기반에 비해 약 $8\%$의 성능 향상을 보여서 문장 구조 분석에서는 $3.6\%$의 성능 향상을 보였다.

  • PDF

Toward Knowledge-Aided Design & Manufacturing (KAD/KAM)

  • Lee, Kyung-Ho
    • Journal of Ship and Ocean Technology
    • /
    • 제12권1호
    • /
    • pp.28-34
    • /
    • 2008
  • The purpose of this paper is to define the concept of KAD/KAM, furthermore is to establish my own idea on the knowledge related works in engineering domain for a next decade ahead. KAD/KAM is represented as "Knowledge Everywhere" based on the concept of ubiquitous computing in engineering domain. At the beginning of the paper, the definition of KAD/KAM is described. And the related technologies to realize KAD/KAM, such as augmented reality, ontology, data mining, and knowledge management, are introduced. The concept of KAD/KAM is still immature. But this will be a new paradigm to change entire engineering environment in near future.

데이터 마이닝 기법의 현황 및 추세 (Current Status and Trend of Data Mining Techniques)

  • 오승준;송영덕;오민근
    • 한국컴퓨터정보학회지
    • /
    • 제8권2호
    • /
    • pp.67-74
    • /
    • 2001
  • 최근에 이용 가능한 데이터의 양이 폭발적으로 증가하고 있다 따라서 이들 데이터로부터 유용한 지식을 발견하는 자동화된 기법이 주목을 받고 있다. 데이터 마이닝이란 지식 발견의 중요한 단계로서, 데이터로부터 유용한 패턴을 발견하는 방법이다. 본 논문에서는 데이터 마이닝 기법을 조사한다 이러한 조사과정을 통하여 실세계에서 보다 효율적으로 적용 가능한 데이터 마이닝 기법을 찾아내고. 이들 기법에 대한 적절한 응용 영역과 앞으로의 연구방향을 제시한다.

  • PDF

An Evolutionary Approach to Inferring Decision Rules from Stock Price Index Predictions of Experts

  • Kim, Myoung-Jong
    • Management Science and Financial Engineering
    • /
    • 제15권2호
    • /
    • pp.101-118
    • /
    • 2009
  • In quantitative contexts, data mining is widely applied to the prediction of stock prices from financial time-series. However, few studies have examined the potential of data mining for shedding light on the qualitative problem-solving knowledge of experts who make stock price predictions. This paper presents a GA-based data mining approach to characterizing the qualitative knowledge of such experts, based on their observed predictions. This study is the first of its kind in the GA literature. The results indicate that this approach generates rules with higher accuracy and greater coverage than inductive learning methods or neural networks. They also indicate considerable agreement between the GA method and expert problem-solving approaches. Therefore, the proposed method offers a suitable tool for eliciting and representing expert decision rules, and thus constitutes an effective means of predicting the stock price index.

Discourse Structure Analysis for Requirement Mining

  • Kang, Juyeon;Saint-dizier, Patrick
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제3권2호
    • /
    • pp.43-65
    • /
    • 2013
  • In this work, we first introduce two main approaches to writing requirements and then propose a method based on Natural Language Processing to improve requirement authoring and the overall coherence, cohesion and organization of requirement documents. We investigate the structure of requirement kernels, and then the discourse structure associated with those kernels. This will then enable the system to accurately extract requirements and their related contexts from texts (called requirement mining). Finally, we relate a first experimentation on requirement mining based on texts from seven companies. An evaluation that compares those results with manually annotated corpora of documents is given to conclude.

텍스트마이닝과 주경로 분석을 이용한 미발견 공공 지식 추론 - 췌장암 유전자-단백질 유발사슬의 경우 - (Inferring Undiscovered Public Knowledge by Using Text Mining Analysis and Main Path Analysis: The Case of the Gene-Protein 'brings_about' Chains of Pancreatic Cancer)

  • 안혜림;송민;허고은
    • 한국비블리아학회지
    • /
    • 제26권1호
    • /
    • pp.217-231
    • /
    • 2015
  • 본 연구에서는 췌장암의 유전자-단백질 상호작용 네트워크를 구성하고, 관련 연구에서 주요하게 언급되는 유전자-단백질의 유발관계 사슬을 파악함으로써, 췌장암의 원인을 규명하는 실증적인 연구로 이어질 수 있는 미발견 공공 지식을 제공하려 하였다. 이를 위하여 텍스트마이닝과 주경로 분석을 Swanson의 ABC 모델에 적용해 중간 개념인 B를 방향성을 가진 다단계 모델로 확장하고 가장 의미 있는 경로를 도출하였다. 본 연구의 주제가 된 췌장암의 사례처럼 시작점과 끝점조차 한정할 수 없는 미발견 공공 지식 추론에서 주경로 분석은 유용한 도구가 될 수 있을 것이다.

캘린더 패턴 기반의 시간 연관적 분류 기법 (Temporal Associative Classification based on Calendar Patterns)

  • 이헌규;노기용;서성보;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.567-584
    • /
    • 2005
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 시간 속성을 가진 데이타로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술이다. 대표적 데이타마이닝 기법인 연관규칙과 분류기법은 실세계의 여러 응용분야에서 사용된다. 그러나 대부분의 데이타가 시간 속성을 포함함에도 불구하고 기존의 기법들은 시간 속성을 고려하지 않고 주로 정적인 데이타에 대한 지식 탐사만이 진행되었다. 그리고 시간 데이타에 대한 데이타마이닝 연구들은 데이타의 발생시점과 시간 제약조건을 추가한 지식 탐사에 중점을 두고 있어 데이타가 포함한 시간 의미나 시간 관계를 탐사하는데 부족하였다. 이 논문에서는 시간 클래스 연관규칙에 기반한 시간 연관적 분류기법을 제안한다. 이 기법은 분류규칙 생성을 위해서 연관적 분류에 시간 차원을 포함하여 확장한 시간 클래스 연관규칙에 의해 탐사된 규칙들을 적용하는 것이다. 그러므로 이 기법은 기존의 분류 기법들에 비해 더 유용한 지식탐사가 가능하다.

텍스트 마이닝 및 자동 추론 기반 생물학 지식 발견 시스템을 위한 확률 기반 필터링 (Probabilistic filtering for a biological knowledge discovery system with text mining and automatic inference)

  • 이희진;박종철
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.139-147
    • /
    • 2012
  • 본 논문에서는 텍스트 마이닝을 통해 생물학 문헌에서 분자 수준의 사건(event) 정보를 자동으로 추출하고, 이들 사건 정보를 기반으로 새로운 생물학 지식을 자동 추론하는 텍스트 마이닝 - 추론 통합 구조의 시스템을 다룬다. 이러한 통합 구조의 지식 발견 시스템은 미리 추출되어 데이터베이스에 등록된 정보만을 입력으로 사용하는 시스템들에 비하여 최신 정보를 보다 빨리 사용할 수 있고, 미리 정의된 형식 이외의 다양한 정보를 사용할 수 있다는 장점이 있다. 반면, 텍스트 마이닝 정보 추출 결과를 그대로 사용하기 때문에 텍스트 마이닝 모듈(module)의 성능에 따라 전체 시스템의 효용성이 크게 저하될 수도 있다는 문제가 있다. 본 논문에서는 확률 기반 필터링(filtering) 방법을 제안하여, 텍스트 마이닝 결과 중 양성 오류(false positive)를 효과적으로 제거함으로써 전체 지식 발견 시스템의 정확도 및 효용성을 높이고자 한다. 본 논문에서 제안한 확률 기반 필터링 방법은 기준(baseline) 방법으로 사용된 횟수 기반 필터링 방법보다 높은 성능을 보였다.