• 제목/요약/키워드: Topic vector

검색결과 70건 처리시간 0.024초

단어 연관성 가중치를 적용한 연관 문서 추천 방법 (A Method on Associated Document Recommendation with Word Correlation Weights)

  • 김선미;나인섭;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제22권2호
    • /
    • pp.250-259
    • /
    • 2019
  • Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution vectors in topics through LDA-based Topic Modeling. Then, we use Word2vec to vector words, and generate a weight matrix to derive the relevance SCORE considering the semantic relationship between the words. We propose a way to recommend documents in order of high score.

Combining genetic algorithms and support vector machines for bankruptcy prediction

  • Min, Sung-Hwan;Lee, Ju-Min;Han, In-Goo
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2004년도 추계학술대회
    • /
    • pp.179-188
    • /
    • 2004
  • Bankruptcy prediction is an important and widely studied topic since it can have significant impact on bank lending decisions and profitability. Recently, support vector machine (SVM) has been applied to the problem of bankruptcy prediction. The SVM-based method has been compared with other methods such as neural network, logistic regression and has shown good results. Genetic algorithm (GA) has been increasingly applied in conjunction with other AI techniques such as neural network, CBR. However, few studies have dealt with integration of GA and SVM, though there is a great potential for useful applications in this area. This study proposes the methods for improving SVM performance in two aspects: feature subset selection and parameter optimization. GA is used to optimize both feature subset and parameters of SVM simultaneously for bankruptcy prediction.

  • PDF

A New Hybrid "Park's Vector - Time Synchronous Averaging" Approach to the Induction Motor-fault Monitoring and Diagnosis

  • Ngote, Nabil;Guedira, Said;Cherkaoui, Mohamed;Ouassaid, Mohammed
    • Journal of Electrical Engineering and Technology
    • /
    • 제9권2호
    • /
    • pp.559-568
    • /
    • 2014
  • Induction motors are critical components in industrial processes since their failure usually lead to an unexpected interruption at the industrial plant. The studies of induction motor behavior during abnormal conditions and the possibility to diagnose different types of faults have been a challenging topic for many electrical machine researchers. In this regard, an efficient and new method to detect the induction motor-fault may be the application of the Time Synchronous Averaging (TSA) to the stator current Park's Vector. The aim of this paper is to present a methodology by which defects in a three-phase wound rotor induction motor can be diagnosed. By exploiting the cyclostationarity characteristics of electrical signals, the TSA method is applied to the stator current Park's Vector, allowing the monitoring of the induction motor operation. Simulation and experimental results are presented in order to show the effectiveness of the proposed method. The obtained results are largely satisfactory, indicating a promising industrial application of the hybrid Park's Vector-TSA approach.

Many-objective Evolutionary Algorithm with Knee point-based Reference Vector Adaptive Adjustment Strategy

  • Zhu, Zhuanghua
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권9호
    • /
    • pp.2976-2990
    • /
    • 2022
  • The adaptive adjustment of reference or weight vectors in decomposition-based methods has been a hot research topic in the evolutionary community over the past few years. Although various methods have been proposed regarding this issue, most of them aim to diversify solutions in the objective space to cover the true Pareto fronts as much as possible. Different from them, this paper proposes a knee point-based reference vector adaptive adjustment strategy to concurrently balance the convergence and diversity. To be specific, the knee point-based reference vector adaptive adjustment strategy firstly utilizes knee points to construct the adaptive reference vectors. After that, a new fitness function is defined mathematically. Then, this paper further designs a many-objective evolutionary algorithm with knee point-based reference vector adaptive adjustment strategy, where the mating operation and environmental selection are designed accordingly. The proposed method is extensively tested on the WFG test suite with 8, 10 and 12 objectives and MPDMP with state-of-the-art optimizers. Extensive experimental results demonstrate the superiority of the proposed method over state-of-the-art optimizers and the practicability of the proposed method in tackling practical many-objective optimization problems.

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템 (Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 인지과학
    • /
    • 제26권3호
    • /
    • pp.263-278
    • /
    • 2015
  • 국립국어원의 온라인가나다 서비스는 한국어에 대한 질문을 등록하면 전문가가 답변을 작성하는 인터넷 서비스이다. 이러한 서비스는 유사한 질문이 자주 등록되는 문제점이 있다, 만일 새롭게 등록되는 질문과 유사한 질문을 자동으로 찾아 그 질문에 대한 답변을 등록 즉시 제공한다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 온라인가나다의 특성을 분석하여 자주 질문되는 다섯 개의 주제 분류를 설정하고, 주제 분류 유사도와 함께 음소와 음절단위 수열유사도와 벡터 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용하여 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 Mean Reciprocal Rank(MRR)가 0.756, 정답이 1위와 5위내에 검색될 확률은 각각 68.31%, 87.32%를 보였다.

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

  • 장우솔;김예은;손원
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.739-754
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.

토픽 맵을 이용한 학습 선호도 기반의 자기주도적 학습 시스템 (The Learning Preference based Self-Directed Learning System using Topic Map)

  • 정화영;김윤호
    • 한국항행학회논문지
    • /
    • 제13권2호
    • /
    • pp.296-301
    • /
    • 2009
  • 자기주도적 학습에서는 학습자가 학습과정을 구성할 수 있다. 그러나 학습자가 방대한 학습 콘텐츠의 특성을 이해하고 학습과정을 구성하기는 매우 어렵다. 본 연구에서는 학습자가 학습을 계획할 때 학습자의 학습 선호도를 산출하여 학습자에게 맞는 학습 콘텐츠 유형 정보를 학습자에게 제공하는 방법을 제시하였다. 학습 선호도 산출방식은 토픽 맵의 선호도 벡터값을 이용하였다. 제안방법의 적용을 위해 학습 모집단 20명을 대상으로 테스트 하였으며, 전체적인 학습 만족도가 높게 나타남으로서 제안방법이 학습자의 학습구성에 도움이 되고 있음을 제시하였다.

  • PDF

Topic Classification for Suicidology

  • Read, Jonathon;Velldal, Erik;Ovrelid, Lilja
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.143-150
    • /
    • 2012
  • Computational techniques for topic classification can support qualitative research by automatically applying labels in preparation for qualitative analyses. This paper presents an evaluation of supervised learning techniques applied to one such use case, namely, that of labeling emotions, instructions and information in suicide notes. We train a collection of one-versus-all binary support vector machine classifiers, using cost-sensitive learning to deal with class imbalance. The features investigated range from a simple bag-of-words and n-grams over stems, to information drawn from syntactic dependency analysis and WordNet synonym sets. The experimental results are complemented by an analysis of systematic errors in both the output of our system and the gold-standard annotations.

A GraphML-based Visualization Framework for Workflow-Performers' Closeness Centrality Measurements

  • Kim, Min-Joon;Ahn, Hyun;Park, Minjae
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권8호
    • /
    • pp.3216-3230
    • /
    • 2015
  • A hot-issued research topic in the workflow intelligence arena is the emerging topic of "workflow-supported organizational social networks." These specialized social networks have been proposed to primarily represent the process-driven work-sharing and work-collaborating relationships among the workflow-performers fulfilling a series of workflow-related operations in a workflow-supported organization. We can discover those organizational social networks, and visualize its analysis results as organizational knowledge. In this paper, we are particularly interested in how to visualize the degrees of closeness centralities among workflow-performers by proposing a graphical representation schema based on the Graph Markup Language, which is named to ccWSSN-GraphML. Additionally, we expatiate on the functional expansion of the closeness centralization formulas so as for the visualization framework to handle a group of workflow procedures (or a workflow package) with organizational workflow-performers.

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.