• 제목/요약/키워드: Topic vector

검색결과 70건 처리시간 0.021초

A Semantic Aspect-Based Vector Space Model to Identify the Event Evolution Relationship within Topics

  • Xi, Yaoyi;Li, Bicheng;Liu, Yang
    • Journal of Computing Science and Engineering
    • /
    • 제9권2호
    • /
    • pp.73-82
    • /
    • 2015
  • Understanding how the topic evolves is an important and challenging task. A topic usually consists of multiple related events, and the accurate identification of event evolution relationship plays an important role in topic evolution analysis. Existing research has used the traditional vector space model to represent the event, which cannot be used to accurately compute the semantic similarity between events. This has led to poor performance in identifying event evolution relationship. This paper suggests constructing a semantic aspect-based vector space model to represent the event: First, use hierarchical Dirichlet process to mine the semantic aspects. Then, construct a semantic aspect-based vector space model according to these aspects. Finally, represent each event as a point and measure the semantic relatedness between events in the space. According to our evaluation experiments, the performance of our proposed technique is promising and significantly outperforms the baseline methods.

지지 벡터 기계와 토픽 시그너처를 이용한 댓글 분류 시스템 언어에 독립적인 댓글 분류 시스템 (Comments Classification System using Support Vector Machines and Topic Signature)

  • 배민영;은지현;장두성;차정원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.263-266
    • /
    • 2009
  • 댓글은 일반적인 글에 비해 작성가능한 문장의 길이가 짧고, 띄어쓰기나 마침표를 잘 쓰지 않는 등 비정형화된 형식 구조를 가진다. 이러한 댓글의 악성 여부를 판별하기 위하여 본 논문에서는 문장을 n-gram으로 나누고 문서요약이나 문서분류에서 자질 선택에 많이 사용되는 토픽 시그너처(Topic Signature)를 이용하여 자질을 추출한다. 또한 지지 벡터 기계(Support Vector Machines)을 사용하여 댓글의 악성 여부를 판별한다. 본 논문에서는 한글과 영어 댓글에 대한 악성 여부를 판별하는 실험을 통하여 복잡한 전처리과정을 요구하는 기존에 제안된 방법들 보다 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

Topic Extraction and Classification Method Based on Comment Sets

  • Tan, Xiaodong
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.329-342
    • /
    • 2020
  • In recent years, emotional text classification is one of the essential research contents in the field of natural language processing. It has been widely used in the sentiment analysis of commodities like hotels, and other commentary corpus. This paper proposes an improved W-LDA (weighted latent Dirichlet allocation) topic model to improve the shortcomings of traditional LDA topic models. In the process of the topic of word sampling and its word distribution expectation calculation of the Gibbs of the W-LDA topic model. An average weighted value is adopted to avoid topic-related words from being submerged by high-frequency words, to improve the distinction of the topic. It further integrates the highest classification of the algorithm of support vector machine based on the extracted high-quality document-topic distribution and topic-word vectors. Finally, an efficient integration method is constructed for the analysis and extraction of emotional words, topic distribution calculations, and sentiment classification. Through tests on real teaching evaluation data and test set of public comment set, the results show that the method proposed in the paper has distinct advantages compared with other two typical algorithms in terms of subject differentiation, classification precision, and F1-measure.

다이내믹 토픽 모델링의 의미적 시각화 방법론 (Semantic Visualization of Dynamic Topic Modeling)

  • 연진욱;부현경;김남규
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.131-154
    • /
    • 2022
  • 최근 방대한 양의 텍스트 데이터에 대한 분석을 통해 유용한 지식을 창출하는 시도가 꾸준히 증가하고 있으며, 특히 토픽 모델링(Topic Modeling)을 통해 다양한 분야의 여러 이슈를 발견하기 위한 연구가 활발히 이루어지고 있다. 초기의 토픽 모델링은 토픽의 발견 자체에 초점을 두었지만, 점차 시기의 변화에 따른 토픽의 변화를 고찰하는 방향으로 연구의 흐름이 진화하고 있다. 특히 토픽 자체의 내용, 즉 토픽을 구성하는 키워드의 변화를 수용한 다이내믹 토픽 모델링(Dynamic Topic Modeling)에 대한 관심이 높아지고 있지만, 다이내믹 토픽 모델링은 분석 결과의 직관적인 이해가 어렵고 키워드의 변화가 토픽의 의미에 미치는 영향을 나타내지 못한다는 한계를 갖는다. 본 논문에서는 이러한 한계를 극복하기 위해 다이내믹 토픽 모델링과 워드 임베딩(Word Embedding)을 활용하여 토픽의 변화 및 토픽 간 관계를 직관적으로 해석할 수 있는 방안을 제시한다. 구체적으로 본 연구에서는 다이내믹 토픽 모델링 결과로부터 각 시기별 토픽의 상위 키워드와 해당 키워드의 토픽 가중치를 도출하여 정규화하고, 사전 학습된 워드 임베딩 모델을 활용하여 각 토픽 키워드의 벡터를 추출한 후 각 토픽에 대해 키워드 벡터의 가중합을 산출하여 각 토픽의 의미를 벡터로 나타낸다. 또한 이렇게 도출된 각 토픽의 의미 벡터를 2차원 평면에 시각화하여 토픽의 변화 양상 및 토픽 간 관계를 표현하고 해석한다. 제안 방법론의 실무 적용 가능성을 평가하기 위해 DBpia에 2016년부터 2021년까지 공개된 논문 중 '인공지능' 관련 논문 1,847건에 대한 실험을 수행하였으며, 실험 결과 제안 방법론을 통해 다양한 토픽이 시간의 흐름에 따라 변화하는 양상을 직관적으로 파악할 수 있음을 확인하였다.

주제어구 추출과 질의어 기반 요약을 이용한 문서 요약 (Document Summarization using Topic Phrase Extraction and Query-based Summarization)

  • 한광록;오삼권;임기욱
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.488-497
    • /
    • 2004
  • 본 논문에서는 추출 요약 방식과 질의어 기반의 요약 방식을 혼합한 문서 요약 방법에 관해서 기술한다. 학습문서를 이용해 주제어구 추출을 위한 학습 모델을 만든다. 학습 알고리즘은 Naive Bayesian, 결정트리, Supported Vector Machine을 이용한다. 구축된 모델을 이용하여 입력 문서로부터 주제어구 리스트를 자동으로 추출한다. 추출된 주제어구들을 질의어로 하여 이들의 국부적 유사도에 의한 기여도를 계산함으로써 요약문을 추출한다. 본 논문에서는 주제어구가 원문 요약에 미치는 영향과, 몇 개의 주제어구 추출이 문서 요약에 적당한지를 실험하였다. 추출된 요약문과 수동으로 추출한 요약문을 비교하여 결과를 평가하였으며, 객관적인 성능 평가를 위하여 MS-Word에 포함된 문서 요약 기능과 실험 결과를 비교하였다.

토픽맵 기반의 고전문학 디지털 콘텐츠 온톨로지 설계 (A Design of Topic-map based Traditional literature's Digital Ontology)

  • 김동건;정화영
    • 한국항행학회논문지
    • /
    • 제16권4호
    • /
    • pp.673-678
    • /
    • 2012
  • 고전문학은 다양한 방법으로 대중화 접근을 시도하고 있었다. 이러한 예로서 디지털 아카이브 설계, 디지털 콘텐츠 설계 등을 들 수 있다. 그러나 이러한 노력에도 불구하고 고전문학은 대중화에 쉽지 않다는 한계를 갖는다. 이는 고전문학이 지니는 딱딱하고 타 영역에 비해 재미요소가 덜하기 때문일 수 도 있다. 특히 고전문학의 자료나 계보를 찾는 것도 쉽지 않아 일반인들이 쉽게 고전문학을 찾고 이해하기위한 환경 구축이 이루어지지 않았다. 본 연구는 고전문학을 디지털 콘텐츠화 하기 위하여 정보 프로파일을 이용한 온톨로지를 설계하고자 한다. 온톨로지의 각 요소들의 관계는 토픽맵을 이용하여 구축하였고, 토픽벡터를 이용하여 명세하였다.

모바일 기기와 가상 스토리지 기술을 적용한 자동적 및 편재적 음성형 지식 획득 (Mobile Device and Virtual Storage-Based Approach to Automatically and Pervasively Acquire Knowledge in Dialogues)

  • 유기동
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.1-17
    • /
    • 2012
  • 최근에 들어 많은 관심과 인기 속에 사용되고 있는 스마트폰은 클라우드 컴퓨팅의 편재적 기능성을 접목하여 즉각적인 지식의 획득에 효과적으로 활용될 수 있다. 또한 지식의 주제어 또는 명칭을 자동으로 파악하여 해당 지식을 저장할 수 있다면 전반적인 지식 획득 과정이 자동화될 수 있다. 본 논문은 텍스트마이닝 기반 주제어 추출 기술과 클라우드 스토리지 기반 스마트폰을 접목하여 지식이 발생되는 지점 및 시점에 즉각적으로 해당 지식을 획득할 수 있는 학제적 방안을 제시한다. 이를 위해 스마트폰은 지식이 포함된, 지식소유자의 대화를 녹음하는 역할을 함과 동시에 지식소유자의 대화의 내용을 부가적으로 특성화 할 수 있는 상황정보를 채취할 수 있는 센서의 역할을 수행한다. 또한 기계학습 알고리듬 중 텍스트마이닝분야에서 우수한 성능을 나타내는 것으로 알려진 Support Vector Machine 알고리듬을 사용하여 해당 대화의 주제어를 추출한다. 파악된 주제어와 상황정보를 연관시켜 일종의 비즈니스 규칙을 생성할 수 있으며, 최종적으로 규칙, 주제어, 상황정보, 그리고 문서화된 대화를 종합하여 하나의 지식을 자동으로 획득할 수 있다.

온라인 쇼핑몰에서 사용자 선호도 적용 방법: 토픽맵 적용 (The method to Apply User Preference for On-line Shopping Mall: A Topic Map approach)

  • 정화영;김윤호
    • 한국항행학회논문지
    • /
    • 제15권5호
    • /
    • pp.925-930
    • /
    • 2011
  • 본 연구는 온라인 쇼핑몰에서 사용자의 구매 선호도를 적용하는 방안을 제시하였다. 선호도를 분석하기 위하여 토픽 선호도 벡터가 사용되었으며, 각 토픽은 물품의 구매횟수를 이용하였다. 제안된 구조에서 각 토픽들의 연관은 상품구매 횟수를 나타내는 Purchase Hit, 관심물품에 대한 기존의 다른 사용자들의 구매 횟수를 나타내는 Count, 상품 선호도를 나타내는 Preference, 상품에 대한 정보를 나타내는 product를 구성하였다. 이러한 구조와 방법에 의하여, 제안된 방법은 사용자의 선호도가 반영된 상품을 효율적으로 제시할 수 있었다.

사용자 프로파일을 이용한 개인화된 토픽맵 랭킹 알고리즘 (Personalized Topic map Ranking Algorithm using the User Profile)

  • 박정우;이상훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권8호
    • /
    • pp.522-528
    • /
    • 2008
  • 토픽맵에서 사용자의 토픽 선택에 따라 제공되는 정보는 개별 사용자의 관심과 배경지식이 고려되지 않고 최초 도메인 전문가에 의해 구축된 토픽맵 상의 토픽(Topic)과 연관되는 관계(Association), 자원(Occurrence)만을 이용하여 사용자에게 토픽맵 정보를 제공하고 있다. 이에 토픽맵은 개인화된 정보제공 측면의 단점을 보완하고자 개별 사용자를 위한 개인화 기능으로 개인 선호항목 설정, 필터링(Filtering), 범위제한(Scope) 등 사용자가 직접 관심정보를 사전에 설정하는 기능을 제공하고 있으나 토픽맵 사용자를 위한 개인화 측면에서 만족스럽지 못하다. 따라서 본 논문에서는 특정 도메인 토픽맵에서 사용자가 원하는 개인화된 정보를 제공하기 위해 사용자 클릭정보 수집을 통한 프로파일 정보와 이를 이용한 토픽 선호도 백터(Topic Preference Vector), 토픽맵 지식층의 기본요소인 토픽(Topic)과 관계(Association)를 이용한 개인화된 토픽맵 랭킹 알고리즘(PTR)을 제안한다. 사용자는 PTR 알고리즘을 이용하여 개인 선호도가 고려되어 랭킹된 토픽맵 정보를 제공받을 수 있게 됨으로써 개인화된 정보 제공 측면에서의 성능 향상을 가져올 수 있는 장점을 가진다.

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.