• Title/Summary/Keyword: 토픽 일관성

Search Result 13, Processing Time 0.022 seconds

Tweets analysis using a Dynamic Topic Modeling : Focusing on the 2019 Koreas-US DMZ Summit (트윗의 타임 시퀀스를 활용한 DTM 분석 : 2019 남북미정상회동 이벤트를 중심으로)

  • Ko, EunJi;Choi, SunYoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.2
    • /
    • pp.308-313
    • /
    • 2021
  • In this study, tweets about the 2019 Koreas-US DMZ Summit were collected along with a time sequence and analyzed by a sequential topic modeling method, Dynamic Topic Modeling(DTM). In microblogging services such as Twitter, unstructured data that mixes news and an opinion about a single event occurs at the same time on a large scale, and information and reactions are produced in the same message format. Therefore, to grasp a topic trend, the contextual meaning can be found only by performing pattern analysis reflecting the characteristics of sequential data. As a result of calculating the DTM after obtaining the topic coherence score and evaluating the Latent Dirichlet Allocation(LDA), 30 topics related to news reports and opinions were derived, and the probability of occurrence of each topic and keywords were dynamically evolving. In conclusion, the study found that DTM is a suitable model for analyzing the trend of integrated topics in a specific event over time.

Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information (무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장)

  • Kwak, Chang-Uk;Kim, Sun-Joong;Park, Seong-Bae;Kim, Kweon Yang
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.9
    • /
    • pp.461-466
    • /
    • 2016
  • Topic expansion is an expansion method that reflects external data for improving quality of learned topic. The online learning topic model is not appropriate for topic expansion using external data, because it does not reflect unseen words to learned topic model. In this study, we proposed topic expansion method using infinite vocabulary online LDA. When unseen words appear in learning process, the proposed method allocates unseen word to topic after calculating semantic correlation between unseen word and each topic. To evaluate the proposed method, we compared with existing topic expansion method. The results indicated that the proposed method includes additional information that is not contained in broadcasting script by reflecting external documents. Also, the proposed method outperformed on coherence evaluation.

Automatic Generating Stopword Methods for Improving Topic Model (토픽모델의 성능 향상을 위한 불용어 자동 생성 기법)

  • Lee, Jung-Been;In, Hoh Peter
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

Proposal of the Evaluation Method Based on Query Types and Semantic Relations in Subtopic Mining (질의어의 종류와 의미 관계를 고려한 서브토픽 마이닝 평가 방법 제안)

  • Kim, Se-Jong;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.285-287
    • /
    • 2012
  • 서브토픽 마이닝(subtopic mining)이란 사용자 의도를 반영하는 서브토픽을 찾아내고 순위화하는 연구분야이다. 본 논문은 서브토픽 마이닝의 결과를 평가하는 기존 방법의 한계점을 제시하고, 이를 해결하기 위해 질의어의 종류를 고려하여 보다 명확한 의도 항목(intent)의 나열을 유도하고, 질의어와 의도 항목 사이에 'is-a' 및 'part-of' 관계를 적용하여 보다 일관성 있고 의도 항목의 의미적 중복을 최소화하는 평가 방법을 제안하였으며, 평가 대상을 3종류로 구분하여 평가 결과의 활용도를 높였다.

Adaptive User and Topic Modeling based Automatic TV Recommendation (적응적 사용자 및 토픽 모델링 기반의 자동 TV 프로그램 추천)

  • Kim, EunHui;Pyo, Shinjee;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.431-434
    • /
    • 2012
  • 시간 흐름에 따라 TV 프로그램 스케줄은 변화하고 스케줄의 변화는 사용자 선호에 영향을 미친다. 이러한 스케줄 변화에 따른 토픽의 흐름이 사용자 선호도에 미치는 영향 외에도, 개성에 따른 선호도의 변화는 개인별 차이가 크다. 본 논문은 사용자 선호도 변화에 적응적으로 대응하면서 시간 변화에도 일정한 관심을 보이는 사용자의 선호도에는 가중치를 더한 모델을 목표로 한다. 따라서 제안 모델은 현재의 시청 데이터를 기준으로 한 사용자별 선호도의 선행 정보(prior)로 이전 시청선호를 두었고, 선호도 변화와 일관성을 고려하여 하나의 시청길이에 대한 선호도뿐만 아니라 여러 시청 길이의 선호도를 결합한 선호도를 구성할 수 있는 확장성 있는 모델을 제시한다. 선호도의 일관성에 대한 가중치 연산에 있어 전체 확률모델의 확률을 향상시키는 연산을 통해 정교성을 더한 모델을 제시한다. 실제 사용자들이 시청한 데이터인 2011 TNMS데이터를 기준으로 제안 모델의 성능을 확인한 결과, 기존의 LDA, MDTM모델 보다 나은 성능을 보임을 확인할 수 있었으며, 1주일 단위 추천결과, 5개 추천 시, 최대 67.9%의 추천 정확도를 확인할 수 있었다.

  • PDF

RDBMS based Topic Map Constraint Checking Mechanism (RDBMS 기반의 토픽맵 무결성 검사 기법)

  • Lee, Han-Jun;Min, Kyung-Sub;Kim, Hyoung-Joo
    • Journal of KIISE:Databases
    • /
    • v.34 no.6
    • /
    • pp.493-502
    • /
    • 2007
  • Due to a growing interest in searching and expressing knowledge effectively, knowledge management methods such as Topic Map are becoming more important. Topic Map organizes knowledge that is full of intricate relations, so maintaining and managing Topic Map consistently is very essential. TMCL and other constraint languages have limits as they can check simple constraints but can not support complex constraints like dependence constraints. Current constraint checking systems operating at the application level are also showing an inferiority in performance. In this paper, we extend TMCL based on the characteristics of other constraint languages in the information system field and related fields. We build and propose an RDBMS-based Topic Map constraint checking system to support the extended constraint language effectively. This new system handles complex types of constraints like dependency constraint as well as basic Topic Map constraints present in the TMCL. As the system examines each constraint it uses templates to generate queries for effective checking and overall shows a higher performance level than current systems.

K-Box: Ontology Management System based on Topic Maps (K-Box: 토픽맵 기반의 온톨로지 관리 시스템)

  • 김정민;박철만;정준원;이한준;민경섭;김형주
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.10 no.1
    • /
    • pp.1-13
    • /
    • 2004
  • The Semantic Web introduces the next generation of the Web by establishing a semantic layer of machine-understandable data to enable machines (i.e intelligent agents) retrieve more relevant information and execute automated web services using semantic information. Ontology-related technologies are very important to evolve the World Wide Web of today into the Semantic Web in representation and share of semantic data. In this paper, we proposed and implemented the efficient ontology management system, K-Box, which constructs and manages ontologies using topic maps. We can use K-Box system to construct, store and retrieve ontologies. K-Box system has several components: Topicmap Factory, Topicmap Provider, Topicmap Query Processor, Topicmap Object Wrapper, Topicmap Cache Manager, Topicmap Storage Wrapper.

An Analysis of Civil Complaints about Traffic Policing Using the LDA Model (토픽모델링을 활용한 교통경찰 민원 분석)

  • Lee, Sangyub
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.20 no.4
    • /
    • pp.57-70
    • /
    • 2021
  • This study aims to investigate the security demand about the traffic policing by analyzing civil complaints. Latent Dirichlet Allocation(LDA) was applied to extract key topics for 2,062 civil complaints data related to traffic policing from e-People. And additional analysis was made of reports of violations, which accounted for a high proportion. In this process, the consistency and convergence of keywords and representative documents were considered together. As a result of the analysis, complaints related to traffic police could be classified into 41 topics, including traffic safety facilities, passing through intersections(signals), provisional impoundment of vehicle plate, and personal mobility. It is necessary to strengthen crackdowns on violations at intersections and violations of motorcycles and take preemptive measures for the installation and operation of unmanned traffic control equipments, crosswalks, and traffic lights. In addition, it is necessary to publicize the recently amended laws a implemented policies, e-fine, procedure after crackdown.

온톨로지 기반의 지식맵 서비스 시스템의 설계 및 구현

  • 김정민;박철만;정준원;이한준;정호영;민경섭;김형주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.527-529
    • /
    • 2003
  • 지식관리시스템의 지식 분류 체계가 지식맵이며 이 지식맵을 이용하여 지식 서비스가 제공된다. 그러나 현재의 지식맵은 비표준적인 지식 네트웍 구조와 정적인 분류체계라는 문제를 가진다. 문제 해결 방법은 지식맵에 온틀로지를 적용해서 표준성, 의미 기반의 지식 네트웍 구조. 동적인 지식분류, 자동화된 지식서비스를 제공하는 새로운 개념의 지식맵을 구현하는 것이다. 본 논문에서는 토픽맵 모델을 기반으로 온톨로지를 생성, 저장, 검색하는 효율적인 온톨로지 관리 시스템인 K-Box를 구현하였다. K-Box는 온톨로지 관리를 위한 기본적인 기능들을 제공하며, 이질적인 저장소들을 일관된 인터페이스로 접근할 수 있도록 함으로써 저장 장치 독립성을 제공하였다. 또한, 저장 관리되는 모든 온톨로지들의 무결성을 보장하기 위한 새로운 기법과 사용자 관심을 중심으로 한 온톨로지 검색 지원을 위한 방법을 제안하였다. 마지막으로, 우리는 여러 온톨로지들을 적용해 봄으로써 K-Box 시스템이 효율적으로 사용 가능함을 확인하였다.

  • PDF

Design of a MDR based Contents Metafile Management System using the XTM (XTM을 이용한 MDR기반 콘텐츠 메타파일 관리 시스템 설계)

  • Yoo, Woo-Jong;Lim, Hee-Young;Lim, Jung-Eun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.109-112
    • /
    • 2004
  • 콘텐츠 관리 시스템(CMS:Contents Management System)은 '자료 수집, 등록, 검색, 배포'의 기본 흐름을 가진다. 콘텐츠의 등록 및 검색/배포를 위하여 각 시스템은 콘텐츠에 대한 별도의 메타 파일들을 가지고 있으나, 이러한 메타파일들은 데이터 요소의 중의성이나 모호함 때문에 일관되고 객관화 된 스키마를 가지지 못하여 체계적 분류 및 최신 업데이트를 위한 메타데이터 자체의 효율적 관리 및 연관 검색 기능을 가지고 있지 않았다. 본 논문에서는 기존 연구되고 있는 MDR과 토픽맵을 자체 개발 중인 콘텐츠 메타파일 관리 시스템(CMMS:Contents Metafile Management System)에 적용하여 메타파일의 체계적이고 효율적인 관리를 통해 기준요소로서의 메타파일 역할을 극대화하고 향후 타 체계와의 연동 및 확장성의 향상을 도모한다.

  • PDF