• 제목/요약/키워드: Latent Dirichlet Allocation (LDA) analysis

검색결과 143건 처리시간 0.032초

사고보고문서를 이용한 텍스트 기반 사고발생 유형 및 관계 분석 (Text Analytics for Classifying Types of Accident Occurrence Using Accident Report Documents)

  • 김범수;장성록;서용윤
    • 한국안전학회지
    • /
    • 제33권3호
    • /
    • pp.58-64
    • /
    • 2018
  • Recently, a lot of accident report documents have accumulated in almost all of industries, including critical information of accidents. Accordingly, text data contained in accident report documents are considered useful information for understanding accident processes. However, there has been a lack of systematic approaches to analyzing accident report documents. In this respect, this paper aims at proposing text analytics approach to extracting critical information on accident processes. To be specific, major causes of the accident occurrence are classified based on text information contained in accident report documents by using both textmining and latent Dirichlet allocation (LDA) algorithms. The textmining algorithm is used to structure the document-term matrix and the LDA algorithm is applied to extract latent topics included in a lot of accident report documents. We extract ten topics of accidents as accident types and related keywords of accidents with respect to each accident type. The cause-and-effect diagram is then depicted as a tool for navigating processes of the accident occurrence by structuring causes extracted from LDA. Further, the trends of accidents are identified to explore patterns of accident occurrence in each of types. Three patterns of increasing to decreasing, decreasing to increasing, or only increasing are presented in the case of a chemical plant. The proposed approach helps safety managers systematically supervise the causes and processes of accidents through analysis of text information contained in accident report documents.

Generative probabilistic model with Dirichlet prior distribution for similarity analysis of research topic

  • Milyahilu, John;Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권4호
    • /
    • pp.595-602
    • /
    • 2020
  • We propose a generative probabilistic model with Dirichlet prior distribution for topic modeling and text similarity analysis. It assigns a topic and calculates text correlation between documents within a corpus. It also provides posterior probabilities that are assigned to each topic of a document based on the prior distribution in the corpus. We then present a Gibbs sampling algorithm for inference about the posterior distribution and compute text correlation among 50 abstracts from the papers published by IEEE. We also conduct a supervised learning to set a benchmark that justifies the performance of the LDA (Latent Dirichlet Allocation). The experiments show that the accuracy for topic assignment to a certain document is 76% for LDA. The results for supervised learning show the accuracy of 61%, the precision of 93% and the f1-score of 96%. A discussion for experimental results indicates a thorough justification based on probabilities, distributions, evaluation metrics and correlation coefficients with respect to topic assignment.

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장 (Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification)

  • 이호경;양선;고영중
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1008-1014
    • /
    • 2016
  • 트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.

Variational Expectation-Maximization Algorithm in Posterior Distribution of a Latent Dirichlet Allocation Model for Research Topic Analysis

  • Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권7호
    • /
    • pp.883-890
    • /
    • 2020
  • In this paper, we propose a variational expectation-maximization algorithm that computes posterior probabilities from Latent Dirichlet Allocation (LDA) model. The algorithm approximates the intractable posterior distribution of a document term matrix generated from a corpus made up by 50 papers. It approximates the posterior by searching the local optima using lower bound of the true posterior distribution. Moreover, it maximizes the lower bound of the log-likelihood of the true posterior by minimizing the relative entropy of the prior and the posterior distribution known as KL-Divergence. The experimental results indicate that documents clustered to image classification and segmentation are correlated at 0.79 while those clustered to object detection and image segmentation are highly correlated at 0.96. The proposed variational inference algorithm performs efficiently and faster than Gibbs sampling at a computational time of 0.029s.

공유경제 기반의 고객리뷰를 이용한 토픽모델링 분석: 공유주차를 중심으로 (A Study on Analysis of Topic Modeling using Customer Reviews based on Sharing Economy: Focusing on Sharing Parking)

  • 이태원
    • 한국산업정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.39-51
    • /
    • 2020
  • 본 연구에서는 공유경제의 다양한 비즈니스 모델 중 공유주차로 범위를 제한하고, 이와 관련된 리뷰를 수집한 후 텍스트마이닝 분석을 통해 공유주차가 갖고 있는 사회적 이슈와 소비자 인식에 대해 살펴보고자 한다. 본 실험에서는 TFIDF (Term frequency inverse document frequency) 기법과 LDA (Latent dirichlet allocation) 기법을 이용하여 키워드별 토픽을 추출하여 분석한 결과 소비자들이 필요로 하거나 원하는 정보들을 파악할 수 있었으며, 토픽으로 분류한 결과 지자체 협약, 주차공간협소, 주차문화개선, 시민참여 등 시민들의 불만과 시민의식이 공유주차 서비스를 시행하는데 중요한 역할을 하고 있다는 것을 확인할 수 있었다. 본 연구는 정성적 연구, 기업 및 지역의 사례를 이용하여 기존의 탐색적 연구를 수행한 선행 연구와는 차별화된 연구로 학술적 기여도가 높다고 할 수 있다. LDA 분석을 본 연구에 활용하여 나타난 결과를 바탕으로 지역경제 활성화를 위한 공유경제 정책 수립에 응용하거나 활용할 수 있다는 실무적 기여도가 있다.

토픽모델링을 활용한 과학기술동향 및 예측에 관한 연구 (A Study on Science Technology Trend and Prediction Using Topic Modeling)

  • 박주섭;홍순구;김종원
    • 한국산업정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.19-28
    • /
    • 2017
  • 기업이나 정부에서는 연구나 기술 동향을 파악하고 예측하기 위해 주로 델파이 기법이 활용하여 왔다. 이 기법은 많은 시간과 비용이 소요되는 단점이 있기에 본 논문에서는 LDA 토픽모델링 기법을 활용하여 과학기술의 동향 및 예측에 관한 연구를 실시하였다. 이를 위해 미국 특허 문서중 AI(Artificial Intelligence) 초록을 대상으로 LDA 토픽모델링 기법을 활용하여 20개의 AI 세부기술을 추출하였다. 도출된 세부기술에 대해 핵심기술을 파악하고, 연도별 비중 추이 분석을 통하여 Hot기술과 Cold기술을 분류하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다. 이런 기술들은 최근 AI 분야에서 활발하게 연구되는 핵심 기술들이다. 본 논문에서 제시한 방법론은 사회문제나 지역혁신, 경영 등 다양한 분야에서의 동향분석이나 정책 도출 또는 기술 수요 예측에 활용되어 질 수 있을 것이다.

잠재 디리클레 할당(LDA)을 이용한 항공안전 의무보고 토픽 예측 모형 (Aviation Safety Mandatory Report Topic Prediction Model using Latent Dirichlet Allocation (LDA))

  • 김준환;백현진;전성진;최영재
    • 한국항공운항학회지
    • /
    • 제31권3호
    • /
    • pp.42-49
    • /
    • 2023
  • Not only in aviation industry but also in other industries, safety data plays a key role to improve the level of safety performance. By analyzing safety data such as aviation safety report (text data), hazard can be identified and removed before it leads to a tragic accident. However, pre-processing of raw data (or natural language data) collected from each site should be carried out first to utilize proactive or predictive safety management system. As air traffic volume increases, the amount of data accumulated is also on the rise. Accordingly, there are clear limitation in analyzing data directly by manpower. In this paper, a topic prediction model for aviation safety mandatory report is proposed. In addition, the prediction accuracy of the proposed model was also verified using actual aviation safety mandatory report data. This research model is meaningful in that it not only effectively supports the current aviation safety mandatory report analysis work, but also can be applied to various data produced in the aviation safety field in the future.

토픽모델링을 이용한 대한원격탐사학회지의 연구주제 분류 및 연구동향 분석: 자연·환경재해 분야를 중심으로 (A Study on the Research Topics and Trends in Korean Journal of Remote Sensing: Focusing on Natural & Environmental Disasters)

  • 김태용;박혜민;허준용;양민준
    • 대한원격탐사학회지
    • /
    • 제37권6_2호
    • /
    • pp.1869-1880
    • /
    • 2021
  • 대한원격탐사학회지는 국내 원격탐사 분야를 대표하는 학술지로 원격탐사를 바탕으로 다학제 간 융합연구를 통해 수행된 다양한 분야의 연구논문들이 게재되고 있다. 본 연구는 대한원격탐사학회지에 게재된 논문을 바탕으로 토픽모델링을 수행하여 원격탐사 분야의 역사와 발전에 대해 논의하고자 한다. 1985년부터 2021년까지 총 1,847편의 논문 제목, 주제어, 다국어 초록을 수집하였다. 대한원격탐사학회지의 전반적인 연구 동향과 자연·환경재해 분야의 연구동향을 확인하기 위해 Latent Dirichlet Allocation (LDA)를 수행하였으며, 연구주제를 분류하고 연구동향을 확인하였다. 대한원격탐사학회지 전체 논문을 대상으로 LDA를 수행한 결과 4개의 연구주제('극권', '수권', '지권', '기권')로 분류할 수 있었으며, 시간에 따라 '기권'과 관련된 연구주제들이 성행하는 것을 확인하였다(linear slope=3.51 × 10-3, p< 0.05). 전체 논문 중 자연·환경재해 분야를 대상으로 LDA를 수행한 결과 7개의 연구주제('해양 오염', '대기 오염', '화산재해', '산불', '홍수', '가뭄', '폭우')로 분류할 수 있었으며, 시간에 따라 '대기 오염'과 관련된 연구주제들이 성행하는 것을 확인하였다(linear slope=2.61 × 10-3, p<0.05). 본 연구의 결과는 원격탐사를 다루는 다양한 분야의 연구자들에게 원격탐사 분야와 자연·환경재해 분야의 역사와 발전에 대한 이해를 제공했음에 의의가 있다.

Technology Development Strategy of Piggyback Transportation System Using Topic Modeling Based on LDA Algorithm

  • Jun, Sung-Chan;Han, Seong-Ho;Kim, Sang-Baek
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.261-270
    • /
    • 2020
  • 본 연구는 피기백 화차운송 시스템의 특허문서를 활용하여 관련 분야의 유망기술을 파악하는 것을 목표로 한다. 이를 위해 피기백 운송 시스템의 선행연구 및 관련 보고서로 기술 키워드를 추출하여 특허문서를 추출한다. 추출된 특허문서에 텍스트마이닝 기법을 적용하여 빈도수가 높은 키워드를 확인하고 피기백 운송 시스템의 핵심기술의 토픽을 식별하기 위해 LDA(Latent Dirichlet Allocation) 알고리즘을 적용하였다. 마지막으로, 시계열 분석 기법인 ARIMA 모델을 핵심기술의 토픽에 적용하여 기술 추세를 예측하고 피기백 운송 시스템에 대한 유망한 기술을 식별하였다. 특허 분석 결과, 데이터 기반 통합관리 시스템과 운영 계획 시스템 그리고 복합수송 중 특수 화물(기체, 액체류) 운송 및 보관 기술이 미래에 유망한 핵심기술로 도출되었고, 데이터 송수신 및 분석 기술이 중요한 세부 기술임을 확인하였다. 제안된 분석 방법은 피기백 운송 시스템의 R&D 연구개발 전략 및 기술 로드맵을 개발하는 데 있어 충분한 자료가 될 수 있다.

토픽 모형과 ChatGPT를 활용한 스마트팩토리 연관 특허 빅데이터 분석에 관한 연구 (A Study on Big Data Analysis of Related Patents in Smart Factories Using Topic Models and ChatGPT)

  • 김상국;윤민영;권태훈;임정선
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.15-31
    • /
    • 2023
  • In this study, we propose a novel approach to analyze big data related to patents in the field of smart factories, utilizing the Latent Dirichlet Allocation (LDA) topic modeling method and the generative artificial intelligence technology, ChatGPT. Our method includes extracting valuable insights from a large data-set of associated patents using LDA to identify latent topics and their corresponding patent documents. Additionally, we validate the suitability of the topics generated using generative AI technology and review the results with domain experts. We also employ the powerful big data analysis tool, KNIME, to preprocess and visualize the patent data, facilitating a better understanding of the global patent landscape and enabling a comparative analysis with the domestic patent environment. In order to explore quantitative and qualitative comparative advantages at this juncture, we have selected six indicators for conducting a quantitative analysis. Consequently, our approach allows us to explore the distinctive characteristics and investment directions of individual countries in the context of research and development and commercialization, based on a global-scale patent analysis in the field of smart factories. We anticipate that our findings, based on the analysis of global patent data in the field of smart factories, will serve as vital guidance for determining individual countries' directions in research and development investment. Furthermore, we propose a novel utilization of GhatGPT as a tool for validating the suitability of selected topics for policy makers who must choose topics across various scientific and technological domains.