• 제목/요약/키워드: LDA Topic Analysis

검색결과 295건 처리시간 0.022초

국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 - (Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP)

  • 박준형;오효정
    • 한국도서관정보학회지
    • /
    • 제48권4호
    • /
    • pp.235-258
    • /
    • 2017
  • 본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.

LDA 알고리즘을 이용한 프랜차이즈 연구 동향에 대한 토픽모델링 분석 (Topic Modeling Analysis of Franchise Research Trends Using LDA Algorithm)

  • 양회창
    • 한국프랜차이즈경영연구
    • /
    • 제12권4호
    • /
    • pp.13-23
    • /
    • 2021
  • Purpose: This study aimed to derive clues for the franchise industry to overcome difficulties such as various legal regulations and social responsibility demands and to continuously develop by analyzing the research trends related to franchises published in Korea. Research design, data and methodology: As a result of searching for 'franchise' in ScienceON, abstracts were collected from papers published in domestic academic journals from 1994 to June 2021. Keywords were extracted from the abstracts of 1,110 valid papers, and after preprocessing, keyword analysis, TF-IDF analysis, and topic modeling using LDA algorithm, along with trend analysis of the top 20 words in TF-IDF by year group was carried out using the R-package. Results: As a result of keyword analysis, it was found that businesses and brands were the subjects of research related to franchises, and interest in service and satisfaction was considerable, and food and coffee were prominently studied as industries. As a result of TF-IDF calculation, it was found that brand, satisfaction, franchisor, and coffee were ranked at the top. As a result of LDA-based topic modeling, a total of 12 topics including "growth strategy" were derived and visualized with LDAvis. On the other hand, the areas of Topic 1 (growth strategy) and Topic 9 (organizational culture), Topic 4 (consumption experience) and Topic 6 (contribution and loyalty), Topic 7 (brand image) and Topic 10 (commercial area) overlap significantly. Finally, the trend analysis results for the top 20 keywords with high TF-IDF showed that 10 keywords such as quality, brand, food, and trust would be more utilized overall. Conclusions: Through the results of this study, the direction of interest in the franchise industry was confirmed, and it was found that it was necessary to find a clue for continuous growth through research in more diverse fields. And it was also considered an important finding to suggest a technique that can supplement the problems of topic trend analysis. Therefore, the results of this study show that researchers will gain significant insights from the perspectives related to the selection of research topics, and practitioners from the perspectives related to future franchise changes.

Topic Extraction and Classification Method Based on Comment Sets

  • Tan, Xiaodong
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.329-342
    • /
    • 2020
  • In recent years, emotional text classification is one of the essential research contents in the field of natural language processing. It has been widely used in the sentiment analysis of commodities like hotels, and other commentary corpus. This paper proposes an improved W-LDA (weighted latent Dirichlet allocation) topic model to improve the shortcomings of traditional LDA topic models. In the process of the topic of word sampling and its word distribution expectation calculation of the Gibbs of the W-LDA topic model. An average weighted value is adopted to avoid topic-related words from being submerged by high-frequency words, to improve the distinction of the topic. It further integrates the highest classification of the algorithm of support vector machine based on the extracted high-quality document-topic distribution and topic-word vectors. Finally, an efficient integration method is constructed for the analysis and extraction of emotional words, topic distribution calculations, and sentiment classification. Through tests on real teaching evaluation data and test set of public comment set, the results show that the method proposed in the paper has distinct advantages compared with other two typical algorithms in terms of subject differentiation, classification precision, and F1-measure.

LDA를 사용한 COVID-19 관련 국내 논문의 연구 토픽 분석 (Research Topic Analysis of the Domestic Papers Related to COVID-19 Using LDA)

  • 김은회;서유화
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권5호
    • /
    • pp.423-432
    • /
    • 2022
  • 본 논문은 학술연구자들이 COVID-19 관련 논문의 전체적인 연구 동향을 파악할 수 있도록 한다. KCI 사이트에서 수집한 2020년 1월부터 2022년 7월까지 총 10,599편의 COVID-19 관련 논문 정보를 LDA 토픽 모델링으로 분석한 결과를 제시한다. 또한 학술연구자들이 자신의 관심 연구분야의 토픽을 쉽게 파악할 수 있도록 LDA 토픽 모델링의 결과를 주요 연구 카테고리별로 분석하고, 토픽별로 연구가 많이 이루어지는 세부 연구 카테고리 정보를 분석한다. 학술연구자들이 시간의 흐름에 따른 연구 토픽의 추세(trend)를 파악하는 것은 연구 동향을 파악하는데 매우 중요하다. 따라서 이를 위해 본 논문에서는 시계열 분해를 사용하여 토픽들의 추세(trend)를 분석하여 제시한다.

LDA 토픽 모델링을 이용한 액티브 시니어 콘텐츠 트렌드 분석 (Active Senior Contents Trend Analysis using LDA Topic Modeling)

  • 이동우;김유신;신은정
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.35-45
    • /
    • 2021
  • 베이비 부머 세대가 고령인구로 진입하면서 기존의 시니어와는 달리 활동적인 모습을 보이는 시니어들이 액티브 시니어라는 신조어로 불리며 새로운 소비자 층으로 떠오르고 있다. 많은 국가들과 기업들도 이들을 주목하고 관련 정책이나 서비스를 제공하고자 하지만 액티브 시니어 트렌드에 대한 연구는 매우 부족한 실정이다. 본 논문에서는 이러한 액티브 시니어에 대한 특징과 이들이 생산하고 소비하는 온라인 미디어 콘텐츠 트렌드를 파악하여, 액티브 시니어를 적극 포용하고 지원할 수 있는 온라인 미디어에 대한 정책 및 서비스 방향성을 제시하고자한다. 이를 위해 소셜 미디어에서 액티브 시니어를 수집 키워드로 2018년 1월 1일부터 2021년 6월 31일까지 8,740건의 데이터를 수집하여 키워드 빈도 분석, TF-IDF 분석, LDA 토픽 모델링 분석을 하였다. 키워드 빈도 분석 및 TF-IDF 분석을 통해서 액티브시니어에 대한 관심도가 급증하고 있다는 것을 파악하였으며 LDA 토픽 모델링 분석을통해서 온라인 콘텐츠의 주제 영역을 10가지로 분류하고 라이프 스타일, 혜택, 쇼핑, 정부 사업, 정부 교육, 건강, 사회/경제, 케어 산업, 실버 주택, 여가로 명명하였다.

한국과학교육학회지는 44년간 어떤 주제로 어떻게 변화했는가? -잠재 디리클레 할당(LDA)을 활용한 토픽모델링 분석- (How the Journal of the Korean Association for Science Education(JKASE) Changed for the Past 44 Years?: Topic Modeling Analysis Using Latent Dirichlet Allocation)

  • 장진아;나지연
    • 한국과학교육학회지
    • /
    • 제42권2호
    • /
    • pp.185-200
    • /
    • 2022
  • 이 연구에서는 LDA 기반의 토픽모델링 분석을 통해 한국과학교육학회지에 게재된 연구 논문들이 어떤 주제로 어떻게 변화했는지 탐색하였다. 이를 위해, 1978년부터 2021년 5월까지 한국과학교육학회지에 게재된 논문들의 영문초록 총 2,115개에 대한 LDA 기반 토픽모델링분석을 실시하였다. 분석 결과, 총 23개의 토픽을 추출하였으며 각 토픽들을 관련된 키워드 및 세부 연구주제들과 함께 제시하였다. 다음으로, 시간에 따른 토픽들의 변화 추이를 살펴보기 위해, 4년 주기에 대한 각 토픽들의 평균 비중값의 변화를 히트맵으로 시각화하였다. 이를 통해, 시간이 지남에 따라 상승해온 주제와 하락해온 주제들을 밝혔다. 이 연구의 결과들은 꾸준히 연구되어온 전통적인 연구 주제들, 교육 철학이나 연구방법의 변화, 사회나 정책적 요구에 따라 달라져온 연구 주제들을 드러냄으로써 한국의 과학교육연구에 새로운 통찰을 제공할 것으로 기대된다.

LDA를 이용한 온라인 리뷰의 다중 토픽별 감성분석 - TripAdvisor 사례를 중심으로 - (Multi-Topic Sentiment Analysis using LDA for Online Review)

  • 홍태호;니우한잉;임강;박지영
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권1호
    • /
    • pp.89-110
    • /
    • 2018
  • Purpose There is much information in customer reviews, but finding key information in many texts is not easy. Business decision makers need a model to solve this problem. In this study we propose a multi-topic sentiment analysis approach using Latent Dirichlet Allocation (LDA) for user-generated contents (UGC). Design/methodology/approach In this paper, we collected a total of 104,039 hotel reviews in seven of the world's top tourist destinations from TripAdvisor (www.tripadvisor.com) and extracted 30 topics related to the hotel from all customer reviews using the LDA model. Six major dimensions (value, cleanliness, rooms, service, location, and sleep quality) were selected from the 30 extracted topics. To analyze data, we employed R language. Findings This study contributes to propose a lexicon-based sentiment analysis approach for the keywords-embedded sentences related to the six dimensions within a review. The performance of the proposed model was evaluated by comparing the sentiment analysis results of each topic with the real attribute ratings provided by the platform. The results show its outperformance, with a high ratio of accuracy and recall. Through our proposed model, it is expected to analyze the customers' sentiments over different topics for those reviews with an absence of the detailed attribute ratings.

LDA를 이용한 국제지적연구의 주제와 추세확인에 관한 연구: 특히 FIG Peer Review Journal을 중심으로 (A Study on Identifying Topics and Trends in International Cadastral Research Using LDA: With Special Reference to the FIG Peer Review Journal)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제48권1호
    • /
    • pp.15-33
    • /
    • 2018
  • 본 연구의 주된 목적은 LDA를 이용하여 국제지적연구의 주제와 연구추세를 확인하는 것이었다. 이러한 연구목적을 달성하기 위해 나는 LDA와 국제지적연구에 관한 선행연구를 검토하였고 이를 기반으로 4 개의 연구 질문을 설정하였다. 이러한 연구 질문에 답을 구하기 위해 나는 FIG Peer Review Journal에 2008년 1월1일 부터 2017년 10월 31일 사이에 발표된 370편의 논문들을 LDA를 이용하여 분석하였다. 분석의 결과 나는 국제지적연구에 12개의 주요 주제가 존재하고 있음을 확인하였다. 그리고 이러한 주제 중에 가장 영향력 있는 주제는 topic 2 (지적정보시스템)로 확인되었으며 또한 topic 5 (토지개발과 토지행정)도 전체 문서에서 중요한 역할을 수행하고 있는 주제로 파악되었다. 이두 주제는 지난 10년 동안 추세선이 매우 활발하게 움직인 가장 인기 있는 주제들로서 앞으로의 지적연구에서도 주도적인 역할을 수행할 것이 틀림없다.

LDA 및 BERTopic 기반 해외건설시장 뉴스 기사 토픽모델링 성능평가 (Evaluation of Topic Modeling Performance for Overseas Construction Market Analysis Using LDA and BERTopic on News Articles)

  • 백준우;정세환;지석호
    • 대한토목학회논문집
    • /
    • 제43권6호
    • /
    • pp.811-819
    • /
    • 2023
  • 해외건설사업 시, 현지 상황을 정확하고 빠르게 파악하는 것은 프로젝트 성공을 위해 매우 중요한 요소이다. 이는 토픽모델링을 활용한 뉴스 기사 분석을 통해 실현될 수 있다. 본 연구는 Latent Dirichlet Allocation(LDA)과 BERTopic 두 토픽모델링 기법을 활용하여 뉴스 기사를 분석하고, 최적의 기법을 찾고자 하였다. 모델링 결과로 자동생성된 토픽과 실제 문서 주제와의 일치 여부를 확인하기 위해 BBC 뉴스 기사 6,273건 을 수집하여 ground truth를 생성하고, 이를 모델링된 토픽과 비교하였다. 그 결과 LDA의 F1 score는 0.011, BERTopic은 0.244로 나타났다. 이를 통해 BERTopic이 실제 뉴스 기사의 주제를 잘 파악하며, 해외건설시장의 주요 이슈를 자동으로 이해하는 데 더욱 용이하다는 것을 확인할 수 있었다

Topic Modeling Analysis of Beauty Industry using BERTopic and LDA

  • YANG, Hoe-Chang;LEE, Won-Dong
    • 융합경영연구
    • /
    • 제10권6호
    • /
    • pp.1-7
    • /
    • 2022
  • Purpose: The purpose of this study is identifying the research trends of degree papers related to the beauty industry and providing information which can contribute to the development of the domestic beauty industry and the direction of various research about beauty industry. Research design, data and methodology: This study used 154 academic papers and 189 academic papers with English abstracts out of 299 academic papers. All of these papers were found by searching for the keyword "beauty industry" in ScienceON on August 15, 2022. For the analysis, BERTopic and LDA (Latent Dirichlet Allocation) analysis were conducted using Python 3.7. Also, OLS regression analysis was conducted to understand the annual increase and decrease trend of each topic derived with trend analysis. Results: As a result of word frequency analysis, the frequency of satisfaction, management, behavior, and service was found to be high. In addition, it was found that 'service', 'satisfaction' and 'customer' were frequently associated with program and relationship in the word co-occurrence frequency analysis. As a result of topic modeling, six topics were derived: 'Beauty shop', 'Health education', 'Cosmetics', 'Customer satisfaction', 'Beauty education', and 'Beauty business'. The trend analysis result of each topic confirmed that 'Beauty education' and 'Health education' are getting more attention as time goes by. Conclusions: The future studies must resolve the extreme polarization between the structure of the small beauty industry and beauty stores. Furthermore, the researches have to direct various ways to create the performance of internal personnel. The ways to maximize product capabilities such as competitive cosmetics and brands are also needed attentions.