• 제목/요약/키워드: Topic Modeling(LDA)

검색결과 292건 처리시간 0.026초

Topic Modeling of Korean Newspaper Articles on Aging via Latent Dirichlet Allocation

  • Lee, So Chung
    • Asian Journal for Public Opinion Research
    • /
    • 제10권1호
    • /
    • pp.4-22
    • /
    • 2022
  • The purpose of this study is to explore the structure of social discourse on aging in Korea by analyzing newspaper articles on aging. The analysis is composed of three steps: first, data collection and preprocessing; second, identifying the latent topics; and third, observing yearly dynamics of topics. In total, 1,472 newspaper articles that included the word "aging" within the title were collected from 10 major newspapers between 2006 and 2019. The underlying topic structure was analyzed using Latent Dirichlet Allocation (LDA), a topic modeling method widely adopted by text mining academics and researchers. Seven latent topics were generated from the LDA model, defined as social issues, death, private insurance, economic growth, national debt, labor market innovation, and income security. The topic loadings demonstrated a clear increase in public interest on topics such as national debt and labor market innovation in recent years. This study concludes that media discourse on aging has shifted towards more productivity and efficiency related issues, requiring older people to be productive citizens. Such subjectivation connotes a decreased role of the government and society by shifting the responsibility to individuals not being able to adapt successfully as productive citizens within the labor market.

공유경제 기반의 고객리뷰를 이용한 토픽모델링 분석: 공유주차를 중심으로 (A Study on Analysis of Topic Modeling using Customer Reviews based on Sharing Economy: Focusing on Sharing Parking)

  • 이태원
    • 한국산업정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.39-51
    • /
    • 2020
  • 본 연구에서는 공유경제의 다양한 비즈니스 모델 중 공유주차로 범위를 제한하고, 이와 관련된 리뷰를 수집한 후 텍스트마이닝 분석을 통해 공유주차가 갖고 있는 사회적 이슈와 소비자 인식에 대해 살펴보고자 한다. 본 실험에서는 TFIDF (Term frequency inverse document frequency) 기법과 LDA (Latent dirichlet allocation) 기법을 이용하여 키워드별 토픽을 추출하여 분석한 결과 소비자들이 필요로 하거나 원하는 정보들을 파악할 수 있었으며, 토픽으로 분류한 결과 지자체 협약, 주차공간협소, 주차문화개선, 시민참여 등 시민들의 불만과 시민의식이 공유주차 서비스를 시행하는데 중요한 역할을 하고 있다는 것을 확인할 수 있었다. 본 연구는 정성적 연구, 기업 및 지역의 사례를 이용하여 기존의 탐색적 연구를 수행한 선행 연구와는 차별화된 연구로 학술적 기여도가 높다고 할 수 있다. LDA 분석을 본 연구에 활용하여 나타난 결과를 바탕으로 지역경제 활성화를 위한 공유경제 정책 수립에 응용하거나 활용할 수 있다는 실무적 기여도가 있다.

A Study on Research Trend Analysis and Topic Class Prediction of Digital Transformation using Text Mining

  • Lee, JeeYoung
    • International journal of advanced smart convergence
    • /
    • 제8권2호
    • /
    • pp.183-190
    • /
    • 2019
  • In the era of the Fourth Industrial Revolution, digital transformation, which means changes in all industrial structures, politics, economics and society as well as IT technology, is an important issue. It is difficult to know which research topic is being studied because digital transformation is being studied in various fields. Convergence research is possible because a research topic is studied in various fields such as computer science area and Decision science area. However, it is difficult to know the specific research status of the research topic. In this study, eight research topics were derived using the topic modeling technique of text mining for abstract of academic literature and the trend of each topic was analyzed. We also proposed to create a Topic-Word Proportions Table in the LDA based Topic modeling process to predict the topic of new literature. The results of this study are expected to contribute to advanced convergence research on topic of digital transformation. It is expected that the literature related to each research topic will be grasped and contribute to the design of a new convergence research.

자아 중심 네트워크 분석과 동적 인용 네트워크를 활용한 토픽모델링 기반 연구동향 분석에 관한 연구 (Combining Ego-centric Network Analysis and Dynamic Citation Network Analysis to Topic Modeling for Characterizing Research Trends)

  • 유소영
    • 정보관리학회지
    • /
    • 제32권1호
    • /
    • pp.153-169
    • /
    • 2015
  • 이 연구에서는 토픽 모델링 결과 해석의 용이성을 위하여, 동적 인용 네트워크를 활용하여 LDA 기반 토픽 모델링의 토픽 수를 설정하고 중복 배치된 주요 키워드를 자아 중심 네트워크 분석을 통해 재배치하여 제시하는 방법을 제안하였다. 'White LED' 두 분야의 논문 데이터를 이용하여 분석한 결과, 동적 인용 네트워크 분석을 통해 형성된 분석대상 문헌집단에 혼잡도에 따른 토픽수를 사용하고 중복 분류된 토픽 내 주요 키워드를 자아중심 네트워크 분석 기법을 적용하여 재배치한 결과가 토픽 간의 중복도가 가장 낮은 것으로 나타났다. 따라서 동적 인용 네트워크 및 자아 중심 네트워크 분석을 적용함으로써 토픽모델링에 의한 분석 결과를 보완하는 다면적인 연구 동향 분석이 가능할 것으로 보인다.

단어 연관성 가중치를 적용한 연관 문서 추천 방법 (A Method on Associated Document Recommendation with Word Correlation Weights)

  • 김선미;나인섭;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제22권2호
    • /
    • pp.250-259
    • /
    • 2019
  • Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution vectors in topics through LDA-based Topic Modeling. Then, we use Word2vec to vector words, and generate a weight matrix to derive the relevance SCORE considering the semantic relationship between the words. We propose a way to recommend documents in order of high score.

Generative probabilistic model with Dirichlet prior distribution for similarity analysis of research topic

  • Milyahilu, John;Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권4호
    • /
    • pp.595-602
    • /
    • 2020
  • We propose a generative probabilistic model with Dirichlet prior distribution for topic modeling and text similarity analysis. It assigns a topic and calculates text correlation between documents within a corpus. It also provides posterior probabilities that are assigned to each topic of a document based on the prior distribution in the corpus. We then present a Gibbs sampling algorithm for inference about the posterior distribution and compute text correlation among 50 abstracts from the papers published by IEEE. We also conduct a supervised learning to set a benchmark that justifies the performance of the LDA (Latent Dirichlet Allocation). The experiments show that the accuracy for topic assignment to a certain document is 76% for LDA. The results for supervised learning show the accuracy of 61%, the precision of 93% and the f1-score of 96%. A discussion for experimental results indicates a thorough justification based on probabilities, distributions, evaluation metrics and correlation coefficients with respect to topic assignment.

토픽모델링을 활용한 국내 수학과 교육과정 연구 동향 분석 : 1997년부터 2019년까지 게재된 국내 수학교육 학술지 논문을 중심으로 (An analysis of domestic research trends of mathematics curriculum research through topic modeling: Focused on domestic journals published from 1997 to 2019)

  • 손태권;이광호
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제59권3호
    • /
    • pp.201-216
    • /
    • 2020
  • 본 연구는 1997년부터 2019년까지 KCI 등재지에 게재된 493편의 국내 수학과 교육과정 논문을 LDA 토픽 모델링을 사용하여 연구 동향을 분석하였다. 그 결과, 국내 수학과 교육과정 연구는 8개의 토픽으로 분류할 수 있었으며 그 중 '교육과정 이행과 평가'의 비중이 가장 낮았다. 또한 교육과정 적용 시기에 따라 토픽들은 다르게 출현했으며 수학과 교육과정에서 강조하는 중점 방향과 부합하는 경향성을 보였다. 이러한 결과를 바탕으로 향후 수학과 교육과정의 발전을 위한 시사점들을 도출하였다.

잠재 디리클레 할당(LDA) 기반의 토픽모델링 분석을 통한 '초등과학교육' 학술지 연구논문의 주제 및 변화 (An Examination of the Topics and Changes in the Research Papers Published in the Journal of Korean Elementary Science Education Using Latent Dirichlet Allocation for the Topic Modeling Analysis)

  • 장진아;나지연
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권2호
    • /
    • pp.356-372
    • /
    • 2022
  • 본 연구에서는 한국초등과학교육학회의 지난 50년을 돌아보기 위하여, '초등과학교육'에 게재된 연구논문들이 어떤 주제로 어떻게 변화했는지 살펴보았다. 이를 위해 창간호(1983)년부터 2021년까지 '초등과학교육' 학술지에 게재된 연구논문의 총 1,065개 영문초록들에 대하여 LDA 기반 토픽모델링 분석을 실시하였다. LDA 분석 결과 총 14개의 토픽들이 추출되었으며, 핵심어 및 핵심 문서를 통해 각 토픽들에 담긴 의미를 분석하였다. 또한 시기별로 각 토픽들의 추이를 파악하기 위해, 3년을 주기로 하여 토픽들의 평균 비중값 변화를 분석하고 선형회귀 분석을 통해 통계적으로 유의미하게 증가 또는 감소한 토픽들을 분석하였다. 끝으로 본 연구의 결과를 통해, 향후 초등과학교육 연구 수행 및 지원을 위한 시사점을 논의하였다.

LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구 (A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation)

  • 신승기
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.439-448
    • /
    • 2022
  • 본 연구에서는 공공데이터포털에서 제공하는 교육관련 데이터를 검색하고 토픽모델링 기법을 활용한 분류를 통해 어떠한 데이터의 종류가 구축되어 있으며 활용이 가능한지를 살펴보고자 하였다. 공공데이터포털의 데이터에 대하여 분류체계를 기준으로 교육분야의 파일데이터는 3,072건이 수집되었으며, 검색어를 활용하여 '교육'을 검색하여 나타난 파일데이터 2,361건으로 나타났다. 각각의 데이터셋에 대하여 불용어처리를 실시하고 데이터 전처리를 수행하여 LDA기반 토픽모델링을 활용하여 텍스트마이닝 분석을 실시하였다. 사전에 교육으로 분류된 데이터셋에서는 현재 재학중인 학교급별 학생을 대상으로 지원하는 프로그램과 정보에 대한 내용이 제공되고 있었다. 한편, 교육으로 검색하여 수집된 데이터셋에서는 장애인, 학부모, 노인, 아동 등 평생교육의 관점으로 제공되는 교육 프로그램 및 지원현황이라는 특징이 나타났다. 데이터과학기반의 의사결정 및 문제해결력을 기르기 위해 공공데이터포털이 제공하는 데이터에서 교육과정 및 내용이 충분히 제공되는 것도 좋은 기회가 될 것이다.

LDA 토픽모델링을 활용한 국내 치유시설과 치유프로그램 연구 동향 (Research Trends in Korean Healing Facilities and Healing Programs Using LDA Topic Modeling)

  • 이주홍;이경진;성정한
    • 한국조경학회지
    • /
    • 제51권3호
    • /
    • pp.95-106
    • /
    • 2023
  • 국내 치유 연구는 치유에 대한 사회적 관심 증가와 함께 최근 20년 동안 발전해왔다. 치유를 연구하는 분야는 다양하며, 법제화된 자연-기반(natural-based) 치유를 포함한다. 본 연구에서는 KCI와 RISS에 게재된 2,202편의 학술지, 석·박사학위논문 초록을 수집하여 분석하였다. 연구방법은 LDA 토픽모델링을 활용하여 연구의 주제를 분류하였고, 시계열적 논문 발행 추이를 살펴보았다. 연구 결과, 국내 치유 연구의 주제가 5개의 유형과 4개의 매개어로 연결되었음을 규명하였다. 5개의 연구 유형은 "치유관광", "마음·예술치유", "산림치유", "치유공간", "청소년회복치유"였고, 4개의 매개 단어는 "산림", "자연", "문화", "교육"이었다. 또한 국내 치유 연구에서 법제화된 치유 연구만 추출하여 토픽을 분석하였다. 그 결과, 법제화된 치유 연구의 주제 유형이 4개로 분류되었다. 4개의 연구 유형은 "공간환경계획치유", "치유요법실험", "농업교육체험치유", "치유관광요인"이었다. 법제화된 치유에서 연구의 양이 가장 많은 산림치유, 식물을 매개로 유사한 프로그램을 운영하는 치유농업과 정원치유, 해양자원을 활용하는 해양치유의 연구 토픽 또한 분석하였다. 그 결과, 개별 치유 연구만의 독특한 특성을 보여주는 토픽과 모든 치유 연구에서 범용되는 것으로 생각되는 토픽을 도출하였다. 본 연구는 텍스트마이닝의 LDA 토픽모델링을 활용하여 국내 치유시설과 치유프로그램 연구의 전반적 경향을 파악하였다는 데 의의가 있다.