DOI QR코드

DOI QR Code

Topic change monitoring study based on Blue House national petition using a control chart

관리도를 활용한 국민청원 토픽 모니터링 연구

  • Lee, Heeyeon (Department of Biostatistics of the Catholic Research Coordinating Center, Catholic University) ;
  • Choi, Jieun (Department of Statistics, Dankook University) ;
  • Lee, Sungim (Department of Statistics, Dankook University) ;
  • Son, Won (Department of Statistics, Dankook University)
  • 이희연 (가톨릭중앙의료원 임상연구지원팀 통계지원실) ;
  • 최지은 (단국대학교 정보통계학과) ;
  • 이성임 (단국대학교 정보통계학과) ;
  • 손원 (단국대학교 정보통계학과)
  • Received : 2021.04.30
  • Accepted : 2021.07.16
  • Published : 2021.10.31

Abstract

Recently, as text data through online channels have become vast, there is a growing interest in research that summarizes and analyzes them. One of the fundamental analyses of text data is to extract potential topics. Although the researcher may read all the data and summarize the contents one by one, it is not easy to deal with large amounts of data. Blei and Lafferty (2007) and Blei et al. (2003) proposed topic modeling methods for extracting topics using a statistical model. Since the text data is generally collected over time, it is worthwhile to monitor the topic's changes. In this study, we propose a topic index based on the results of the topic model. In addition, a control chart, a representative tool for statistical process management, is applied to monitor the topic index over time. As a practical example, we use text data collected from Blue House National Petition boards between March 5, 2018, and March 5, 2020.

최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2019R1A2C1003257).

References

  1. Arun R, Suresh V, Madhavan CEV, and Murthy MN (2010). On finding the natural number of topics with latent dirichlet allocation: Some observation, Pacific-Asia conference on Knowledge Discovery and Data Mining, Par I, LNAI (6118), 391-402.
  2. Bang H and Moon H (2019). A study on the methodology to express the main topics of text in time series using text mining, Journal of the Korean data and information science socieity, 30, 1259-1276. https://doi.org/10.7465/jkdi.2019.30.6.1259
  3. Blei DM, Jordan MI (2003). Modeling annotated data. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 127-134.
  4. Blei DM and Lafferty JD (2007). A correlated topic model of science, The Annals of Applied Statistics, 1, 17-45. https://doi.org/10.1214/07-AOAS114
  5. Blei DM, Ng AY, and Jordan MI (2003). Latent Dirichlet allocation, Journal of Machine Learning Research, 3, 993-1022.
  6. Cao J, Xia T, Li J, and Zhang Y, and Tang S (2009). A density-based method for adaptive LDA model selection, Neurocomputing, 72, 1775-1781. https://doi.org/10.1016/j.neucom.2008.06.011
  7. Deveaud R, SanJuan E, and Bellot P (2014). Accurate and effective latent concept modeling for ad hoc information retrieval, Document Numerique, 17, 61-84. https://doi.org/10.3166/dn.17.1.61-84
  8. Griffiths TL and Steyvers M (2004). Finding scientific topics. In Proceedings of the National Academy of Sciences of the United States of America, 101, 5228-5235. https://doi.org/10.1073/pnas.0307752101
  9. Knoth S (2007). Accurate ARL calculation for EWMA control charts monitoring simultaneously normal mean and variance, Sequential Analysis, 26, 151-264. https://doi.org/10.1080/07474940701404823
  10. Lucas JM and Saccucci MS (1990). Exponentially weighted moving average control schemes: properties and enhancement, Technometrics, 32, 1-12. https://doi.org/10.1080/00401706.1990.10484583
  11. Montgomery DG (2000). Introduction to Statistical Quality Control, John Wiley & Sons, New York.
  12. Roberts SW (1959). Control chart tests based on geometric moving averages, Technometrics, 41, 97-101.