텍스트 마이닝 기법을 활용한 동남권 신공항 신문기사 분석

Analysis of News Regarding New Southeastern Airport Using Text Mining Techniques

  • 투고 : 2017.03.21
  • 심사 : 2017.03.31
  • 발행 : 2017.03.31

초록

사회적 이슈는 정책의 방향을 결정하는 중요한 요인이며, 신문은 사회적 이슈를 반영하는 중요한 채널이다. 신문기사의 텍스트를 분석하는 것은 사회적 이슈를 이해하는 데 기여할 수 있지만, 대규모의 비정형 데이터인 뉴스를 수작업으로 분석하는 것은 매우 어렵다. 따라서 본 연구는 텍스트 분석기법과 연관분석 기법을 활용해 비정형 신문기사 내용을 정형화하여 사회적 이슈의 이해관계자들 간 관점 차이를 시스템적으로 분석하는 것을 목적으로 한다. 본 연구 수행을 위해 각 지역을 대표하는 신문사(조선일보, 중앙일보, 동아일보, 매일신문, 부산일보)를 선정한 후 기사 115건과 댓글 6,772건을 2주간 수집하여 분석하였다. 연구 결과 전국 일간지들은 해당 지역과 정치적인 관계에 초점을 맞춘 반면에, 지역 일간지들은 속해 있는 지자체를 대변하는 논조로 기사가 작성된 측면이 강하게 나타났다.

Social issues are important factors that decide government policy and newspapers are critical channels that reflect them. Analysing news articles can contribute to understanding social issues, but it is very difficult to analyse the unstructured large volumes of news data manually. Therefore, this study aims to analyze the different views among stakeholders of a specific social issue by using text analysis, word cloud analysis and associative analysis methods, which systematically transform unstructured news data into structured one. We analyzed a total of 115 news articles and a total of 6,772 comments, collected from the selected newspapers (Chosun-Il-bo, Joongang-Il-bo, Donga-Il-bo, Maeil Newspaper, Busan-Il-bo) for two weeks. We found that there are significant differences in tone between newspapers. While nation-wide daily newspapers focus on political relations with local areas, local daily newspapers tend to write articles to represent local governments' interests.

키워드

참고문헌

  1. I.H. Witten, "Text Mining, Practical Handbook of Internet Computing, " CRC Press. 2004.
  2. M.A. Hearst, "Untangling Text Data Mining", Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999.
  3. R.J. Mooney and R. Bunescu, "Mining Knowledge from Text using Information Extraction," ACM SIGKDD Exploration Newletter, vol. 7, no. 1, pp. 3-10, Jun. 2005.
  4. F. Sebastiani, "Machine Learning in Automated Text Categorization," ACM Computing Surveys, vol. 34, no. 1, pp. 1-47, 2002. https://doi.org/10.1145/505282.505283
  5. F. Sebastiani, "Classification of Text, Automatic," The Encyclopedia of Language and Linguistics, vol. 14, pp. 457-462, 2006.
  6. P. Judita, M. Stevenson, and R. Gaizauskas, "Exploring relation types for literature-based discovery," Journal of the American Medical Informatics Association, ocv002, pp. 987-992, May. 2015.
  7. F. Ronen and I. Dagan, "Knowledge Discovery in Textual Databases (KDT)," Proceedings of the First International Conference on Knowledge Discovery and Data Mining, vol. 95, pp. 112-117, 1995.
  8. S. Gerard, A. Wong, and C.S. Yang, "A Vector Space Model for Automatic Indexing, " Communications of the ACM, vol. 18, no. 11, pp. 613-620, Nov. 1975. https://doi.org/10.1145/361219.361220
  9. S. Anna, P. Andritsos, and N. Nicoloyannis, "Overview and Semantic Issues of Text Mining," ACM SigMod Record, vol. 36, No.3, pp. 23-34, Sep. 2007. https://doi.org/10.1145/1324185.1324190
  10. W. Fan, L. Wallace, S. Rich, & Z. Zhang, Tapping the power of text mining. Communications of the ACM, vol. 49, no. 9, pp. 76-82, 2006. https://doi.org/10.1145/1151030.1151032
  11. https://ko.wikipedia.org/wiki/TF-IDF 2016. 9. 19. 검색
  12. H. Jiawei, J. Pei, and M. Kamber, "Data mining: Concepts and Techniques," 3rd Edition, Morgan Kaufmann Publishers, 2011.
  13. J.H. Park and S. Min, "A Study on The Research Trends in Library & Information Science in Korea Using Topic Modeling," Journal of the Korean Society for information Management, vol. 30, no. 1, pp. 7-32, 2013. https://doi.org/10.3743/KOSIM.2013.30.1.007
  14. R. Paul and Kroeger, "Analyzing Grammar: An Introduction," Cambridge University Press, 2005.
  15. 서강수, "데이터 분석 전문가 가이드", 한국데이터베이스진흥원, 2014.
  16. 노형남, "워드 클라우드에 의한 환대 경영 전략," 관광연구, 제29권, 제4호, pp. 335-354, 2014.
  17. T. Hammond, T. Hannay, B. Lund, and J. Scott, Social bookmarking tools (I), A general review. D-Lib Magazine, vol. 11, no. 4, 2005.
  18. P. Abhinn, "Study and Analysis of K-Means Clustering Algorithm Using Rapidminer," International Journal of Engineering Research and Applications, vol. 1, no. 4, pp. 60-64, Dec. 2014.
  19. A. Kumar, P. Thakur, K. Gupta, and A. Pal, "Text mining approach to analyse the relation between obesity and breast cancer data, " International Letters of Natural Sciences, vol. 44, no. 1, pp. 1-9, 2015. https://doi.org/10.18052/www.scipress.com/ILNS.44.1
  20. 강대국, 박용태, "리뷰 기반의 모바일 서비스 고객 요구사항 특성 분석," 한국경영과학회 추계학술대회, 방위사업청 무기체계 시험평가 세미나 논문집, pp. 945-951, 2012.
  21. 정기선, "지역감정과 지역갈등인식의 변화 1988년과 2003년 비교," 한국사회학, 제39권, 제2호, pp. 69-99, 2005.