DOI QR코드

DOI QR Code

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리

Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis

  • 투고 : 2017.09.18
  • 심사 : 2017.10.12
  • 발행 : 2017.11.30

초록

데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

Data format of Big data is diverse and vast, and its generation speed is very fast, requiring new management and analysis methods, not traditional data processing methods. Textual mining techniques can be used to extract useful information from unstructured text written in human language in online documents on social networks. Identifying trends in the message of politics, economy, and culture left behind in social media is a factor in understanding what topics they are interested in. In this study, text mining was performed on online news related to a given keyword using topic - oriented analysis technique. We use Latent Dirichiet Allocation (LDA) to extract information from web documents and analyze which subjects are interested in a given keyword, and which topics are related to which core values are related.

키워드

참고문헌

  1. J. P. Woo, "Big Data Analysis will ahead," Maekyung Pub. pp.236-251, 2017.
  2. "The Guide for Advanced Data Analytics Professional," Korea Database Agency, 2014.
  3. T. M. Song and J. Y. Song, "Social Big Data Research Methodology with R," Hannarae Pub., ch. 1, pp.16-39, 2016.
  4. Tag Cloud [Internet], https://ko.wikipedia.org/wiki/
  5. K. T. Kim, J. G. Ahn, and D. H. Kim, "Big Data Weapering 1," AgePerson Pub., ch. 1, pp.4-12, 2017.
  6. Y. D. Yun, J. H. Jo, and H. S. Lim, "A Comparative Analysis of Cognitive Change about Big Data Using Social Media Data Analysis," in KIPS Tr. Software and Data Eng., Vol.6, No.7, pp.371-378, 2017. https://doi.org/10.3745/KTSDE.2017.6.7.371
  7. Opinion Mining [Internet], https://www.facebook.com/kubigdata/posts/504333396427600
  8. B. I. Kang, M. Song, and W. S. Jho, "A Study on Opinion Mining of Newspaper Texts based on Topic Modeling," Journal of Korean Society for Library and Information Science, Vol.47, No.4, pp.315-334, 2013. https://doi.org/10.4275/KSLIS.2013.47.4.315
  9. David M. Blei, Andrew Y. Ng, and Michael I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, 3(Jan.), pp.993-1022, 2003.
  10. Taemin Cho and Jee-Hyong Lee, "Latent Keyphrase Extraction using LDA Model," Journal of Korean Institute of Intelligent Systems, Vol.25, No.2, pp.180-185, 2015. https://doi.org/10.5391/JKIIS.2015.25.2.180
  11. R. D. Lee, J. M. Kim, and J. S. Lee, "Analysis of twitter topic using LDA," Journal of Korean Institute of Intelligent Systems, Vol.25, No.2, pp.180-185, 2015. https://doi.org/10.5391/JKIIS.2015.25.2.180
  12. B. M. Jeong, T. H. Kim, J. Lee, and J. S. Kim, "Twitter Topic Extraction and Topic Category Decision using LDA Model," Proceedings of KISSE Winter Conference, pp.787-788, Dec., 2014.
  13. Yohan Jo, Dongwoo Kim, Il-Chul Moon, and Haeyun Oh [Internet], http://seslab.kaist.ac.kr/xe2/?module=file&act=procFileDownload&file_srl=5591, 2009.
  14. S. Y. Bong and K. B. Hwang, "Applying Labeled LDA to Author Keywirds Recommendation," Proceedings of KIISE Spring Conference, Vol.37, No.1(C), pp.385-389, 2010.