DOI QR코드

DOI QR Code

Development of a Fake News Detection Model Using Text Mining and Deep Learning Algorithms

텍스트 마이닝과 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 개발

  • Dong-Hoon Lim (Data World) ;
  • Gunwoo Kim (Department of Business Administration, Hanbat National University) ;
  • Keunho Choi (Department of Business Administration, Hanbat National University)
  • Received : 2021.08.03
  • Accepted : 2021.10.16
  • Published : 2021.11.30

Abstract

Fake news isexpanded and reproduced rapidly regardless of their authenticity by the characteristics of modern society, called the information age. Assuming that 1% of all news are fake news, the amount of economic costs is reported to about 30 trillion Korean won. This shows that the fake news isvery important social and economic issue. Therefore, this study aims to develop an automated detection model to quickly and accurately verify the authenticity of the news. To this end, this study crawled the news data whose authenticity is verified, and developed fake news prediction models using word embedding (Word2Vec, Fasttext) and deep learning algorithms (LSTM, BiLSTM). Experimental results show that the prediction model using BiLSTM with Word2Vec achieved the best accuracy of 84%.

가짜 뉴스는 정보화 시대라는 현대사회의 특성에 의해 진위 여부의 검증과는 상관없이 빠른 속도로 확대, 재생산되어 퍼진다. 전체 뉴스의 1%를 가짜라고 가정했을 경우 우리사회에 미치는 경제적 비용이 30조 원에 달한다고 하니 가짜 뉴스는 사회적, 경제적으로 매우 중요한 문제라고 할 수 있다. 이에 본 연구는 뉴스의 진위 여부를 신속하고 정확하게 확인하고자 자동화된 가짜 뉴스 탐지 모델을 개발하는데 목적을 두고 있다. 이를 위해 본 연구에서는 크롤링(crawling)을 통해 진위 여부가 밝혀진 뉴스 기사를 수집하였고, 워드 임베딩(Word2Vec, Fasttext)과 딥러닝 기법(LSTM, BiLSTM)을 이용하여 가짜 뉴스 예측 모델을 개발하였다. 실험 결과, Word2Vec과 BiLSTM의 조합이 가장 높은 84%의 정확도를 보였다.

Keywords

References

  1. 길호현, "텍스트마이닝을 위한 한국어 불용어 목록 연구", 우리말글, 제78집, 2018, pp. 1-25. https://doi.org/10.18628/URIMAL.78..201809.1
  2. 김유향, "미 대선 시기 가짜뉴스(Fake News) 관련 논란과 의미", 국회입법조사처 이슈와 논점, 제1242호, 2016.
  3. 뉴스퀘어, "가짜 뉴스가 판 치는 세상", 2017.
  4. 버즈피드 뉴스, Available at https://www.buzzfeednews.com/article/craigsilverman/viral-fake-election-news-outperformed-real-news-on-facebook.
  5. 성욱제, 정은진, "코로나19와 허위정보: 유형 분석과 대응방안", 연구보고서, 정보통신정책연구원, 2020.
  6. 양정애, "일반 시민들이 생각하는 '뉴스'와 '가짜뉴스'", 한국언론진흥재단 Media Issue, 제5권, 제1호, 2019.
  7. 유은조, 이지현, 박소영, "LSTM 모델을 통한 국문 기사 감성 분류 시스템", 한국정보과학회 학술발표논문집, 2018, pp. 1949-1951.
  8. 윤영석, 엄태원, 안재영, 이현우, 허재두, "페이크 뉴스 탐지 기술 동향과 시사점", 연구보고서, 정보통신기술진흥센터, 2017.
  9. 윤태욱, 토픽모델링과 SVM을 이용한 한국어 가짜뉴스 탐지 시스템(석사학위논문), 국민대학교 비즈니스IT전문대학원, 2018.
  10. 이기창, 한국어 임베딩, 에이콘출판, 2019.
  11. 조현수, 이상구, "FastText를 적용한 한국어 단어 임베딩", 한국소프트웨어종합학술대회 논문집, 제12호, 2017, pp. 705-707.
  12. 좌희정, 오동석, 임희석, "자동화기반의 가짜 뉴스 탐지를 위한 연구 분석", 한국융합학회논문지, 제10권, 제7호, 2019, pp. 15-21. https://doi.org/10.15207/JKCS.2019.10.7.015
  13. 주원, 정민, 백다미, "가짜 뉴스(Fake News)의 경제적 비용 추정과 시사점", 연구보고서, 현대경제연구원, 2017.
  14. 진민정, "프랑스 대선보도와 가짜뉴스-언론.SNS.정치권.교육계 모두 '가짜 뉴스와 전쟁'", 한국언론진흥재단 신문과방송, 557호, 2017.
  15. 채상희, 한국어 감성분석을 위한 텍스트 임베딩 방법론 연구(석사학위논문), 서울시립대학교 일반대학원, 2019.
  16. 현윤진, 김남규, "뉴스와 소셜 데이터를 활용한 텍스트 분석 기반 가짜 뉴스 탐지 방안", 한국전자거래학회지, 제23권, 제4호, 2018, pp. 19-39. https://doi.org/10.7838/JSEBS.2018.23.4.019
  17. 황용석, "가짜뉴스 개념 정의의 문제-형식과 내용 의도적으로 속일 때 '가짜뉴스'", 한국언론진흥재단 신문과 방송, 2017.
  18. Allcott, H. and M. Gentzkow, "Social media and fake news in the 2016 election", Journal of Economic Perspectives, Vol.31, No.2, 2017, pp. 211-36. https://doi.org/10.1257/jep.31.2.211
  19. Hochreiter, S. and J. Schmidhuber, "Long short-term memory", Journal of Neural Computation, Vol.9, No.8, 1997, pp. 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
  20. Nikam, S. S. and R. Dalvi, "Machine learning algorithm based model for classification of fake news on Twitter", Fourth International Conference on I-SMAC, 2020.
  21. Olah, C., "Understanding LSTM Networks", 2015, Available at http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
  22. Schuster, M. and K. K. Paliwal, "Bidirectional recurrent neural networks", IEEE Transactions on Signal Processing, Vol.45, 1997, pp. 2673-2681. https://doi.org/10.1109/78.650093
  23. Williams, R. J., G. E. Hinton, and D. E. Rumelhart, "Learning representations by back-propagating errors", Nature, Vol.323 , No.6088, 1986, pp. 533-536. https://doi.org/10.1038/323533a0
  24. Yildirim, O., "A novel wavelet sequences based on deep bidirectional LSTM network model for ECG signal classification", Computer in Biology and Medicine, Vol.96, No.1, 2018, pp. 189-202. https://doi.org/10.1016/j.compbiomed.2018.03.016
  25. Yuan, P. Y., A. M. Du, and C. Wang, "Using Word2vec to match knowledge points and test questions: A case study", IEEE 2nd International Conference on Computer Science and Educational Informatization (CSEI), 2020, pp. 272-276.