DOI QR코드

DOI QR Code

Fake SNS Account Identification Technique Using Statistical and Image Data

통계 및 이미지 데이터를 활용한 가짜 SNS 계정 식별 기술

  • 유승연 (조선대학교 컴퓨터공학과) ;
  • 신영서 (조선대학교 컴퓨터공학과) ;
  • 방채운 (조선대학교 컴퓨터공학과) ;
  • 전찬준 (조선대학교 컴퓨터공학과)
  • Received : 2021.08.24
  • Accepted : 2022.03.10
  • Published : 2022.02.28

Abstract

As Internet technology develops, SNS users are increasing. As SNS becomes popular, SNS-type crimes using the influence and anonymity of social networks are increasing day by day. In this paper, we propose a fake account classification method that applies machine learning and deep learning to statistical and image data for fake accounts classification. SNS account data used for training was collected by itself, and the collected data is based on statistical data and image data. In the case of statistical data, machine learning and multi-layer perceptron were employed to train. Furthermore in the case of image data, a convolutional neural network (CNN) was utilized. Accordingly, it was confirmed that the overall performance of account classification was significantly meaningful.

인터넷 기술이 발전함에 따라 SNS 사용자가 늘어나고 있다. SNS의 대중화가 진행되면서 소셜 네트워크의 영향력과 익명성을 활용한 SNS형 범죄가 나날이 증가하고 있는 추세이다. 본 논문에서는 인스타그램에서 SNS형 범죄에 주로 이용되는 가짜 계정 분류를 위해 통계 데이터와 이미지 데이터를 이용하여 각각 기계학습 및 딥러닝(deep learning) 기법을 활용한 가짜 계정 분류 방법을 제안한다. 모델 학습에 사용된 SNS 계정 데이터는 자체적으로 수집하였으며, 수집된 데이터는 통계 데이터 및 이미지 데이터에 기반한다. 통계 데이터의 경우에는 기계학습 및 다층 퍼셉트론 기반으로 학습을 진행하였고, 이미지 데이터의 경우에는 합성곱 신경망(Convolutional Neural Network, CNN) 기반으로 학습을 진행하였다. 학습을 진행한 결과 계정 분류에 대하여 정확도가 전반적으로 높게 나온 것을 확인하였다.

Keywords

Acknowledgement

본 연구는 2021년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (NRF-2019R1C1C1011597).

References

  1. 국제전기통신연합(ITU), ICT Facts and Figures-The World in 2015, https://www.itu.int/en/ITU-D/Statistics/Documents/facts/ICTFactsFigures2015.pdf
  2. 안지은, 우도현, 성현아, 배성만, "SNS 이용동기와 자기조절이 대학생의 SNS 중독경향성에 미치는 영향," 사회과학연구, 제31권, 제1호, 227-243쪽, 2020년
  3. 전형준, 서봉군, 박도형, "기업의 SNS 마케팅 활동이 이용자 행동에 미치는 영향: 페이스북 팬페이지 애널리틱스를 중심으로," 지능정보연구, 제26권, 제1호, 75-95쪽, 2020년 https://doi.org/10.13088/jiis.2020.26.1.075
  4. M. Mohammadrezaei, M. E. Shiri, and A. M. Rahmani1, "Identifying fake accounts on social networks based on graph analysis and classification algorithms," Security and Communication Networks, Vol.2018, Aug. 2018.
  5. F. C. Akyon and M. E. Kalfaoglu, "Instagram fake and automated account detection," in Proc. of 2019 Innovations in Intelligent Systems and Applications Conference (ASYU), Izmir, Turkey, pp. 1-7, Nov. 2019.
  6. 박정은, 박민수, 김승주, "페이스북 사용자 계정의 신뢰도 평가에 대한 연구," 정보보호학회논문지, 제23권, 제6호, pp. 1087-1101, 2013년 12월 https://doi.org/10.13089/JKIISC.2013.23.6.1087
  7. 김효신, 서준배, "로맨스 스캠(Romance Scam) 범죄 현황 및 대응방안에 대한 고찰," 경찰학논총, 제14권, 제3호, pp. 117-146, 2019년 https://doi.org/10.16961/POLIPS.2019.14.3.117
  8. 이윤희, 국내 SNS의 이용 현황과 주요 이슈 분석, Internet & Security Focus, 56-78쪽, Aug. 2014,
  9. 윤현식, 윤영호, 박현재, "머신러닝을 통한 SNS 상의 성매매 알선 홍보 글 탐지의 효율성 제고방안 연구," 한국지역정보화학회지, 제23권, 제3호, 43-65쪽, 2020년 9월 https://doi.org/10.22896/KARIS.2020.23.3.003
  10. P. Sowmya and M. Chatterjee, "Detection of Fake and Clone accounts in Twitter using Classification and Distance Measure Algorithms," 2020 International Conference on Communication and Signal Processing (ICCSP), pp. 0067-0070, Sep. 2020.
  11. I. -A. Bara, C. J. Fung and T. Dinh, "Enhancing Twitter spam accounts discovery using cross-account pattern mining," 2015 IFIP/IEEE International Symposium on Integrated Network Management (IM), pp. 491-496, Jul. 2015.
  12. F. N. Pakaya, M. O. Ibrohim and I. Budi, "Malicious account detection on Twitter based on Tweet account features using machine learning," in Proc. 2019 Fourth International Conference on Informatics and Computing (ICIC), Semarang, Indonesia, Oct. 2019.
  13. M. Mohammadrezaei, M. E. Shiri and A. M. Rahmani, "Identifying fake accounts on social networks based on graph analysis and classification algorithms," Security and Communication Networks, Vol. 2018, Aug. 2018.
  14. P. G. Efthimion, S. Payne, and N. Proferes, "Supervised machine learning bot detection techniques to identify social Twitter bots," SMU Data Science Review, Vol. 1, No. 2, Jul. 2018.
  15. 강명진, "머신러닝을 활용한 SNS 가짜 팔로워 판별 방안 연구", 전남대학교 석사학위 논문, 2020년
  16. 이한승, 조재웅, 강호선, 황정근, "교차검증과 SVM을 이용한 도시침수 위험기준 추정 알고리즘 적용성 검토," 한국수자원학회논문집, 제52권, 제12호, 963-973쪽, 2019년 https://doi.org/10.3741/JKWRA.2019.52.12.963
  17. L. Breiman, "Random Forests," Machine Learning, vol. 45, no. 1, pp. 5-32. Oct. 2001. https://doi.org/10.1023/A:1010933404324
  18. J. H. Friedman, "Greedy function approximation: A gradient boosting machine," Annals of Statistics, vol. 29, no. 5, pp. 1189-1232, Oct. 2001. https://doi.org/10.1214/aos/1013203451
  19. D. R. Cox, "The regression analysis of binary sequences," Journal of the Royal Statistical Society, Series B (Methodological), vol. 20, no. 2, pp. 215-242, Jul. 1958. https://doi.org/10.1111/j.2517-6161.1958.tb00292.x
  20. T. Chen and C.. Guestrin, "XGBoost: A scalable tree boosting system," in Proc. the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 785-794, San Francisco, USA, Aug. 2016.
  21. Ke. G, Meng. Q, Finley. T, Wang. T, Chen. W, Ma. W, Ye. Q, and Liu. T.Y, "Lightgbm: A highly efficient gradient boosting decision tree," in Proc. the 31st International Conference on Neural Information Processing System, pp. 3149 -3157, Dec. 2017.
  22. R. Casey and G. Nagy, "Decision tree design using a probabilistic model," IEEE Transactions on Information Theory, vol. 30, no.1, pp. 93-99, Jan. 1984. https://doi.org/10.1109/TIT.1984.1056834
  23. H. Zheng. "Ensemble classification to detect diabetes mellitus using a hybrid feature selection method", 충북대학교 국내석사학위논문, 2019년.
  24. D. E. Rumelhart and J. L. McClelland, Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Foundations, MIT Press, 1987.
  25. V. Nair and G. E. Hinton, "Rectified linear units improve restricted Boltzmann machines," in Proc. the 27th International Conference on International Conference on Machine Learning (ICML), pp. 807-814, Toronto, Canada, Jun. 2010.
  26. D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," in Proc. the 3rd International Conference for Learning Representations (ICLR), San Diego, USA, May 2015.
  27. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proc. of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770-778, Las Vegas, USA, Jun. 2016.
  28. 전해명, 노재규, "다시점 영상 집합을 활용한 선체 블록 분류를 위한 CNN 모델 성능 비교 연구," 대한조선학회 논문집, 제57권, 제3호, pp. 140-151, 2020년 6월
  29. A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, "MobileNets: Efficient convolutional neural networks for mobile vision applications," arXiv:1704.04861v1, 2017.
  30. 소민혁, 한철수, 김학윤, "수정된 MobileNet을 이용한 과일의 결점 분류 알고리즘," 한국정보기술학회논문지, 제18권, 제7호, pp. 81-85, 2020년 7월
  31. X. Zhang, X. Zhou, M. Lin, and J. Sun "ShuffleNet: An extremely efficient convolutional neural network for mobile devices," in Proc. of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, Jun. 2018.
  32. 배지환, 최종현, "ShubiNet : 시각인식을 위한 이진화된 ShuffleNet 학습," 한국정보과학회 학술발표논문집, 1579-1581쪽, 2019년 12월
  33. J. Deng, W. Dong, R. Socher, L.-J. Li, Kai Li, and L. Fei-Fei, "ImageNet: A large-scale hierarchical image database," in Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Miami, USA, Jun. 2009.