DOI QR코드

DOI QR Code

머신 러닝 접근 방식을 통한 가짜 채용 탐지

Detecting Fake Job Recruitment with a Machine Learning Approach

  • 투고 : 2023.02.28
  • 심사 : 2023.03.17
  • 발행 : 2023.03.31

초록

지원자 추적 시스템의 등장으로 온라인 채용이 활성화되면서 채용 사기가 심각한 문제로 대두되고 있다. 이 연구는 온라인 채용 환경에서 채용 사기를 탐지할 수 있는 신뢰할 수 있는 모델을 개발하여 비용 손실을 줄이고 개인 사생활 보호를 강화하고자 한다. 이 연구의 주요 기여는 데이터를 탐색적으로 분석하여 얻은 통찰력을 활용하여 어떤 채용 정보가 사기인지, 아니면 합법적인지를 구분할 수 있는 자동화된 방법론을 제공하는데 있다. 캐글에서 제공하는 채용 사기 데이터 집합인 EMSCAD를 사용하여 다양한 단일 분류기 및 앙상블 분류기 기반 머신러닝 모델을 훈련하고 평가하였으며, 그 결과로 앙상블 분류기인 랜덤 포레스트 분류기가 정확도 98.67%, F1 점수 0.81로 가장 좋은 결과를 보이는 것을 알 수 있었다.

With the advent of applicant tracking systems, online recruitment has become more popular, and recruitment fraud has become a serious problem. This research aims to develop a reliable model to detect recruitment fraud in online recruitment environments to reduce cost losses and enhance privacy. The main contribution of this paper is to provide an automated methodology that leverages insights gained from exploratory analysis of data to distinguish which job postings are fraudulent and which are legitimate. Using EMSCAD, a recruitment fraud dataset provided by Kaggle, we trained and evaluated various single-classifier and ensemble-classifier-based machine learning models, and found that the ensemble classifier, the random forest classifier, performed best with an accuracy of 98.67% and an F1 score of 0.81.

키워드

과제정보

이 논문은 2022학년도 대전대학교 교내학술연구비 지원에 의해 연구되었음.

참고문헌

  1. S. Laumer, C. Maier, and A. Eckhardt, "The impact of business process management and applicant tracking systems on recruiting process performance: an empirical study," Journal of Business Economics, vol. 85, no. 4, pp. 421-453, 2015. https://doi.org/10.1007/s11573-014-0758-9
  2. What is Online Recruitment and What are Its Advantages? - Fountain Blog(2022). https://www.fountain.com/posts/what-is-online-recruitment-and-what-are-its-advantages (accessed Feb., 21, 2023)
  3. Applicant Tracking Systems: The Ultimate Guide for Job Seekers in 2022(2022). https://www.jobscan.co/applicant-tracking-systems (accessed Feb., 21, 2023).
  4. B. Alghamdi and A. Fahad, "An Intelligent Model for Online Recruitment Fraud Detection," Journal of Information Security, vol. 10, no. 3, pp. 155-176, 2019. https://doi.org/10.4236/jis.2019.103009
  5. S. Vidros, C. Kolias, G. Kambourakis, and L. Akoglu, "Automatic Detection of Online Recruitment Frauds: Characteristics, Methods, and a Public Dataset," Future Internet, vol. 9, no. 1:6, 2017.
  6. H. Sharma and S. Kumar, "A Survey on Decision Tree Algorithms of Classification in Data Mining," International Journal of Science and Research (IJSR), vol. 5, no. 4, pp. 2094-2097, 2016. https://doi.org/10.21275/v5i4.NOV162954
  7. J. Perez, E. Iturbide, V. Olivares, M. Hidalgo, A. Martinez, and N. Almanza, "A Data Preparation Methodology in Data Mining Applied to Mortality Population Databases," Journal of medical systems, vol. 39, no. 11:152, 2015.
  8. 김정인, 박상진, 김형주, 최준호, 김한일, 김판구, "나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법," 스마트미디어저널, 제9권, 제14호, 51-59쪽, 2020년 03월
  9. I. Rish, "An empirical study of the naive Bayes classifier," In IJCAI 2001 workshop on empirical methods in artificial intelligence, vol. 3, no. 22, pp. 41-46, 2001.
  10. M.W Gardner and S.R Dorling, "Artificial neural networks (the multilayer perceptron)-a review of applications in the atmospheric sciences," Atmospheric Environment, vol. 32, no. 14-15, pp. 2627-2636, 1998. https://doi.org/10.1016/S1352-2310(97)00447-0
  11. J. Keller, M. R. Gray, and J. A. Givens, "A fuzzy K-nearest neighbor algorithm," IEEE Transactions on Systems, Man, and Cybernetics, vol. SMC-15, no. 4, pp. 580-585, 1985. https://doi.org/10.1109/TSMC.1985.6313426
  12. S. B. Imandoust and M. Bolandraftar, "Application of K-Nearest Neighbor (KNN) Approach for Predicting Economic Events: Theoretical Background," International Journal of Engineering Research and Applications, vol. 3, no. 5, pp. 605-610, 2013.
  13. X. Dong, Z. Yu, W. Cao, Y. Shi, and Q. Ma, "A survey on ensemble learning," Frontiers of Computer Science, vol. 14, no. 2, pp. 241-258, 2020. https://doi.org/10.1007/s11704-019-8208-z
  14. N. Altman and M. Krzywinski, "Ensemble methods: bagging and random forests," Nature Methods, vol. 14, no. 10, pp. 933-935, 2017. https://doi.org/10.1038/nmeth.4438
  15. O. Sagi and L. Rokach, "Ensemble learning: A survey," Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 8, no. 4:e1249, 2018.
  16. 노성진, 노미진, 한무명초, 엄선현, 김양석, "머신러닝을 활용한 선발 투수 교체시기에 관한 연구," 스마트미디어저널, 제11권, 제2호, 9-17쪽, 2022년 3월
  17. Recruitment Scam | Kaggle(2020). https://www.kaggle.com/datasets/amruthjithrajvr/recruitment-scam (accessed Feb., 21, 2023).
  18. The world's leading recruiting software and hiring platform | Workable(2023). https://www.workable.com (accessed Feb., 21, 2023).
  19. 김정민, 국중진, "유튜브 악성 댓글 탐지를 위한 LSTM 기반 기계학습 시스템 설계 및 구현," 스마트미디어저널, 제11권, 제2호, 18-24쪽, 2022년 3월 https://doi.org/10.37727/jkdas.2022.24.4.1583
  20. D. Storcheus, A. Rostamizadeh, and S. Kumar, "A Survey of Modern Questions and Challenges in Feature Extraction," Feature Extraction: Modern Questions and Challenges, pp. 44(1-18), PMLR, Dec. 2015.