DOI QR코드

DOI QR Code

인공지능 기반 개체명 인식 기술을 활용한 보안 위협 정보 식별 방안 연구

A Study on the Identification Method of Security Threat Information Using AI Based Named Entity Recognition Technology

  • 김태현 (한국인터넷진흥원) ;
  • 임준형 (한국인터넷진흥원) ;
  • 김태은 (한국인터넷진흥원) ;
  • 엄익채 (전남대학교)
  • Taehyeon Kim (Korea Internet & Security Agency) ;
  • Joon-Hyung Lim (Korea Internet & Security Agency) ;
  • Taeeun Kim (Korea Internet & Security Agency) ;
  • Ieck-chae Euom (Chonnam National University)
  • 투고 : 2024.03.08
  • 심사 : 2024.06.07
  • 발행 : 2024.08.31

초록

새로운 기술이 개발 됨에 따라, 랜섬웨어를 만들어 주는 AI 기술 등장과 같은 새로운 보안 위협도 증가되고 있다. 이러한 보안 위협에 대응하기 위해 XDR와 같은 신규 보안장비가 개발되었지만, 단일 보안장비 환경이 아닌 다양한 보안장비를 함께 사용하는 경우 필수 데이터 식별 및 분류를 위해 수많은 정규표현식을 만들어야 하는 어려움이 존재한다. 이를 해결하기 위해 본 논문에서는 다양한 보안장비 사용 환경에서 인공지능 기반 개체명 인식 기술을 도입하여 위협 정보 식별을 위한 필수 정보 식별 방안을 제안한다. 보안장비 로그 데이터를 분석하여 필수 정보를 선정한 뒤, 정보의 저장 포맷과 인공지능을 활용하기 위한 태그 리스트를 정의하였고, 인공지능을 이용한 개체명 인식 기술을 통해 필수 데이터 식별 및 추출 방안을 제안한다. 다양한 보안장비 로그 데이터와 23개의 태그 기반 개체명 인식 시험 결과 태그별 f1-score의 가중치 평균이 Bi-LSTM-CRF는 0.44, BERT-CRF는 0.99의 성능을 보인다. 향후 정규표현식 기반의 위협 정보 식별·추출 방안과 인공지능 기반의 위협 정보 식별·추출 방안을 통합하는 프로세스를 연구하고 신규 데이터 기반으로 프로세스를 적용해 볼 예정이다.

As new technologies are developed, new security threats such as the emergence of AI technologies that create ransomware are also increasing. New security equipment such as XDR has been developed to cope with these security threats, but when using various security equipment together rather than a single security equipment environment, there is a difficulty in creating numerous regular expressions for identifying and classifying essential data. To solve this problem, this paper proposes a method of identifying essential information for identifying threat information by introducing artificial intelligence-based entity name recognition technology in various security equipment usage environments. After analyzing the security equipment log data to select essential information, the storage format of information and the tag list for utilizing artificial intelligence were defined, and the method of identifying and extracting essential data is proposed through entity name recognition technology using artificial intelligence. As a result of various security equipment log data and 23 tag-based entity name recognition tests, the weight average of f1-score for each tag is 0.44 for Bi-LSTM-CRF and 0.99 for BERT-CRF. In the future, we plan to study the process of integrating the regular expression-based threat information identification and extraction method and artificial intelligence-based threat information and apply the process based on new data.

키워드

과제정보

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2021-0-00356, AI·빅데이터 기반 사이버 보안 오케스트레이션 및 자동 대응 기술 개발)

참고문헌

  1. Cisco, "Asia Pacific CISO Benchmark Study," Feb. 2019.
  2. H. K. Kim and K. H. Rhee, "An Analysis of System Log using Regular Expressions," Korea Information Processing Society, 27(1), pp. 154-156,May 2020.
  3. S. Barnum, R. Martin, B. Worrell and I.Kirilov, "The CybOX language specification," The MITRE Corporation, Apr. 2012.
  4. Intruduction to STIX, "STIX" https://oasis-open.github.io/cti-documentation/stix/intro.html, Feb. 2024.
  5. Telecommunications Technology Association, "TTAK.KO-12.0242 Session Information Message Exchange Format," Information and Communication Organization Standard (Korean Standard), Jul. 2014.
  6. Telecommunications Technology Association, "TTAK.KO-12.0279 Security Information Message Exchange Protocol," Korea Communications Standards, Dec. 2015.
  7. Telecommunications Technology Association, "TTAK.KO-12.0256 System Information Message Exchange Format for Security Control," Information and Communication Organization Standard (Korean Standard), Dec. 2014.
  8. Telecommunications Technology Association, "TTAK.KO-12.0229 Extended Intrusion Detection Message Exchange Format," Korea Communications Commission, Dec. 2013.
  9. Y. Liu and D. Zhang, "UniParser: A Unified Log Parser for Heterogeneous Log Data," Proceedings of the ACM WEB Conference 2022, pp. 1893-1901, Apr. 2022.
  10. H. D. Kim and H. S. Lim, "A Named Entity Recognition Model in Criminal Investigation Domain using Pre-trained Language Model," Korea Convergence Society, 13(2), pp. 13-20, Feb. 2022.
  11. J. H. Hyun and H. J. Kim, "Security Operation Implementation through Big Data Analysis by Using Open Source ELK Stack," Journal of Digital Contents Society, 19(1), pp. 181-191,Jan. 2018.
  12. K. S. Ko and I. J. Jo, "Application of Integrated Security Control of Artificial Intelligence Technology and Improvement of Cyber-Threat Response Process," The Journal of the Korea Contents Association, 21(10), pp.59-66, Oct. 2021.
  13. J. H. Kim and J. Y. Kim, "Comparative analysis of performance of BI-LSTM and GRU algorithm for predicting the number of Covid-19confirmed cases," Journal of the Korea Institute of Information and Communication Engineering, 26(2), pp.187-192, Feb. 2022.
  14. S. J. Ko, H. Y. Yun, and D. M. Shin, "Electronic Demand Data Prediction using Bidirectional Long Short Term Memory Networks," Journal of Korea Software Appraisal Association, 14(1),pp. 33-40, Jan. 2018.
  15. S. H. Na and J. W. Min, "Character-Based LSTM CRFs for Named Entity Recognition," Proceedings of KIISE Conference, pp. 792-731, Jun. 2016.
  16. Z. Huang, W. Xu, and K. Yu. "Bidirectional LSTM-CRF models for sequence tagging." arXivpreprint arXiv:1508.01991, Aug. 2015.