A method based on embedding to detect core regions in unstructured document

임베딩 기반의 비정형 문서 핵심 영역 식별

  • Min Ji Park (T3Q(주)) ;
  • Yeong Jun Hwang (T3Q(주)) ;
  • Byung Hoon Park (T3Q(주)) ;
  • Sooyeon Shin (Center for Creative Convergence Education, Hanyang University(Seoul)) ;
  • Chi hoon Lee (T3Q(주))
  • 박민지 (티쓰리큐(주)) ;
  • 황영준 (티쓰리큐(주)) ;
  • 박병훈 (티쓰리큐(주)) ;
  • 신수연 (한양대학교(서울)) ;
  • 이치훈 (티쓰리큐(주))
  • Published : 2024.05.23

Abstract

기업의 운영에 있어서 기업의 핵심 정보가 유출되지 않도록 관리하는 것은 매우 중요하다. 따라서, 사내에서 유통되는 문서들에 대해 핵심적인 정보가 사외로 유출되지 않도록 관리하고 추적하는 것은 필수적이다. 특히, 데이터가 구조화되지 않고, 다양한 형식으로 구성되어있는 비정형 문서 내에서 핵심 정보를 식별하는 것은 기술적으로 어려움이 존재한다. 본 논문에서는 YOLOv8을 사용하여 비정형 문서 내에서 영역을 식별하고, 자연어 처리 모델인 Word2Vec을 사용하여 비정형 문서 내에서 핵심 내용을 식별한 후 이를 시각화함으로써 사내에서 유통되는 비정형 문서 내의 핵심 정보를 식별하고 추적하는 방법을 제안하였다.

Keywords

References

  1. 김효종, "기밀 문서 파일 유출 방지를 위한 FCLPS에 관한 연구," 국내석사학위논문 동명대학교 대학원, 2021.
  2. 홍용기, 고기혁, 양희동, and 류승환, "프라이버시 보호 데이터 배포: 정형및비정형 데이터 비식별화 기술 동향," 정보과학회논문지, Vol. 50, No. 11, pp. 1008-1029,
  3. 양병모 and 양오석, "Word2Vec 모델을 이용한 ESG 점수 도출에 관한 연구: 비정형 문서간 유사도 분석을 활용한 텍스트 계량화 방법론 제안," 경영연구, 37, pp. 57-72, 2022.
  4. 김원준. "특허와 논문정보를 활용한OCR기술발전동향예측에 관한연구." 국내박사학위논문 한국기술교육대학교 일반대학원, 2023. 충청남도
  5. dreamgonfly. "쉽게씌어진 word2vec" https://dreamgonfly.github.io/blog/word2vec-explained/#%EB%8B%A8%EC%96%B4-%EC%9E%84%EB%B2%A0%EB%94%A9word-embedding-%EB%A7%9B%EB%B3%B4%EA%B8%B0. Accessed: 2024-01-15.
  6. 서혜선 (2020). LDA와 Word2vec 방법론을 이용한 의정부시 SNS 데이터의 토픽 모델링 및 시각화, Journal of The Korean Data Analysis Society, 22(6), 2391-2403.
  7. 강형석 and 양장훈, "Word2vec 및fastText 임베딩 모델의 성능 비교," 디지털콘텐츠학회논문지, Vol. 21, No. 7, pp. 1335-1343, 2020.
  8. 전민규 and 김남규, "텍스트 요약 품질 향상을 위한 의미적 사전학습 방법론," 스마트미디어저널, Vol. 12, No. 5, 17-27, 2023.