도메인 어댑테이션을 이용한 폰트 변화에 강인한 한글 분류기 개발

  • Park, Jaewoo (Seoul National University Electrical Computer Engineering, INMC) ;
  • Lee, Eunji (Seoul National University Electrical Computer Engineering, INMC) ;
  • Cho, Nam Ik (Seoul National University Electrical Computer Engineering, INMC)
  • 박재우 (서울대학교 전기정보공학부 뉴미디어통신연구소) ;
  • 이은지 (서울대학교 전기정보공학부 뉴미디어통신연구소) ;
  • 조남익 (서울대학교 전기정보공학부 뉴미디어통신연구소)
  • Published : 2019.11.29

Abstract

본 논문에서는 도메인 어댑테이션을 이용하여 폰트 변화에 강인한 한글 분류기를 학습하는 방법을 제안한다. 제안하는 네트워크 모델은 총 7 개로 이루어져 있으며 각각 이미지로부터 폰트에 무관한 정보를 추출하는 인코더, 추출된 정보의 유효성을 판단하기 위해 이미지 재합성에 사용되는 디코더, 재합성된 이미지의 글자 분류기, 폰트 분류기, 재합성된 글자의 정교함을 판단하는 판별기(discriminator), 그리고 인코더에서 추출된 정보에 대한 글자 분류기, 폰트 분류기이다. 본 논문에서는 적대적 생성 신경망의 학습법을 따르는 도메인 어댑테이션 기법을 이용하여 인코더의 추출 정보가 폰트 정보는 속이면서 글자 분류의 정확성은 높이도록 학습하였다. 학습 결과 인코더로부터 추출되는 정보들은 폰트에 무관한 성질을 지니면서 글자 분류에 높은 정확성을 띄었으며, 추가로 디코더에서 나오는 이미지들도 원본 폰트와 같은 이미지를 생성해 낼 수 있었다.

Keywords