DOI QR코드

DOI QR Code

Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론

  • Byung Ho Yoon (Graduate School of Business IT, Kookmin University) ;
  • Junwoo Kim (Graduate School of Business IT, Kookmin University) ;
  • Namgyu Kim (Graduate School of Business IT, Kookmin University)
  • 윤병호 (국민대학교 비즈니스IT 전문대학원) ;
  • 김준우 (국민대학교 비즈니스IT 전문대학원) ;
  • 김남규 (국민대학교 비즈니스IT 전문대학원)
  • Received : 2022.10.08
  • Accepted : 2023.01.10
  • Published : 2023.02.28

Abstract

Recently, attempts have been made to convert unstructured text into vectors and to analyze vast amounts of natural language for various purposes. In particular, the demand for analyzing texts in specialized domains is rapidly increasing. Therefore, studies are being conducted to analyze specialized and general-purpose documents simultaneously. To analyze specific terms with general terms, it is necessary to align the embedding space of the specific terms with the embedding space of the general terms. So far, attempts have been made to align the embedding of specific terms into the embedding space of general terms through a transformation matrix or mapping function. However, the linear transformation based on the transformation matrix showed a limitation in that it only works well in a local range. To overcome this limitation, various types of nonlinear vector alignment methods have been recently proposed. We propose a vector alignment model that matches the embedding space of specific terms to the embedding space of general terms through end-to-end learning that simultaneously learns the autoencoder and regression model. As a result of experiments with R&D documents in the "Healthcare" field, we confirmed the proposed methodology showed superior performance in terms of accuracy compared to the traditional model.

최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

Keywords

References

  1. 김무성, 김남규, "다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론", 지능정보연구, 제27권, 제3호, 2021, pp. 175-197. https://doi.org/10.5626/KTCP.2021.27.9.428
  2. 김민호, 윤호열, 최상옥, "인공신경망 기반 자연어처리를 적용한 연도별 정책내용 변화 분석에 관한 연구: 일본 IT신전략(2018-2020)을 대상으로", 정보통신정책연구, 제28권, 제1호, 2021, pp. 1-27. https://doi.org/10.37793/ITPR.28.1.1
  3. 김병태, 김남규, "혼합 임베딩을 통한 전문용어 의미 학습 방안", 정보시스템연구, 제30권, 제2호, 2021, pp. 57-78.
  4. 김성원, 박광렬, "딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구", 정보처리학회논문지: 소프트웨어 및 데이터 공학, 제11권, 제2호, 2022, pp. 93-100.
  5. 김준우, 김남규, "이질적 이미지의 딥러닝 분석을 위한 적대적 학습기반 이미지 보정 방법론", 정보처리학회논문지: 소프트웨어 및 데이터공학, 제10권, 제11호, 2021, pp. 457-464. https://doi.org/10.3745/KTSDE.2021.10.11.457
  6. 김준우, 윤병호, 김남규, "전문어의 범용 공간매핑을 위한 비선형 벡터 정렬 방법론", 지능정보연구, 제28권, 제2호, 2022, pp. 127-146. https://doi.org/10.13088/JIIS.2022.28.2.127
  7. 김준우, 정호영, "제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델", 말소리와 음성과학, 제12권, 제4호, 2020, pp. 63-71. https://doi.org/10.13064/KSSS.2020.12.4.063
  8. 오준호, "한의학 고문헌 데이터 분석을 위한 단어 임베딩 기법 비교: 자연어처리 방법을 적용하여", 대한한의학원전학회지, 제32권, 제1호, 2019, pp. 61-74. https://doi.org/10.14369/JKMC.2019.32.1.061
  9. 조인수, 강윤희, 최동빈, 박용범, "스킵연결이 적용된 오토인코더 모델의 클러스터링 성능분석", 정보처리학회논문지: 소프트웨어 및 데이터 공학, 제9권, 제12호, 2020, pp. 403-410.
  10. 할타르, 이말례, "인공지능 기법을 활용한 법률안 예측 모델 연구", 한국디지털콘텐츠학회논문지, 21권, 제8호, 2020, pp. 1443-1452. https://doi.org/10.9728/dcs.2020.21.8.1443
  11. Artetxe, M., G. Labaka, and E. Agirre, "Learning principled bilingual mappings of word embed-dings while preserving monolingual invariance", Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016, pp. 2289-2294.
  12. Baldi, P. and K. Hornik, "Neural networks and principal component analysis: Learning from examples without local minima", Neural Networks, Vol. 2, No. 1, 2016, pp. 53-58. https://doi.org/10.1016/0893-6080(89)90014-2
  13. Bank, D., N. Koenigstein, and R. Giryes, "Autoencoders", Available at arXiv preprint arXiv:2003.05991, 2020.
  14. Glasmachers, T., "Limits of end-to-end learning", Proceedings of the Ninth Asian Conference on Machine Learning, Vol.77, 2017. pp. 17-32.
  15. Grave, E., A. Joulin, and Q. Berthet, "Unsupervised alignment of embeddings with wasserstein procrustes", Proceedings of the Twenty-Second International Conference on Artificial Intelligence and Statistics, Vol.89, 2019, pp. 1880-1890.
  16. He, K., X. Zhang,, S. Ren, and J. Sun, "Deep residual learning for image recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770-778.
  17. Kapoor, A., R. Viswanathan, and P. Jain, "Multilabel classification using bayesian compressed sensing", Advances in Neural Information Processing Systems, Vol.25, 2012.
  18. Kim, Y., J. Geng, and H. Ney, "Improving unsupervised word-by-word translation with language model and denoising autoencoder", Available at arXiv preprint arXiv:1901.01590, 2019.
  19. Le, L., A. Patterson, and M. White, "Supervised autoencoders: Improving generalization performance with unsupervised regularizers", Advances in Neural Information Processing Systems, Vol.31, 2018.
  20. Lewis, M., D. Yarats, Y. N. Dauphin, D. Parikh, and D. Batra, "Deal or no deal? end-to-end learning for negotiation dialogues", Available at arXiv preprint arXiv:1706.05125, 2017.
  21. Mikolov, T., K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space", Available at arXiv preprint arXiv:1301.3781, 2013.
  22. Mikolov, T., Q. V. Le, and I. Sutskever "Exploiting similarities among languages for machine translation", Available at arXiv preprint arXiv:1309.4168, 2013.
  23. Muller, U., J. Ben, E. Cosatto, B. Flepp, and Y. Cun, "Off-road obstacle avoidance through end-to-end learning", Advances in Neural Information Processing Systems, Vol.18, 2005.
  24. Nakashole, N. and R. Flauger, "Characterizing departures from linearity in word translation", Available at arXiv preprint arXiv:1806.04508, 2018.
  25. Oliveira, A. F., J. L. Da Silva, and M. G. Quiles, "Molecular Property Prediction and Molecular Design Using a Supervised Grammar Variational Autoencoder", Journal of Chemical Information and Modeling, Vol.62, No.4, 2022, pp. 817-828. https://doi.org/10.1021/acs.jcim.1c01573
  26. Sogaard, A., S. Ruder, and I. Vulic, "On the limitations of unsupervised bilingual dictionary induction", Available at arXiv preprint arXiv:1805.03620, 2018.
  27. Xing, C., D. Wang, C. Liu, and Y. Lin, "Normalized word embedding and orthogonal transform for bilingual word translation", In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015, pp. 1006-1011.
  28. Zhang, Y., Y. Li, Y. Zhu, and X. Hu, "Wasserstein GAN based on Autoencoder with back-translation for cross-lingual embedding mappings", Pattern Recognition Letters, Vol. 129, 2020, pp. 311-316. https://doi.org/10.1016/j.patrec.2019.11.033