DOI QR코드

DOI QR Code

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성

Cross-Lingual Style-Based Title Generation Using Multiple Adapters

  • 박요한 (충남대학교 전파정보통신공학과) ;
  • 최용석 (충남대학교 전자전파정보통신공학과) ;
  • 이공주 (충남대학교 전파정보통신공학과)
  • 투고 : 2023.02.16
  • 심사 : 2023.05.18
  • 발행 : 2023.08.31

초록

문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.

The title of a document is the brief summarization of the document. Readers can easily understand a document if we provide them with its title in their preferred styles and the languages. In this research, we propose a cross-lingual and style-based title generation model using multiple adapters. To train the model, we need a parallel corpus in several languages with different styles. It is quite difficult to construct this kind of parallel corpus; however, a monolingual title generation corpus of the same style can be built easily. Therefore, we apply a zero-shot strategy to generate a title in a different language and with a different style for an input document. A baseline model is Transformer consisting of an encoder and a decoder, pre-trained by several languages. The model is then equipped with multiple adapters for translation, languages, and styles. After the model learns a translation task from parallel corpus, it learns a title generation task from monolingual title generation corpus. When training the model with a task, we only activate an adapter that corresponds to the task. When generating a cross-lingual and style-based title, we only activate adapters that correspond to a target language and a target style. An experimental result shows that our proposed model is only as good as a pipeline model that first translates into a target language and then generates a title. There have been significant changes in natural language generation due to the emergence of large-scale language models. However, research to improve the performance of natural language generation using limited resources and limited data needs to continue. In this regard, this study seeks to explore the significance of such research.

키워드

과제정보

본 논문은 2022년도 교육부의 재원으로 한국연구재단의 지원을 받아 수행된 지자체-대학 협력기반 지역혁신 사업의 결과임(2021RIS-004).

참고문헌

  1. J. Pfeiffer, I. Vulic, I. Gurevych, and S. Ruder, "MAD-X: An adapter-based framework for multi-task cross-lingual transfer," Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020.
  2. Y. Liu et al., "Multilingual denoising pre-training for neural machine translation," Transactions of the Association for Computational Linguistics, Vol.8, pp.726-742. 2020. https://doi.org/10.1162/tacl_a_00343
  3. J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of deep bidirectional transformers for language understanding," Proceedings of NAACL-HLT, 2019.
  4. N. Houlsby et al., "Parameter-efficient transfer learning for NLP," International Conference on Machine Learning. PMLR, 2019.
  5. S. Q. Shen, Y. Chen, C. Yang, Z. Y. Liu, and M. S. Sun, "Zero-shot cross-lingual neural headline generation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol.26, No.12, pp.2319-2327, 2018. https://doi.org/10.1109/TASLP.2018.2842432
  6. D. Jin, Z. Jin, J. T. Zhou, L. Orii, and P. Szolovits, "Hooks in the headline: Learning to generate headlines with controlled styles," Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
  7. A. Karimi, L. Rossi, and A. Prati, "AEDA: An easier data augmentation technique for text classification," Findings of the Association for Computational Linguistics: EMNLP 2021. 2021.
  8. K. Papineni, S. Roukos, T. Ward, and W. J. Zhu, "BLUE: a method for automatic evaluation of machine translation," Proceedings of the 40th Annual Meeting of the ACL, pp.311-318, 2002.
  9. C.-Y. Lin, "ROUGE: A package for automatic evalu ation of summaries," Proceedings of the ACL-04 Workshop, 8, 2004.
  10. T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger, and Y. Artzi, "BERTScore: Evaluating text generation with BERT," International Conference on Learning Representations (ICLR), 2020.