DOI QR코드

DOI QR Code

Sequence-to-sequence 학습을 이용한 한국어 약어 생성

Korean Abbreviation Generation using Sequence to Sequence Learning

  • 투고 : 2016.10.10
  • 심사 : 2016.12.09
  • 발행 : 2017.03.15

초록

스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.

Smart phone users prefer fast reading and texting. Hence, users frequently use abbreviated sequences of words and phrases. Nowadays, abbreviations are widely used from chat terms to technical terms. Therefore, gathering abbreviations would be helpful to many services, including information retrieval, recommendation system, and so on. However, manually gathering abbreviations needs to much effort and cost. This is because new abbreviations are continuously generated whenever a new material such as a TV program or a phenomenon is made. Thus it is required to generate of abbreviations automatically. To generate Korean abbreviations, the existing methods use the rule-based approach. The rule-based approach has limitations, in that it is unable to generate irregular abbreviations. Another problem is to decide the correct abbreviation among candidate abbreviations generated rules. To address the limitations, we propose a method of generating Korean abbreviations automatically using sequence-to-sequence learning in this paper. The sequence-to-sequence learning can generate irregular abbreviation and does not lead to the problem of deciding correct abbreviation among candidate abbreviations. Accordingly, it is suitable for generating Korean abbreviations. To evaluate the proposed method, we use dataset of two type. As experimental results, we prove that our method is effective for irregular abbreviations.

키워드

과제정보

연구 과제 주관 기관 : 산업기술평가관리원(KEIT), 한국연구재단

참고문헌

  1. Y. Yoon, Y. Song, J. Lee, and H. Lim, "Construction of Korean acronym from definition," Proc. of the Korean Society for Cognitive Science Conference, pp. 81-85, 2006.
  2. I. Sutskever, O. Vinyals, and Q. Le, "Sequence to Sequence Learning with Neural Networks," Proc. of advances in Neural Information Processing Systems, pp. 3104-3112, 2014.
  3. K. Cho, B. Merrienboer, C. Gulcehre, F Bougares, H. Schwenk, and Y. Bengio, "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation," Proc. of the Conference on Empirical Methods in Natural Language Processing, pp. 1724-1734, 2014.
  4. F. Moses and S. Ehrenreich, "Abbreviations for Automated Systems1," Proc. of the Human Factors and Ergonomics Society Annual Meeting, Vol. 25, No. 1, pp. 132-135, 1981.
  5. N. Okazaki and S. Ananiadou, "Building an abbreviation dictionary using a term recognition approach," Bioinformatics, Vol. 22, No. 24, pp. 3089-3095, 2006. https://doi.org/10.1093/bioinformatics/btl534
  6. D. Sanchez and D. Isern, "Automatic extraction of acronym definitions from the Web," Applied Intelligence, Vol. 34, No. 2, pp. 311-327, Apr. 2011. https://doi.org/10.1007/s10489-009-0197-4
  7. D. Pennell and Y. Liu, "Toward text message normalization: Modeling abbreviation generation," Proc. of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5364- 5367, 2011.
  8. Y. Park, S. Kang, B. Yoo, and J. Seo, "Title Named Entity Recognition using Wikipedia and Marking Acronym," Proc. of Korea Computer Congress, pp. 637-639, 2013.
  9. A. Graves, A. Mohamed, and G. Hinton, "Speech recognition with deep recurrent neural networks," Proc. of Acoustics, Speech and Signal Processing, pp. 6645-6649, 2013.