DOI QR코드

DOI QR Code

A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 -

  • 곽철완 (강남대학교 산업데이터사이언스학부 데이터사이언스전공)
  • Received : 2021.02.22
  • Accepted : 2021.03.19
  • Published : 2021.03.30

Abstract

The purpose of this study is to identify the applicability of machine learning targeting titles in the classification of books in public libraries. Data analysis was performed using Python's scikit-learn library through the Jupiter notebook of the Anaconda platform. KoNLPy analyzer and Okt class were used for Hangul morpheme analysis. The units of analysis were 2,000 title fields and KDC classification class numbers (300 and 600) extracted from the KORMARC records of public libraries. As a result of analyzing the data using six machine learning models, it showed a possibility of applying machine learning to book classification. Among the models used, the neural network model has the highest accuracy of title classification. The study suggested the need for improving the accuracy of title classification, the need for research on book titles, tokenization of titles, and stop words.

이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

Keywords

References

  1. Cho, H. (2017). A experimental study on the development of a book recommendation system using automatic classification, based on the personality type. Journal of Korean Library and Information Science Society, 48(2), 215-236. https://doi.org/10.16981/kliss.48.201706.215
  2. Han, M, Rye, J., & Seo, S. (2014). Classification and analysis of emotion in Korean texts using machine learning. The Korean Institute of Information Scientists and Engineers, 1722-1724.
  3. Kim, S. & Eom, J. (2008). A study on the documents's automatic classification using machine learning. Journal of Information Management, 39(4), 47-66. https://doi.org/10.1633/JIM.2008.39.4.047
  4. Korean Library Association (2013). Korean Decimal Classification. 6th edition. Seoul: Korean Library Association.
  5. Lee, C., Choi, D., Kim, S., & Kang, J. (2013). Classification and analysis of emotion in Korean microblog texts. Journal of KISS: Databases, 40(3), 159-167.
  6. Aggarwal, C. C. (2018). Machine Learning. Cham: Springer.
  7. Golub, K., Hagelback, J., & Ardo, A. (2018). Automatic classification using DDC on the Swedish Union Catalogue. Proceedings of the 18th European Networked Knowledge Organization Systems (NKOS) Workshop co-located with the 22nd International Conference on Theory and Practice of Digital Libraries 2018 (TPDL 2018). Available: http://ceur-ws.org/Vol-2200/paper1.pdf
  8. Muller, A. C. & Guido, S. (2017). Introduction to Machine Learning with Python. 박해선 옮김.(2019). 파이썬 라이브러리를 활용한 머신러닝 (번역개정판). 서울: 한빛미디어.