DOI QR코드

DOI QR Code

Content-based Korean journal recommendation system using Sentence BERT

Sentence BERT를 이용한 내용 기반 국문 저널추천 시스템

  • Yongwoo Kim (Department of Technology Management, Graduate School of Technology & Innovation Management, Hanyang University) ;
  • Daeyoung Kim (DPLANEX Corp.) ;
  • Hyunhee Seo (DPLANEX Corp.) ;
  • Young-Min Kim (Department of Technology Management, Graduate School of Technology & Innovation Management, Hanyang University)
  • 김용우 (한양대학교 기술경영전문대학원 기술경영학과) ;
  • 김대영 (디플래닉스(주)) ;
  • 서현희 (디플래닉스(주)) ;
  • 김영민 (한양대학교 기술경영전문대학원 기술경영학과)
  • Received : 2023.06.14
  • Accepted : 2023.07.17
  • Published : 2023.09.30

Abstract

With the development of electronic journals and the emergence of various interdisciplinary studies, the selection of journals for publication has become a new challenge for researchers. Even if a paper is of high quality, it may face rejection due to a mismatch between the paper's topic and the scope of the journal. While research on assisting researchers in journal selection has been actively conducted in English, the same cannot be said for Korean journals. In this study, we propose a system that recommends Korean journals for submission. Firstly, we utilize SBERT (Sentence BERT) to embed abstracts of previously published papers at the document level, compare the similarity between new documents and published papers, and recommend journals accordingly. Next, the order of recommended journals is determined by considering the similarity of abstracts, keywords, and title. Subsequently, journals that are similar to the top recommended journal from previous stage are added by using a dictionary of words constructed for each journal, thereby enhancing recommendation diversity. The recommendation system, built using this approach, achieved a Top-10 accuracy level of 76.6%, and the validity of the recommendation results was confirmed through user feedback. Furthermore, it was found that each step of the proposed framework contributes to improving recommendation accuracy. This study provides a new approach to recommending academic journals in the Korean language, which has not been actively studied before, and it has also practical implications as the proposed framework can be easily applied to services.

전자저널의 발전과 다양한 융복합 연구들이 생겨나면서 연구를 게시할 저널의 선택은 신진 연구자들은 물론 기존 연구자들에게도 새로운 문제로 떠올랐다. 논문의 수준이 높더라도 논문의 주제와 저널 범위의 불일치로 인해 게재가 거부될 수 있기 때문이다. 이러한 문제를 해결하기 위해 연구자의 저널 선정을 돕기 위한 연구는 영문 저널을 대상으로는 활발하게 이루어졌으나 한국어 저널을 대상으로 한 연구는 그렇지 못한 실정이다. 본 연구에서는 한국어 저널을 대상으로 투고할 저널을 추천하는 시스템을 제시한다. 첫 번째 단계는 과거 저널에 게재된 논문들의 초록을 SBERT (Sentence-BERT)를 이용하여 문서 단위로 임베딩하고 새로운 문서와 기존 게재논문의 유사도를 비교하여 저널을 추천하는 것이다. 다음으로 초록의 유사도 여부, 키워드 일치 여부, 제목 유사성을 고려하여 추천할 저널의 순서가 결정되고, 저널별로 구축된 단어 사전을 이용하여 선순위 추천 저널과 유사한 저널을 찾아 추천 리스트에 추가하여 추천 다양성을 높인다. 이러한 방식으로 구축된 추천 시스템을 평가한 결과 Top-10 정확도 76.6% 수준으로 평가되었으며, 추천 결과에 대한 사용자의 평가를 요청하고 추천 결과의 유효성을 확인하였다. 또한, 제안된 프레임워크의 각 단계가 추천 정확도를 높이는 데에 도움이 된다는 결과를 확인하였다. 본 연구는 그동안 활발히 이루어지지 않았던 국문 학술지 추천에 대한 새로운 접근을 제시한다는 점에서 학술적 의의가 있으며, 제안된 기능을 문서와 저널 보유상태에 따라 변경하여 손쉽게 서비스에 적용할 수 있다는 점에서 실무적인 의의를 가진다.

Keywords

References

  1. 김동규, 이동욱, 박장원, 오성우, 권성준, 이인용, & 최동원. (2022). KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용. 지능정보연구, 28(2), 191-206.
  2. 김선경, 박지수, 손진곤. (2020). 유사도 통합에 관한 연구. 한국정보처리학회 학술대회논문집, 27(2), 53-56.
  3. 박수지. (2021). Fusion models for news quality prediction (국내박사학위논문). 서울대학교 대학원, 서울.
  4. 박종인, 김남규. (2019). 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론. 지능정보연구, 25(3), 19-41.
  5. 손연빈, 장태우, 최예림. (2019). 연구자의 논문 게재 이력을 고려한 저널 결정 요인별 중요도 학습 기반의 저널 추천 방법론. 인터넷정보학회논문지, 20(4), 73-79.
  6. 손지은, 김성범, 김현중, 조성준. (2015). 추천 시스템 기법 연구동향 분석. 대한산업공학회지, 41(2), 185-208.
  7. 신은자. (2001). 전자저널의 아카이빙에 관한 연구. 정보관리학회지, 18(3), 139-158.
  8. 유영선 (2015). 딥러닝 알고리즘을 이용한 저널 추천 방법론 (국내석사학위논문). 연세대학교 공학대학원, 서울.
  9. 이호엽, 윤휘건, 김창욱. (2015). 딥러닝을 이용한 저널 추천 시스템. 대한산업공학회 추계학술대회 논문집, 1247-1267.
  10. 최인복, 이재동. (2009). 이웃크기를 이용한 사용자기반과 아이템기반 협업여과의 결합예측 기법. 정보처리학회논문지: 소프트웨어 및 데이터 공학, 16(1), 55-62.
  11. 최슬비, 곽기영, 안현철. (2016). 사용자 간 신뢰 관계 네트워크 분석을 활용한 협업 알고리즘의 예측 정확도 개선. 지능정보연구, 22(3), 113-127.
  12. 한국과학기술정보연구원. (2021). 국내 논문 전문 텍스트 데이터셋 (Version 1.0) [Data set]. 한국과학기술정보연구원. https://doi.org/10.23057/38.
  13. Alhoori, H., & Furuta, R. (2017). Recommendation of scholarly venues based on dynamic user interests. Journal of Informetrics, 11(2), 553-563.
  14. Bobadilla, J., Ortega, F., Hernando, A., & Bernal, J. (2012). A collaborative filtering approach to mitigate the new user cold start problem. Knowledge-based systems, 26, 225-238.
  15. Chen, Z., Xia, F., Jiang, H., Liu, H., & Zhang, J. (2015). AVER: Random walk based academic venue recommendation. In Proceedings of the 24th international conference on World Wide Web, 579-584.
  16. Feng, X., Zhang, H., Ren, Y., Shang, P., Zhu, Y., Liang, Y., ... & Xu, D. (2019). The deep learning-based recommender system "Pubmender" for choosing a biomedical publication venue: Development and validation study. Journal of medical Internet research, 21(5), e12957.
  17. Goharian, N., El-Ghazawi, T., & Grossman, D. (2001). Enterprise text processing: A sparse matrix approach. In Proceedings International Conference on Information Technology: Coding and Computing, 71-75.
  18. Goldstein, L. J., Lay, D. C., & Schneider, D. I. (2006). Calculus and its applications. Prentice Hall.
  19. Gundogan, E., Kaya, M., & Daud, A. (2023). Deep learning for journal recommendation system of research papers. Scientometrics, 128(1), 461-481.
  20. Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and korSTS: New benchmark datasets for korean natural language understanding. arXiv. https://doi.org/10.48550/arXiv.2004.03289.
  21. Kang, N., Doornenbal, M. A., & Schijvenaars, R. J. (2015). Elsevier journal finder: recommending journals for your paper. In Proceedings of the 9th ACM Conference on Recommender Systems, 261-264.
  22. Lee, S., Jang, H., Baik, Y., Park, S., & Shin, H. (2020). Kr-bert: A small-scale korean-specific language model. arXiv. https://doi.org/10.48550/arXiv.2008.03979.
  23. Liang, D., Charlin, L., McInerney, J., & Blei, D. M. (2016). Modeling user exposure in recommendation. In Proceedings of the 25th international conference on World Wide Web, 951-961.
  24. Liu, C., Wang, X., Liu, H., Zou, X., Cen, S., & Dai, G. (2022). Learning to recommend journals for submission based on embedding models. Neurocomputing, 508, 242-253.
  25. Lombardo, G., Tomaiuolo, M., Mordonini, M., Codeluppi, G., & Poggi, A. (2022). Mobility in unsupervised word embeddings for knowledge extraction-the scholars' trajectories across research topics. Future Internet, 14(1), 25.
  26. Luong, H., Huynh, T., Gauch, S., Do, L., & Hoang, K. (2012a). Publication venue recommendation using author network's publication history. In Intelligent Information and Database Systems: 4th Asian Conference (ACIIDS 2012), 426-435.
  27. Luong, H. P., Huynh, T., Gauch, S., & Hoang, K. (2012b). Exploiting Social Networks for Publication Venue Recommendations. In KDIR 2012 - Proceedings of the International Conference on Knowledge Discovery and Information Retrieval, 239-245.
  28. Orkphol, K., & Yang, W. (2019). Word sense disambiguation using cosine similarity collaborates with Word2vec and WordNet. Future Internet, 11(5), 114.
  29. Park, S., Moon, J., Kim, S., Cho, W. I., Han, J., Park, J., ... & Cho, K. (2021). Klue: Korean language understanding evaluation. arXiv. https://doi.org/10.48550/arXiv.2105.09680.
  30. Pradhan, T., Gupta, A., & Pal, S. (2020). Hasvrec: A modularized hierarchical attention-based scholarly venue recommender system. Knowledge-Based Systems, 204, 106181.
  31. Pradhan, T., & Pal, S. (2020). CNAVER: A content and network-based academic venue recommender system. Knowledge-Based Systems, 189, 105092.
  32. Reimers, N., & Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bertnetworks. arXiv. https://doi.org/10.48550/arXiv.1908.10084.
  33. Sagi, O., & Rokach, L. (2018). Ensemble learning: A survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8(4), e1249.
  34. Xia, P., Zhang, L., & Li, F. (2015). Learning similarity with cosine similarity ensemble. Information sciences, 307, 39-52.
  35. Yang, Z., & Davison, B. D. (2012). Venue recommendation: Submitting your paper with style. In 2012 11th International Conference on Machine Learning and Applications, 681-686
  36. Yu, S., Liu, J., Yang, Z., Chen, Z., Jiang, H., Tolba, A., & Xia, F. (2018). PAVE: Personalized Academic Venue recommendation Exploiting co-publication networks. Journal of Network and Computer Applications, 104, 38-47.