DOI QR코드

DOI QR Code

Comparison and Analysis of Subject Classification for Domestic Research Data

국내 학술논문 주제 분류 알고리즘 비교 및 분석

  • 최원준 (한국과학기술정보연구원 콘텐츠 큐레이션센터) ;
  • 설재욱 (한국과학기술정보연구원 콘텐츠 큐레이션센터) ;
  • 정희석 (한국과학기술정보연구원 콘텐츠 큐레이션센터) ;
  • 윤화묵 (한국과학기술정보연구원 콘텐츠 큐레이션센터)
  • Received : 2018.07.06
  • Accepted : 2018.07.24
  • Published : 2018.08.28

Abstract

Subject classification of thesis units is essential to serve scholarly information deliverables. However, to date, there is a journal-based topic classification, and there are not many article-level subject classification services. In the case of academic papers among domestic works, subject classification can be a more important information because it can cover a larger area of service and can provide service by setting a range. However, the problem of classifying themes by field requires the hands of experts in various fields, and various methods of verification are needed to increase accuracy. In this paper, we try to classify topics using the unsupervised learning algorithm to find the correct answer in the unknown state and compare the results of the subject classification algorithms using the coherence and perplexity. The unsupervised learning algorithms are a well-known Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA) and Latent Semantic Indexing (LSI) algorithm.

학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

Keywords

References

  1. 김무철, "과학기술용어 간 관계 도출을 위한 토픽분석 연구," 한국전자거래학회지, 제21권, 제1호, pp.119-129, 2016. https://doi.org/10.7838/JSEBS.2016.21.1.119
  2. 배덕호, 엄태환, 윤석호, 박정, 김상욱, "LDA를 이용한 논문 유사도 계산 방안의 성능 평가," 한국통신학회 학술대회논문집, pp.356-357, 2013.
  3. 박준형, 오효정, "국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교," 한국도서관.정보학회지, 제48권, 제4호, pp.235-258, 2017.
  4. 서경희, 이민수, 오상윤, "Spark 를 사용한 LDA 기반의 비정형 의료 데이터의 토픽 분석," 한국통신학회 학술대회논문집, pp.61-63, 2016.
  5. 문병주, 송주의, 임현근, 정일품, "Hybrid-LDA 기반의 평가위원 추천시스템," 한국통신학회 학술대회논문집, pp.1051-1052, 2016.
  6. 조태민, 이지형, "LDA 모델을 이용한 잠재 키워드 추출," 한국지능시스템학회 논문지, 제25권, 제2호, pp.180-185, 2015.
  7. 심준식, 김형중, "LDA 토픽 모델링을 활용한 판례 검색 및 분류 방법," 전자공학회논문지, 제54권, 제9호, pp.67-75, 2017.
  8. 정병문, 김태환, 이진, 김정선, "LDA 모델을 이용한 트위터 토픽 추출 및 토픽 카테고리 판단," 한국정보과학회 학술발표논문집, pp.787-788, 2015.
  9. 봉성용, 황규백, "Labeled LDA를 이용한 저자 주제어 추천," 한국정보과학회 학술발표논문집, Vol.37(1C), pp.385-389, 2010.
  10. 표신지, 김은회, 김문철, "토픽 모델링을 이용한 유사 시청 사용자 그룹핑 및 TV 프로그램 추천 알고리듬," 한국방송미디어공학회 학술발표대회논문집, pp.116-119, 2012.
  11. 박자현, 송민, "토픽모델링을 활용한 국내 문헌정보학 연구동향 분석," 정보관리학회지, 제30권, 제1호, pp.7-32, 2013. https://doi.org/10.3743/KOSIM.2013.30.1.007
  12. L. Zheng, Z. Caiming, and C. Caixian, "MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation," Expert Systems with Applications, Vol.104, pp.168-184, 2018. https://doi.org/10.1016/j.eswa.2018.03.014
  13. B. Cao, J. Liu, Y. Wen, H. Li, Q. Xiao, and J. Chen, "QoS-aware service recommendation based on relational topic model and factorization machines for IoT Mashup applications," Journal of Parallel and Distributed Computing, 2018.
  14. Y. Papanikolaou and G. Tsoumakas, Subset Labeled LDA for Large-Scale Multi-Label Classification (2017, September 16), arXiv.org.
  15. M. Pavlinek and V. Podgorelec, "Text classification method based on self-training and LDA topic models," Expert Systems with Applications, Vol.80, pp.83-93, 2017. http://doi.org/10.1016/j.eswa.2017.03.020
  16. M. Rani, A. K. Dhar, and O. P. Vyas, "Semi-automatic terminology ontology learning based on topic modeling," Engineering Applications of Artificial Intelligence, Vol.63, pp.108-125, 2017. http://doi.org/10.1016/j.engappai.2017.05.006
  17. 곽창욱, 김선중, 박성배, 김권양, "무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장," 정보과학회 컴퓨팅의 실제 논문지, 제22권, 제9호, pp.461-466, 2016. https://doi.org/10.5626/KTCP.2016.22.9.461
  18. 이호경, 양선, 고영중, "비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장," 정보과학회논문지, 제43권, 제9호, pp.1008-1014, 2016.
  19. https://radimrehurek.com/gensim/