DOI QR코드

DOI QR Code

A Study on Utilization of Korea Science Citation Database(KSCD) Based on Data Mining Techniques

데이터마이닝 기술을 이용한 한국과학기술인용색인DB 활용 방안 연구

  • Park, Jong-Hyun (Dept. of Computer Engineering, Chungnam National University) ;
  • Choi, Seon-Heui (Domestic Information Team, Korea Institute of Science and Technology Information) ;
  • Kim, Byung-Kyu (Domestic Information Team, Korea Institute of Science and Technology Information)
  • 박종현 (충남대학교 컴퓨터공학과) ;
  • 최선희 (한국과학기술정보연구원 정보서비스센터 국내정보팀) ;
  • 김병규 (한국과학기술정보연구원 정보서비스센터 국내정보팀)
  • Received : 2012.09.25
  • Accepted : 2012.10.29
  • Published : 2012.10.30

Abstract

Scholarly science citation data is typically of large volume and consists of a variety of data. Moreover, the volume of data is increasing more and more. Therefore, there are some requirements to store and manage the data efficiently and Korea Institute of Science and Technology Information (KISTI) develops Korea Science Citation Database (KSCD) which manage and serve very large-volume of korea science technique information including citation data. However, current services based on KSCD are not enough for various users. Thus, it is important issue to offer a variety of services using KSCD. For example, if a user searches articles described by a specific author, then a user may want to find not only the articles cited by a certain author but also those articles that study similar topics. However, it is not always easy to provide these services with citation data. Therefore, this paper surveys studies about services using citation data in order to find approaches for better utilizing KSCD. Especially, this paper considers data mining techniques, because data mining is one of the main techniques to extracting semantic information from big data. Therefore, this paper discusses methods for utilizing large volume of KSCD based on data mining technique.

한국과학기술정보연구원(KISTI)에서는 대량의 학술 정보들을 분류하여 저장하고 관리하기 위한 한국과학기술 인용색인 데이터베이스(KSCD)를 구축한 바 있다. 그러나 학술인용색인데이터들은 그 특성상 단순히 저장만을 위한 자료가 아니다. 즉, 저장된 데이터를 기반으로 사용자들에게 어떠한 서비스를 어떻게 제공할 것인지는 KSCD의 활용 측면에서 매우 중요한 문제이다. 예를 들어 사용자는 단순히 특정 저자가 기술한 학술 자료들을 검색하기를 원할 수도 있지만, 필요에 따라 해당 저자와 유사한 연구를 수행하는 저자들을 검색하기를 원할 것이다. 그러나 단순히 저장된 데이터만으로 이러한 서비스를 제공하기는 어렵다. 그러므로 본 논문에서는 한국과학기술인용색인 데이터베이스(KSCD)를 향후 어떻게 활용할 수 있는가에 대한 해답을 찾기 위해서는 국내외에서 현재 어떠한 서비스들을 제공하고 있는지 살펴보고 이와 관련하여 어떤 방향으로 연구가 진행해야 하는지를 모색한다. 특별히 데이터 마이닝 기술은 다양한 형태의 데이터로부터 데이터 속에 내포되어있는 특징(Feature)들을 추출하고 새로운 데이터 모델을 발견하여 의미 있는 정보를 추출해 내어 결국은 사용자의 의사 결정에 도움을 주는 것을 그 목적으로 한다. 즉 데이터에 숨겨진 패턴과 관계를 찾아내어 유용한 정보를 발견해 내는 것이다. 그러므로 본 논문에서는 이러한 데이터마이닝 기법을 학술인용색인데이터에 적용하여 제공할 수 있는 서비스들이 무엇이 있는지 논의한다.

Keywords

References

  1. 강인수, 김평, 이승우, 정한민, 류범종. 2009. 저자 식별을 위한 대용량 평가셋 구축. 한국콘텐츠학회논문지, 9(11): 455-464.
  2. 강인수. 2008. 저자식별을 위한 전자메일의 추출 및 활용. 한국콘텐츠학회논문지, 8(6): 261-268.
  3. 강인수. 2008. 한글 저자명 중의성 해소를 위한 기계학습기법의 적용. 정보관리학회지, 25(3): 27-39.
  4. 강인수. 2009. 한글 저자명 군집화를 위한 계층적 기법 비교. 정보관리연구, 40(2): 95-115.
  5. 강인수. 2011. 동시인용정보를 이용한 동명이인 저자의 중의성 해소. 정보관리연구, 42(3): 167-186.
  6. 남수현, 김홍기. 2005. Knowledge Extraction from Academic Journals Using Data Mining Techniques. 디지털정책연구, 3(1).
  7. 이정연, 이재윤, 정한민, 강인수, 신숙경. 2007. 확률적 온톨로지와 연구자 네트워크를 이용한 심사자 자동 추천에 관한 연구. 정보관리학회지, 24(3): 43-65.
  8. 최상희, 최선희. 2010. 오픈엑세스 학술지의 차세대 서비스 모형에 관한 연구. 정보관리학회지, 27(4): 89-107.
  9. Afzal, M.T. 2009. "Improving Citation Mining." Proc. Networked Digital Technologies.
  10. Alfonso Ibanez, Pedro Larranaga, Concha Bielza. 2011. "Using Bayesian networks to discover relationships between bibliometric indices. A case study of computer science and artificial intelligence journals." Scientometrics, 89(2): 523-551. https://doi.org/10.1007/s11192-011-0486-7
  11. Bolanle Adefowoke Ojokoh, Ming Zhang, Jian Tang. 2011. "A trigram hidden Markov model for metadata extraction from heterogeneous references." Information Sciences, 181(9): 1538-1551. https://doi.org/10.1016/j.ins.2011.01.014
  12. Choi, S.-H., Kim, B.-K., Kang, M.-Y., You, B.-J., Lee, J. & Park, J.-W. (2011). "A study of citing patterns of Korean scientists on Korean journals." Journal of the Korean Society for information Management, 28(2): 97-115. https://doi.org/10.3743/KOSIM.2011.28.2.097
  13. Eli Cortez, Altigran Soares da Silva, Marcos Andre Goncalves, Filipe de Sa Mesquita, Edleno Silva de Moura. 2009. "A flexible approach for extracting metadata from bibliographic citations." JASIST, 60(6): 1144-1158. https://doi.org/10.1002/asi.21049
  14. Erjia Yan, Ying Ding, Elin K. Jacob. 2012. "Overlaying communities and topics: an analysis on publication networks." Scientometrics, 90(1): 499-513. https://doi.org/10.1007/s11192-011-0531-6
  15. Jakob Elming, Nizar Habash. 2007. "Combination of Statistical Word Alignments Based on Multiple Preprocessing Schemes." Proc. HLT-NAACL.
  16. Jian Zhang, Chaomei Chen, Jiexun Li. 2009. "Visualizing the Intellectual Structure with Paper-Reference Matrices." IEEE Transactions on Visualization and Computer Graphics, 15(6): 1153-1160. https://doi.org/10.1109/TVCG.2009.202
  17. Jiejia Lin, Yunhong Xu, Shujin Cao. 2010. "Unraveling the Relationship between Co-Authorship and Research Interest." Proc. PACIS.
  18. Kim Byung-Kyu, Kang Mu-Yeong, Choi Seon-Heui. 2011. "Citing Behavior of Korean Scientists on Foreign Journals in KSCD." Journal of the Korean society for information management, 28(2): 117-133. https://doi.org/10.3743/KOSIM.2011.28.2.117
  19. Kwon Ki-Seok, Park Han-Woo P, So Min-Ho, Loet Leydesdorff. 2012. "Has globalization strengthened South Korea's national research system? National and international dynamics of the Triple Helix of scientific co-authorship relationships in South Korea." Scientometrics, 90(1): 163-176. https://doi.org/10.1007/s11192-011-0512-9
  20. Lee, J.-W., Kim, B.-K., You, B.-J., Kang, M.-Y. 2011. "Design and application of process for creating and verifying Korean Journal Citation Report (KJCR)." Proc ICCC.
  21. Michael Eckmann, Anderson Rocha, Jacques Wainer. 2012. "Relationship between high-quality journals and conferences in computer vision." Scientometrics, 90(2): 617-630. https://doi.org/10.1007/s11192-011-0527-2
  22. Muhammad Tanvir Afzal, Hermann A. Maurer, Wolf-Tilo Balke, Narayanan Kulathuramaiyer. 2010. "Rule based Autonomous Citation Mining with TIERL." Journal of Digital Information Management, Vol.8: 196-204.
  23. Shuming Shi, Fei Xing, Mingjie Zhu, Zaiqing Nie, Ji R. WenOther: BibTeX PubZone. 2009. "Anchor Text Extraction for Academic Search." Proc. ACL-IJCNLP.
  24. Tingcan Ma, Gui-Fang Wang, Ke Dong, Mukun Cao. 2012. "The Journal's Integrated Impact Index: a new indicator for journal evaluation." Scientometrics, 90(2): 649-658. https://doi.org/10.1007/s11192-011-0538-z
  25. Tomas Kuzar, Pavol Navrat. 2010. "Preprocessing of Slovak Blog Articles for Clustering." Proc. Web Intelligence/IAT Workshops.
  26. Wen-Yau Cathy Lin, Mu-Hsuan Huang. 2012. "The relationship between co-authorship, currency of references and author self-citations." Scientometrics, 90(2): 343-360. https://doi.org/10.1007/s11192-011-0523-6
  27. Ying Ding, Gobinda Chowdhury, Schubert Foo. 1999. "Template mining for the extraction of citation from digital documents." Proc. ICADL.
  28. Ying Yang, Mingzhi Wu, Lei Cui. 2012. "Integration of three visualization methods based on co-word analysis." Scientometrics, 90(2): 659-673. https://doi.org/10.1007/s11192-011-0541-4
  29. Zdenek Horak, Milos Kudelka, Vaclav Snasel, Ajith Abraham, Hana Rezankova. 2011. "Forcoa.NET: An interactive tool for exploring the significance of authorship networks in DBLP data." Proc. CASoN, 261-266.