Research on Minimizing Access to RDF Triple Store for Efficiency in Constructing Massive Bibliographic Linked Data

극대용량 서지 링크드 데이터 구축의 효율성을 위한 RDF 트리플 저장소 접근 최소화에 관한 연구

  • 이문호 (경기대학교 대학원 문헌정보학과) ;
  • 최성필 (경기대학교 문헌정보학과)
  • Received : 2017.08.20
  • Accepted : 2017.09.19
  • Published : 2017.09.30


In this paper, we propose an effective method to convert and construct the MEDLINE, the world's largest biomedical bibliographic database, into linked data. To do this, we first derive the appropriate RDF schema by analyzing the MEDLINE record structure in detail, and convert each record into a valid RDF file in the derived schema. We apply the dual batch registration method to streamline the subject URI duplication checking procedure when merging all RDF files in the converted record unit and storing it in a single RDF triple storage. By applying this method, the number of RDF triple storage accesses for the subject URI duplication is reduced from 26,597,850 to 2,400, compared with the sequential configuration of linked data in units of RDF files. Therefore, it is expected that the result of this study will provide an important opportunity to eliminate the inefficiency in converting large volume bibliographic record sets into linked data, and to secure promptness and timeliness.

본 논문에서는 세계 최대 규모의 생의학 분야 서지 데이터베이스인 MEDLINE 전체를 링크드 데이터로 변환 구축하는 효율적인 방안을 제시한다. 이를 위해서 우선 MEDLINE 레코드 구조를 세부적으로 분석하여 적합한 RDF 스키마를 도출하고 각 레코드를 도출된 스키마에 유효한 RDF 파일로 변환하는 과정을 거친다. 본 논문에서는 변환된 레코드 단위의 모든 RDF 파일을 병합하여 이를 단일 RDF 트리플 저장소에 저장할 때 주어 URI 중복 확인 절차를 효율화하는 이중 일괄 등록 방법을 적용한다. 이 방법을 통해서 RDF 파일 단위로 링크드 데이터를 순차적으로 구축하는 방법과 비교했을 때 주어 URI 중복 제거를 위한 RDF 트리플 저장소 접근 횟수가 26,597,850회에서 2,400회로 감소하는 결과를 가져왔다. 따라서 본 연구의 결과는 대용량 서지 레코드 집합을 링크드 데이터로 변환하는 과정에서의 비효율성을 제거하고 신속성과 시의성을 확보할 수 있는 중대한 계기를 제공할 것으로 기대한다.



  1. National Information Society Agency. 2014. 2014 domestic case study of linked open data construction. Seoul: Nation Information Society Agency.
  2. Mun Hyeon Jeong, Sung Jung Hwan, Kim Young Ji and Woo Yong Tae. 2007. "A Design and Implementation of Efficient Storage Structure for a Large RDF Data Processing." The Jounal of Society for e-Business Studies, 12(3): 251-268.
  3. Jun-Won Jung, Ho-Young Jung, Jong-Nam Kim, Dong-Hyuk Lim, Hyoung-Joo Kim. 2005. "A RDF based Ontology Management System." Journal of KIISE : Computing Practices and Letters, 11(4): 381-392.
  4. MyungJoong Jeon, JinYoung Hong and YoungTack Park. 2016. "SPARQL Query Processing System over Scalable Triple Data using SparkSQL Framework." Journal of KIISE, 43(4): 450-459.
  5. Cheon Jung Kim, Ki Yeon Kim, Jong Hyeon Yoon, Jong Tae Lim, Kyoung Soo Bok, Jae Soo Yoo. 2014. "A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data." Journal of KIISE, 41(12): 1126-1135.
  6. Berners-Lee, Tim. 2006. Linked Data, [citied 2017. 8. 7].
  7. NIH. 2017. Fact Sheet MEDLINE, PubMed, and PMC(PubMed Central): How are they different?, [cited 2017. 8. 7].
  8. Oliver E, Bhalotia G, Schwartz AS, Altman RB, Hearst MA. 2004. "Tools for loading MEDLINE into a local relational database." BMC Bioinformatics, 5(1): 146.
  9. Zhiyong Lu. 2011. PubMed and beyond: a survey of web tools for searching biomedical literature. Database, 2011.
  10. Chen, B., Ding, Y., Wang, H., Wild, D. J., Dong, X., Sun, Y., & Sankaranarayanan, M. 2010. "Chem2bio2rdf: A Linked Open Data Portal for Systems Chemical Biology." In Web Intelligence and Intelligent Agent Technology (WI-IAT), 1: 232-239.
  11. Kilicoglu, H., Fiszman, M., Rodriguez, A., Shin, D., Ripple, A., & Rindflesch, T. C. 2008. Semantic MEDLINE: a web application for managing the results of PubMed Searches, in: Proc. 3rd International Symposium in Semantic Mining in Biomedicine, European Bioinformatics Institute, Hinxton, 2008: 69-76.
  12. Lin, J., 2009. "Is searching full text more effective than searching abstracts?." BMC bioinformatics, 10(1): 46.
  13. Castro, L.J.G., McLaughlin, C. and Garcia, A., 2013. "Biotea: RDFizing PubMed Central in support for the paper as an interface to the Web of Data." Journal of biomedical semantics, 4(1): S5.