서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database

  • 박미성 (경북대학교 중앙도서관)
  • 발행 : 2005.06.01

초록

본 연구의 목적은 서지정보검색시스템의 색인 정의의 중요성을 강조하고 최적 색인의 기초 자료를 마련하기 위함이다. 이를 위해 서지마크 데이터베이스로부터 색인 태그 정의 및 정규화를 통한 색인어추출이론에 대해 고찰하고, 이론에 따라 생성된 색인어의 검색 활용도를 분석하였다. 실험은 서지 2,200,488건에서 생성된 색인어 29,219,853건을 텍스트형 색인과 코드형 색인으로 나누어 이용자 왱 검색 로그에 나타난 색인 항목과 비교하여 어떤 색인 정의가 얼마나 활용되는가를 분석하였다. 결과에 따르면 서명, 저자, 출판사, 주제와 같은 텍스트형 색인어는 높은 검색 활용도를 보인 반면에 코드형 색인어는 검색 활용도가 낮아 검색에 활용되지 않는 불필요한 색인 정의들은 과감하게 제거하여 색인 정의를 최적화해야 함을 제안하였다.

The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

키워드

참고문헌

  1. 정영미, 정보검색론(서울 : 구미무역출판부, 1993), p.11
  2. 이두영, 남영준, 인터넷 도서관과 정보검색(전주 : 전주대학교출판사, 2003), p.48
  3. 정영미, 정보검색론(서울 : 구미무역출판부, 1993), p.52
  4. 이수상, 성공적인 개인정보관리를 위한 색인노트법(서울 : 한울, 1998), p.103
  5. 정영미, 정보검색론(서울 : 구미무역출판부, 1993), pp.290-293
  6. H. Borko and L.B. Charles, Indexing Concepts and Method(New York : Academic Press, 1978), p.113
  7. H.P. Luhn. "A Statistical Approach to Mechanized Encoding and Searching of Library Information," IBM Journal of Research and Development. Vol.1, No.4(1957), pp.309-317
  8. H.P. Luhn, "The Automatic Creation of Literature Abstracts." IBM Journal of Research and Development, Vol.2, No.2(1958), pp.159-165
  9. P.B. Baxendale, "Machine-Made Index for Technical Literature-An Experiment." IBM Journal of Research and Development. Vol.2, No.4(1958), pp.354-361
  10. 기능어는 대명사, 전치사, 관형사, 보조동사, 접속사, 조사, 그리고 일반적인 의미의 형용사나 부사 등 주제적 의미가 없는 단어를 총칭한다
  11. M.E. Maron and J.L.Kuhns, 'On Relevance, Probabilistic Indexing and Information Retrieval,' Journal of Association for Computing Machinery, Vol.7, No.3(1960), pp.216-244
  12. F.J. Damerau, "An Experiment in Automatic Indexing," American Documentation, Vol.6, No.4(1965), pp.283-289
  13. J단어빈도(TF)는 색인 대상이 되는 각 문헌 i 에 특정한 단어 k가 출현한 횟수를 말한다
  14. 문헌빈도(DF)는 특정한 단어 k가 출현한 문헌의 수를 말한다
  15. 장서빈도(CF)는 특정한 단어 k가 전체 문헌 집단 내에 출현한 총 빈도를 말한다
  16. J. Spark, "A Statistical Interpretation of Term Specificity and its Application in Retrieval." Journal of Documentation, Vol.28, No.1(1972), pp.11-20 https://doi.org/10.1108/eb026526
  17. S. P. Harter, "A Probabilistic Apporach Automatic Keyword Indexing : Part I. On the Distribution of Specialty Words in a Technical Literature." Journal of chemical Information and Computer Sciences, Vol.26, No.4(1975), pp.197-206
  18. 김민정, 한글 특성을 고려한 자동 색인기법(석사학위논문, 부산대학교 대학원 전자계산학과, 1993), p.35
  19. 신동욱, "복합명사의 통계적 처리에 대한 평가." 한글 및 한국어 정보처리 학술발표논문집 (1997, 10), pp.36-41
  20. 김판구, 조유근, "상호 정보 기반한 한국어 텍스트의 복합어 자동 생성." 한국정보과학회 논문지, 제21권, 7호(1994), pp.1333-1340
  21. 김미진 등, "효율적인 색인어 추출을 위한 합성명사 생성방안에 대한 연구." 한국정보처리학회지, 제7권, 제4호(2000, 2), pp.1123-1127
  22. 박미성, "음성데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색." 한국도서관정보학회지, 제35권, 제3호(2004, 9), pp.271-291
  23. 정영미, 정보검색론(서울 : 구미무역출판부, 1993), p.51
  24. 이수상, 성공적인 개인정보관리를 위한 색인노트법(서울 : 한울, 1998), p.105
  25. 이수상, 성공적인 개인정보관리를 위한 색인노트법(서울 : 한울, 1998), p.76-77
  26. SOLARS - SOLARS 3.0, SOLARS 4,0 SOLARS SE 버전, (주)INEK 개발 솔루션
  27. SOLARS DLi, 통합 전자도서관 솔루션, (주)INEK 개발 솔루션
  28. 예) 저자사항(dc:creater)-개인명 (dli:person)-개인명 (dli:personName) 부출표목(dli:addedEntry)-부출회의명(dli:addedEntryConference)
  29. 조수, 조순영, "분담목록시스댐을 위한 데이터 표준화II." 국립대학도서관보, 제13권(1995), pp.126-140
  30. 재현율(recall ratio)은 소장한 전체 문헌 중에서 검색된 적합 문헌의 비율을 말한다
  31. 정확률(precision ratio)은 검색된 문헌 중에서 적합 문헌의 비율을 말한다
  32. 경북대학교 도서관 웹서버의 자료 검색 일자별 로그(2004 년 12월 1일 - 2005년 1 월 31일)
  33. 경북대학교 도서관 웹 검색시스템. [cited 2005. 1 31]