DOI QR코드

DOI QR Code

An Analytic Study on the Categorization of Query through Automatic Term Classification

용어 자동분류를 사용한 검색어 범주화의 분석적 고찰

  • 이태석 (한국과학기술정보연구원 NDSL서비스실) ;
  • 정도헌 (한국과학기술정보연구원 소프트웨어연구실) ;
  • 문영수 (한국과학기술정보연구원 NDSL서비스실) ;
  • 박민수 (한국과학기술정보연구원 NDSL서비스실) ;
  • 현미환 (한국과학기술정보연구원 NDSL서비스실)
  • Received : 2011.06.24
  • Accepted : 2012.02.28
  • Published : 2012.04.30

Abstract

Queries entered in a search box are the results of users' activities to actively seek information. Therefore, search logs are important data which represent users' information needs. The purpose of this study is to examine if there is a relationship between the results of queries automatically classified and the categories of documents accessed. Search sessions were identified in 2009 NDSL(National Discovery for Science Leaders) log dataset of KISTI (Korea Institute of Science and Technology Information). Queries and items used were extracted by session. The queries were processed using an automatic classifier. The identified queries were then compared with the subject categories of items used. As a result, it was found that the average similarity was 58.8% for the automatic classification of the top 100 queries. Interestingly, this result is a numerical value lower than 76.8%, the result of search evaluated by experts. The reason for this difference explains that the terms used as queries are newly emerging as those of concern in other fields of research.

검색 창을 통해 입력된 검색어는 정보이용자가 의미 있는 자료를 찾아내는 적극적인 활동의 산물이다. 따라서 검색로그는 정보이용자의 관심사항을 알 수 있는 중요한 분석 데이터이다. 본 연구의 목적은 입력한 검색어의 범주화 결과와 엑세스한 문서의 범주가 어느 정도 유사한 상관관계를 가지는지 분석적으로 고찰해보는 것이다. KISTI(한국과학기술정보연구원)의 NDSL(과학기술정보센터) 사이트의 2009년 검색로그의 검색세션을 식별하고 검색세션단위로 검색어와 이용 자료를 추출한 후, 검색어에 대해 어떤 주제 분류에 속하는 용어인지 자동분류기로 식별한 결과가 실제 이용한 자료의 주제 분야와 잘 맞는지 비교하였다. 그 결과 상위 100개 검색어 분류에 대한 유사도 평균이 58.8%로 파악되었다. 결국 전체적인 유사도는 58.8%이하이며, 관련 연구에서 수행한 자료의 자동분류 검색성능 전문가 평가 결과인 76.8%에 비해 낮다. 이것은 검색어로 쓰인 용어가 다른 연구 분야의 관심 용어로 새롭게 주목 받고 있기 때문이라는 사실을 알 수 있었다.

Keywords

References

  1. 이수상, 위성광, "디지털 도서관 이용자의 검색행태 연구", 한국 도서관정보학회지, 제 40권 제 4호, pp.139-158, 2009.
  2. 정도헌, 유소영, 김환민, 김혜선, 김용광, 한희준, "웹 정보의 자동 의미연계를 통한 학술정보서비스의 확대 방안 연구", 정보관리 연구, 제 40권 제 1호, pp.133-156, 2009.
  3. FAST, "FAST Enterprise Search Platform 5.3 Advanced Linguistics Guide", Document Number: ESP1036, Document Revision: A, 2009.
  4. 정도헌, 최희윤, "과학기술 전문용어의 다국어 의미망 생성과 분석", 정보관리연구, 제 37권 제 4호, pp.25-47, 2007.
  5. 박소연, 이준호, "웹 검색 분야에서의 로그 분석 방법론의 활용도", 한국문헌정보학회 학술발표논문집 제 21집, pp.81-94, 2006.
  6. 박소연, 이준호, 김지승, "클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석", 한국문헌정보학회지, 제 39권 제 1호, pp.265-278, 2005. https://doi.org/10.4275/KSLIS.2005.39.1.265
  7. 이재윤, "문서측 자질선정을 이용한 고속 문서분류기의 성능향상에 관한 연구", 정보관리연구, 제 36권 제 4호, pp.51-69, 2005.
  8. 남영준, 김규환, "유사어 사전을 이용한 웹기반 질의문의 자동 범주화에 관한 연구", 정보관리연구, 제 35권 제 4호, pp.81-105, 2004.
  9. 이재윤, "연관성 척도의 빈도수준 선호경향에 대한 연구", 정보 관리학회지, 제 21권 제 4호, pp.281-294, 2004. https://doi.org/10.3743/KOSIM.2004.21.4.281
  10. 서진완, "로그화일(Log file)을 이용한 공공기관의 홈페이지 분석과 정책적 함의", 한국행정학회 춘계학술대회발표논문집, pp.501-517, 2001.
  11. Dunja Mladenic, Marko Grobelnik, "Feature Selection for Classification Based on Text Hierarchy, In Working notes of Learning from Text and the Web", Conference on Automated Learning and Discovery(CONALD'98), 1998.
  12. 서은경, "용어의 자동분류에 관한 연구", 석사학위논문, 연세대학교 대학원, 도서관학과, 1984.
  13. Gerard Salton, Michael J. McGill, "Introduction to Modern Information Retrieval", New York: Mc Graw Hill, 1983.

Cited by

  1. Understanding science and technology information users through transaction log analysis vol.31, pp.1, 2013, https://doi.org/10.1108/07378831311303976