Implementation of Search Method based on Sequence and Adjacency Relationship of User Query

So, Byung-Chul;Jung, Jin-Woo;

doi:10.5391/JKIIS.2011.21.6.724

한국지능시스템학회논문지 (Journal of the Korean Institute of Intelligent Systems)

제21권6호
/
Pages.724-729
/
2011
/
1976-9172(pISSN)
/
2288-2324(eISSN)

한국지능시스템학회 (Korean Institute of Intelligent Systems)

DOI QR Code

사용자 검색 질의 단어의 순서 및 단어간의 인접 관계에 기반한 검색 기법의 구현

Implementation of Search Method based on Sequence and Adjacency Relationship of User Query

소병철 (동국대학교 컴퓨터공학과) ;
정진우 (동국대학교 컴퓨터공학과)

투고 : 2011.11.19
심사 : 2011.12.16
발행 : 2011.12.25

https://doi.org/10.5391/JKIIS.2011.21.6.724 인용 PDF KSCI

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

정보 검색은 다수 자료에서 사용자가 원하는 부분을 찾는 과정을 의미한다. 일반적으로 대규모 자료 집합의 관리를 위해서는 데이터베이스가 사용되는데 인터넷과 같은 복잡한 문서구조들이 공존하는 환경에서는 한 번에 사용자가 원하는 문서를 정확히 찾아내는 것이 어렵기 때문에, 문서에 순위를 부여하여 사용자에게 제시하는 방법이 일반적으로 많이 사용된다. 본 논문에서는 자료에 포함되어 있는 단어들을 단순히 검색하는 것 뿐만 아니라 단어들 간의 순서 및 인접성을 고려한 검색방법을 용어빈도-역문헌빈도 및 n-gram 기법을 응용하여 구현하였다. 그 결과 19,000개 이상의 다수 문서 집합에서 73%의 정확율로 보다 정확한 검색이 가능하게 되었다.

Information retrieval is a method to search the needed data by users. Generally, when a user searches some data in the large scale data set like the internet, ranking-based search is widely used because it is not easy to find the exactly needed data at once. In this paper, we propose a novel ranking-based search method based on sequence and adjacency relationship of user query by the help of TF-IDF and n-gram. As a result, it was possible to find the needed data more accurately with 73% accuracy in more than 19,000 data set.

키워드

참고문헌

C. D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008.
S. Brin and L page, "The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proc. of 7th international conference on World Wide Web," pp. 107-117, 1998
K. S. Jones, "IDF term weighting and IR research lessons," Journal of Documentation, Vol. 28, pp.11-21, 1972. https://doi.org/10.1108/eb026526
S. Brin, "The Anatomy of a Large Scale Hypertextual Web Search Engine," International world wide web conference, pp. 107-118, 1998
김정훈, 윤태복, 이지형, "효율적인 블로그 검색을 위한 블로그-랭크 알고리즘," 한국정보과학회 2008 가을 학술발표논문집, Vol. 35, No. 2, 2008
김정훈, 윤태복, 이지형, "블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘," 정보과학회논문지. 소프트웨어 및 응용, Vol. 36, No. 7, 2009
김현주, 박소미, 박석, "확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML문서 순위화 기법," 정보과학회논문지. Journal of KIISE. 데이터베이스, Vol. 37, No. 2, pp.113-120, 2010
김용호, 김형균, 최광미, "사용자 프로파일을 이용한 문서순위 결정 방법," 한국해양정보통신학회 2005년도 추계종합학술대회, Vol. 9, No. 2, pp.615-618, 2005
김분희, 한상용, 김영찬, "웹 문서 중요도 평가를 위한 적합도 향상 HITS 알고리즘 설계," 한국전자거래학회지, Vol. 8, No. 2, pp.23-31, 2003
John Coleman, Introducing Speech and Language Processing, Cambridge University Press, 2005
Martin Porter. 2001. The Porter Stemming Algorit hm. http://www.tartarus.org/martin/PorterStemmer/ind ex.html

한국지능시스템학회논문지 (Journal of the Korean Institute of Intelligent Systems)

사용자 검색 질의 단어의 순서 및 단어간의 인접 관계에 기반한 검색 기법의 구현

Implementation of Search Method based on Sequence and Adjacency Relationship of User Query

초록

키워드

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)