한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2010년도 추계학술발표대회
- /
- Pages.599-602
- /
- 2010
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
문자 해시와 이원 탐색 트리를 이용한 어절 빈도 계산 알고리즘의 성능 개선
Improvement of algorithm for calculating word count using character hash and binary search tree
- Park, Il-Nam (School of Computer Science, College of EECS, Kookmin University) ;
- Kang, Seung-Shik (School of Computer Science, College of EECS, Kookmin University)
- 발행 : 2010.11.12
초록
인터넷 검색 사이트는 사용자들이 검색한 단어들의 순위를 매기는 실시간 검색 순위 서비스를 제공하는데 검색되는 단어들의 순위를 매기기 위해서는 각 단어들의 분포도를 알 수 있는 어절 빈도 계산을 수행해야 한다. 어절 빈도는 BST(Binary Search Tree)를 수행하여 계산할 수 있는데, 사용자에 의하여 검색되는 단어들은 길이와 그 형태가 다양하여 빈도 계산시에 BST 의 깊이가 깊어져서 계산 시간이 오래 걸리게 된다. 본 논문에서는 문자 해시를 이용하여 깊이가 깊은 BST 의 탐색 속도를 개선하는 알고리즘을 제안하였다. 이 방법으로 빈도 계산 속도를 비교하였을 때 문자 해시의 범위에 의해 1KB 의 추가적인 기억공간의 사용하여 9.3%의 성능 개선 효과가 있었고, 해시 공간을 10KB 추가로 사용할 때는 24.3%, 236KB 일 때는 40.6%로의 효율로 BST 의 빈도 계산 속도를 향상 시킬 수 있었다.
키워드