Abstract
Recommender systems through collaborative filtering has been utilized successfully in various areas by providing with convenience in searching information. Measuring similarity is critical in determining performance of these systems, because it is the criteria for the range of recommenders. This study analyzes distributions of similarity from traditional measures and investigates relations between similarities and the number of co-rated items. With this, this study suggests a method for selecting reliable recommenders by restricting similarities, which compensates for the drawbacks of previous measures. Experimental results showed that restricting similarities of neighbors by upper and lower thresholds yield superior performance than previous methods, especially when consulting fewer nearest neighbors. Maximum improvement of 0.047 for cosine similarity and that of 0.03 for Pearson was achieved. This result tells that a collaborative filtering system using Pearson or cosine similarities should not consult neighbors with very high or low similarities.
협력 필터링을 통한 추천 시스템은 정보 검색 편의성을 제공함으로써 다방면에서 성공적으로 활용되어왔다. 유사도 측정은 추천인들의 범위를 결정하는 기준이 되기 때문에 이러한 시스템의 성능을 좌우하는 결정적 요소이다. 본 연구에서는 기존의 유사도 측정 공식에서 산출되는 유사도값의 분포를 분석하고, 유사도값과 공통평가항목수와의 관계를 조사하였다. 이를 통해 발견된 문제점을 보완하기 위하여 유사도값의 제한을 통하여 신뢰할 만한 추천인들을 선정하는 방법을 제시하였다. 실험 결과, 유사도의 상한값과 하한값을 동시에 제한하는 방법이 기존보다 월등한 성능 향상을 가져왔다. 특히 적은 수의 최인접이웃을 참조했을 때 두드러졌는데, 코사인 유사도에 대해서는 최대 0.047, 피어슨에 대해서는 최대 0.03의 추천 성능 향상을 보였다. 이 결과는 피어슨과 코사인 유사도를 이용하는 협력필터링 시스템에서 매우 높거나 낮은 유사도의 이웃의 평가 등급은 참조하지 않는 것이 바람직함을 암시한다.