초록
본 논문에서는 웹 이미지의 분류 효과를 높이기 위해 이미지 자체에서 추출된 저수준의 비주얼 특징뿐만 아니라 이미지와 관련된 텍스트 정보로부터 나온 고수준 시맨틱 특징들을 이용하는 분류 방법을 제안한다. 이 고수준의 텍스트 특징들은 이미지 URL, 파일명, 페이지 타이틀, 하이퍼링크 및 이미지 주변 텍스트로부터 얻어진다. 분류 엔진으로는 Kohonen의 SOM(Self Organizing Map)을 사용한다. 고수준의 텍스트 특징들과 저수준의 비주얼 특징들을 동시에 사용하는 SOM 기반의 이미지 분류에서는 10개의 카테고리로부터 수집된 200개의 테스트 이미지들이 사용되었다. 분류 성능을 평가하기 위해 간단하면서도 새로운 두 가지 척도, 즉 동일 카테고리 이미지들의 산포 정도와 집적 정도를 나타내는 각각의 척도를 정의하고 사용하였다. 실험결과, SOM기반의 웹 이미지 분류에서는 고수준의 텍스트 특징들이 보다 유용한 것임이 밝혀졌다.
In this paper, we propose an approach to increase the power of clustering Web images by using high-level semantic features from text information relevant to Web images as well as low-level visual features of image itself. These high-level text features can be obtained from image URLs and file names, page titles, hyperlinks, and surrounding text. As a clustering engine, self-organizing map (SOM) proposed by Kohonen is used. In the SOM-based clustering using high-level text features and low-level visual features, the 200 images from 10 categories are divided in some suitable clusters effectively. For the evaluation of clustering powers, we propose simple but novel measures indicating the degrees of scattering images from the same category, and degrees of accumulation of the same category images. From the experiment results, we find that the high-level text features are more useful in SOM-based Web image clustering.