The Optimization of Near Duplicate Detection Using Representative Unigram Grouping

Kwon, Young-Hyun;Yun, Do-Hyun;Ahn, Young-Min;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2012.06b
/
Pages.291-293
/
2012
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

The Optimization of Near Duplicate Detection Using Representative Unigram Grouping

대표 Unigram 군집화를 통한 유사중복문서 검출 최적화

Kwon, Young-Hyun (WiseNut Inc.) ;
Yun, Do-Hyun (WiseNut Inc.) ;
Ahn, Young-Min (WiseNut Inc.)

권영현 ((주)와이즈넛) ;
윤도현 ((주)와이즈넛) ;
안영민 ((주)와이즈넛)

Published : 2012.06.22

⟨ Previous Next ⟩

Abstract

SNS, 블로그의 이용이 늘어나면서, 문서의 복제와 재생산이 빈번하게 발생함에 따라 대용량 문서에서의 유사중복문서 검출이 큰 이슈로 제기되고 있다. 본 논문에서는 한국어 문서를 대상으로 이러한 문제를 해결하기 위해 품질을 유지하면서 신속하게 문서집합 중 유사중복문서를 검출하는 방법에 대해 제안한다. 제안하는 알고리즘에서는 문서를 대표하는 고빈도 Unigram Token을 활용하여 문서를 군집화함으로써 비교 대상을 최소화 하였다. 실험결과, 76만 문서에서 기존 방법 대비 평균 0.88의 Recall을 유지하면서도 중복을 검출하는데 있어서 십수초내에 처리가 가능함을 보였다. 향후 대용량 검색시스템 및 대용량 이미지, 동영상 유사중복 검출에도 활용할 수 있을 것으로 기대한다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

The Optimization of Near Duplicate Detection Using Representative Unigram Grouping

대표 Unigram 군집화를 통한 유사중복문서 검출 최적화

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)