Phonetic Similarity Meausre for the Korean Transliterations of Foreign Words

외국어 음차 표기의 음성적 유사도 비교 알고리즘

  • Gang, Byeong-Ju (Dept. of Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Lee, Jae-Seong (Electronics and Telecommunications Research Institute) ;
  • Choe, Gi-Seon (Dept. of Computer Science, Korea Advanced Institute of Science and Technology)
  • Published : 1999.10.01

Abstract

최근 모든 분야에서 외국과의 교류가 증대됨에 따라서 한국어 문서에는 점점 더 많은 외국어 음차 표기가 사용되는 경향이 있다. 하지만 같은 외국어에 대한 음차 표기에 개인차가 심하여 이들 음차 표기를 포함한 문서들에 대한 검색을 어렵게 만드는 원인이 되고 있다. 한 가지 해결 방법은 색인 시에 같은 외국어에서 온 음차 표기들을 등가부류로 묶어서 색인해 놓았다가 질의 시에 확장하는 방법이다. 본 논문에서는 외국어 음차 표기들의 등가부류를 만드는데 필요한 음차 표기의 음성적 유사도 비교 알고리즘인 Kodex를 제안한다. Kodex 방법은 기존의 스트링 비교 방법인 비음성적 방법에 비해 음차 표기들을 등가부류로 클러스터링하는데 있어 더 나은 성능을 보이면서도, 계산이 간단하여 훨씬 효율적으로 구현될 수 있는 장점이 있다.Abstract With the advent of digital communication technologies, as Koreans communicate with foreigners more frequently, more foreign word transliterations are being used in Korean documents more than ever before. The transliterations of foreign words are very various among individuals. This makes text retrieval tasks about these documents very difficult. In this paper we propose a new method, called Kodex, of measuring the phonetic similarity among foreign word transliterations. Kodex can be used to generate the equivalence classes of the transliterations while indexing and conflate the equivalent transliterations at the querying stage. We show that Kodex gives higher precision at the similar recall level and is more efficient in computation than non-phonetic methods based on string similarity measure.

Keywords

References

  1. Computer Processing of Oriental Languages v.12 no.1 English to Korean statistical transliteration for information retrieval Lee, J. S.;Choi, K.
  2. 제1차년도 최종보고서 지능형 정보처리기의 개발에 관한 연구 SERI/KIST
  3. Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages(IRAL '97) The Effect of a Proper Handling of Foreign and English Words in Retrieving Korean Text Jeong, K. S.;Kwon, Y. H.;Myaeng, S. H.
  4. Computing Surveys v.12 no.4 Approximate string matching Hall, P.;Dowling, G.
  5. Program v.22 no.3 Fishing fore werds'. Phonetic retrieval of written text in information retrieval systems Gadd, T.
  6. Program v.24 no.4 PHONIX: The algorithm Gadd, T.
  7. Information Processing & Management v.17 no.6 The use of trigram analysis for spelling error detection Zamora, E.;Pollock, J.;Zamora, A.
  8. Information Processing & Management v.19 no.4 Automatic spelling correction using a trigram similarity measure Angell, R.;Freund, G.;Willet, P.
  9. Communications of the ACM v.27 no.4 Automatic spelling correction in scientific and scholarly text Pollock, J.;Zamora, A.
  10. Automatic text processing: The transformation, analysis and retrieval of information by computer Salton, G.
  11. Communications of the ACM v.7 A technique for computer detection and correction of spelling errors Damerau, F.
  12. Information Processing and Management v.32 no.6 Retrieval effectiveness of proper name search methods Pfeifer, U.;Poersch, T.;Fuhr, N.
  13. Communications of the ACM v.17 no.5 Order-n correction for regular language4 Wagner, R. A.
  14. 1996년도 한국정보과학회 인공지능 연구회 춘계학술 대회 한국어 정보검색을 위한 시험용 데이타 모음 2.0개발 박영찬;최기선;김재군;김영환
  15. 다국어 정보검색을 위한 영·한 음차 표기 및 복원 모델 이재성
  16. Proceedings of the 17th International Conference on Computer Processing of Oriental Languages Foreign word identification using a statistical method for information retrieval Kwon, Y. H.;Jeong, K. S.;Myaeng, S. H.
  17. Introduction to Modern Information Retrieval Salton, G.;McGill, M. J.
  18. Journal of the American Society for Information Science v.19 Expected search length: A single measure for retrieval effectiveness on weak ordering action of retrieval systems Cooper, W. S.