Automatic Construction of Alternative Word Candidates to Improve Patent Information Search Quality

특허 정보 검색 품질 향상을 위한 대체어 후보 자동 생성 방법

  • Published : 2009.10.15

Abstract

There are many reasons that fail to get appropriate information in information retrieval. Allomorph is one of the reasons for search failure due to keyword mismatch. This research proposes a method to construct alternative word candidates automatically in order to minimize search failure due to keyword mismatch. Assuming that two words have similar meaning if they have similar co-occurrence words, the proposed method uses the concept of concentration, association word set, cosine similarity between association word sets and a filtering technique using confidence. Performance of the proposed method is evaluated using a manually extracted alternative list. Evaluation results show that the proposed method outperforms the context window overlapping in precision and recall.

정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서도 표기의 다양성은 검색 시 불일치로 인한 정보 누락을 발생시키는 원인이 된다. 본 논문은 이러한 불일치에 의한 정보 누락을 최소화하기 위하여 검색 대체어 후보를 자동 생성하는 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 자동 생성 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 기반으로 하여 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어 뭉치, 연관단어 뭉치 간 코사인 유사도 및 신뢰도를 이용한 필터링 기법 등을 이용한 대체어 후보 자동 생성 방법을 제안한다. 본 연구에서 제안한 대체어 후보 자동 생성 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 정확도 및 재현율을 측정함으로써 평가되었으며, 제안 방법이 context window overlapping을 이용한 대체어 추출 방법보다 더 우수한 것으로 나타났다.

Keywords

References

  1. 장백국제특허법률사무소, '선행기술 검색안내', http://www.k8.co.kr/htm/8-2_1.htm/
  2. 박용준, '특허정보 검색방법', (주)아이피풀, 2005
  3. Pierre P. Senellart and Vincent D. Blondel, 'Automatic discovery of similar words,' in Survey of Text Mining, Springer, 2003
  4. Hsinchun Chen and Kevin J. Lynch, 'Automatic construction of networks of concepts characterizing document databases,' IEEE Transactions on Systems, Man and Cybernetics, vol.22(5), pp.885-902, 1992 https://doi.org/10.1109/21.179830
  5. Magnus Sahlgren, 'The Word-Space Model,' Ph.D. Dissertation, Stockholm University, Stockholm, Sweden, 2006
  6. Patrick Pantel and Dekang Lin, Discovering word senses from text. In Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pp.613-619, Edmonton, Canada, 2002 https://doi.org/10.1145/775047.775138
  7. P. D. Turney, Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. In Proceedings of the Twelfth European Conference on Machine Learning, 2001
  8. Islam, A. and Inkpen, D., 'Second Order Cooccurrence PMI for Determining the Semantic Similarity of Words,' In Proceedings of the International Conference on Language Resources and Evaluation, Genoa, Italy, 2006
  9. Ruiz-Casado, M. and Alfonseca, E. and Castells, P., 'Using context-window overlapping in synonym discovery and ontology extension,' In Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP-2005, 2005
  10. 이성진, '키워드 샾에서의 상품 추천을 위한 연관 키워드 그룹 추출 기법', M.S. Thesis, Soongsil University, Seoul, Korea 2003
  11. J. Baik and S. Kim and S. Lee, 'Extracting Alternative Word Candidates for Patent Information Search,' Journal of KIISE : Computing Practices and Letters, vol.15, no.4, pp.299-303, Apr. 2009. (in Korean)