DOI QR코드

DOI QR Code

A Method Of Compound Noun Phrase Indexing for Resolving Syntactic Diversity

구문 다양성 해소를 위한 복합명사구 색인 방법

  • Received : 2011.01.28
  • Accepted : 2011.03.16
  • Published : 2011.03.28

Abstract

Compound noun phrase (CNP) is important factor for semantic information process because the meaning of the CNP is more disambiguous than that of single word. However, the CNP can be expressed in various types even though it expresses same meaning. It is called syntactic diversity. It makes information system difficult to grasp sense identity. In order to resolve the syntactic diversity in this research, we propose an indexing method for compound noun phrase. The main purpose is to make identical index term for various types of CNPs which has same meaning. To do so, the research follows next steps. For the first, we make rule template and utilize the template to extract CNPs from set of domestic research papers. In general, the CNP has a unique meaning. Considering the characteristic, we suggest synthesis rules of index terms and apply the rule to CNPs extracted in previous step. For the objective performance evaluation of the research, a test set, HANTEC 2.0, was utilized and the result was compared to baseline model. Through the experiment and the evaluation, we have confirmed that the indexing method suggested in this paper could positively affect retrieval precision and improve performance of the information retrieval.

Keywords

Compound Noun Phrase;Syntactic Diversity;CNP;Information Retrieval

References

  1. 임지희, 최호섭, 옥철영, "U-WIN 기반의 의미적 정보검색 기술", 한국콘텐츠학회, pp.547-550, 2006.
  2. 조봉현, 이창기, 안주희, 이근배, "확률적 정보 검색 모델에서의 유사 적합성 피드백 실험", 한국정보과학회언어공학연구회, pp.183-190, 2001.
  3. 최종희, 최동시, 박세영, "다중단어를 사용한 정보검색 시스템에서의 재현정확도 향상방법", 한국정보과학회 학술발표 논문집, pp.150-152, 1998.
  4. 강남규, 조민희, 권오석, "NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구", 정보관리연구, 제39권, 제3호, pp.163-177, 2008. https://doi.org/10.1633/JIM.2008.39.3.163
  5. 박찬이, 김상복, "거리 제한을 이용한 색인 시스템", 한국컴퓨터정보학회 논문지, 제11권, 제1호, pp.273-282, 2006.
  6. K. Frantzi, S. Ananiadou, and H. Mima, "Automatic Recognition of Multi-Word Terms : the C-value/NC-value Method," International Journal on Digital Libraries, Vol.3, No.2, pp.115-130, 2000. https://doi.org/10.1007/s007999900023
  7. W. Zhang, S. Liu, C. Yu, C. Sun, F. Liu ,and W. Meng, "Recognition and classification of noun phrases in queries for effective retrieval," CIKM, pp.711-720, 2006.
  8. C. Zhai, "Fast statistical parsing of noun phrases for document indexing," pp.312-319, 1997.
  9. 강승식, "한국어 복합명사 분해 알고리즘", 정보과학회논문지, 제25권, 제1호, pp.172-182, 1998.
  10. 윤보현, 김상범, 임해창, "한국어정보검색에서 구문적 용어불일치 완화방안", 제10회 한글 및 한국어 정보처리 학술대회, pp.143-149, 1998.
  11. 원형석, 박미화, 이근배, "복합명사 분할과 명사구 합성을 이용한 통합 색인 기법", 정보과학회논문지, 제27권, 제1호, pp.84-95, 2000.
  12. 양재형, 서영훈, "규칙 기반 학습에 의한 한국어의 기반 명사구 인식", 정보과학회논문지, 제27권, 제10호, pp.1062-1071, 2000.
  13. 이충희, 김현진, 장명길, "구 분할을 이용한 명사구기반 색인의 성능향상", 한국정보처리학회 추계학술발표대회 논문집, 제9권, 제2호, pp.585-588, 2002.
  14. 임해창, 윤보현, 강승식, "한국학 서지정보와 전자텍스트를 위한 자동색인 및 검색시스템 개발 연구", 한국어 전산학, 제2권, pp.279-292, 1998.
  15. 최기선, 한국어에서 복합 명사구 인식에 대한 연구, 한국전자통신연구원, 1993.
  16. 조민희, 정도헌, 홍순찬, 최성필, 최윤수, 전홍우, 정창후, 성원경, 과학기술 지식베이스 시스템의 주요기술개발 및 검증, 한국과학기술정보연구원, 2010.
  17. http://www.kristalinfo.com/download/#hantec
  18. http://www.kristalinfo.com/download/#kristal