DOI QR코드

DOI QR Code

A Method Of Compound Noun Phrase Indexing for Resolving Syntactic Diversity

구문 다양성 해소를 위한 복합명사구 색인 방법

  • Received : 2011.01.28
  • Accepted : 2011.03.16
  • Published : 2011.03.28

Abstract

Compound noun phrase (CNP) is important factor for semantic information process because the meaning of the CNP is more disambiguous than that of single word. However, the CNP can be expressed in various types even though it expresses same meaning. It is called syntactic diversity. It makes information system difficult to grasp sense identity. In order to resolve the syntactic diversity in this research, we propose an indexing method for compound noun phrase. The main purpose is to make identical index term for various types of CNPs which has same meaning. To do so, the research follows next steps. For the first, we make rule template and utilize the template to extract CNPs from set of domestic research papers. In general, the CNP has a unique meaning. Considering the characteristic, we suggest synthesis rules of index terms and apply the rule to CNPs extracted in previous step. For the objective performance evaluation of the research, a test set, HANTEC 2.0, was utilized and the result was compared to baseline model. Through the experiment and the evaluation, we have confirmed that the indexing method suggested in this paper could positively affect retrieval precision and improve performance of the information retrieval.

복합명사구는 단일어보다 명확한 의미를 갖기 때문에 의미적 정보처리에서 중요한 요소로 사용된다. 하지만 명사구의 표현형태의 다양성 때문에 같은 의미를 갖고 있다 할지라도 그 동일성을 판단하기 어렵다. 이에 본 연구에서는 이러한 구문 다양성 해소를 위해 복합명사구 색인 방법을 제안한다. 본 연구의 최종목적은 다양한 형태로 표현된 동일한 의미의 명사구를 동일한 형태의 색인어로 표현하는 것이며, 이를 위해 다음과 같은 과정을 따른다. 먼저 복합명사구 인식을 위한 규칙 템플릿을 생성하고, 국내학술논문 집합에 적용하여 복합명사구들을 추출한다. 일반적으로 복합명사구는 특정성이 크다. 이에 이를 고려한 색인어 합성규칙을 제안하고, 추출된 명사구에 적용한다. 본 연구의 성능을 객관적으로 평가하기 위해 HANTEC 2.0 테스트셋을 이용하였으며, 그 결과를 기준모델과 비교하였다. 실험과 비교를 통해 본 논문에서 제안하는 색인방법이 검색 정확률 향상에 긍정적으로 영향을 미치며, 정보검색의 성능을 향상시킬 수 있음을 확인하였다.

Keywords

References

  1. 임지희, 최호섭, 옥철영, "U-WIN 기반의 의미적 정보검색 기술", 한국콘텐츠학회, pp.547-550, 2006.
  2. 조봉현, 이창기, 안주희, 이근배, "확률적 정보 검색 모델에서의 유사 적합성 피드백 실험", 한국정보과학회언어공학연구회, pp.183-190, 2001.
  3. 최종희, 최동시, 박세영, "다중단어를 사용한 정보검색 시스템에서의 재현정확도 향상방법", 한국정보과학회 학술발표 논문집, pp.150-152, 1998.
  4. 강남규, 조민희, 권오석, "NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구", 정보관리연구, 제39권, 제3호, pp.163-177, 2008. https://doi.org/10.1633/JIM.2008.39.3.163
  5. 박찬이, 김상복, "거리 제한을 이용한 색인 시스템", 한국컴퓨터정보학회 논문지, 제11권, 제1호, pp.273-282, 2006.
  6. K. Frantzi, S. Ananiadou, and H. Mima, "Automatic Recognition of Multi-Word Terms : the C-value/NC-value Method," International Journal on Digital Libraries, Vol.3, No.2, pp.115-130, 2000. https://doi.org/10.1007/s007999900023
  7. W. Zhang, S. Liu, C. Yu, C. Sun, F. Liu ,and W. Meng, "Recognition and classification of noun phrases in queries for effective retrieval," CIKM, pp.711-720, 2006.
  8. C. Zhai, "Fast statistical parsing of noun phrases for document indexing," pp.312-319, 1997.
  9. 강승식, "한국어 복합명사 분해 알고리즘", 정보과학회논문지, 제25권, 제1호, pp.172-182, 1998.
  10. 윤보현, 김상범, 임해창, "한국어정보검색에서 구문적 용어불일치 완화방안", 제10회 한글 및 한국어 정보처리 학술대회, pp.143-149, 1998.
  11. 원형석, 박미화, 이근배, "복합명사 분할과 명사구 합성을 이용한 통합 색인 기법", 정보과학회논문지, 제27권, 제1호, pp.84-95, 2000.
  12. 양재형, 서영훈, "규칙 기반 학습에 의한 한국어의 기반 명사구 인식", 정보과학회논문지, 제27권, 제10호, pp.1062-1071, 2000.
  13. 이충희, 김현진, 장명길, "구 분할을 이용한 명사구기반 색인의 성능향상", 한국정보처리학회 추계학술발표대회 논문집, 제9권, 제2호, pp.585-588, 2002.
  14. 임해창, 윤보현, 강승식, "한국학 서지정보와 전자텍스트를 위한 자동색인 및 검색시스템 개발 연구", 한국어 전산학, 제2권, pp.279-292, 1998.
  15. 최기선, 한국어에서 복합 명사구 인식에 대한 연구, 한국전자통신연구원, 1993.
  16. 조민희, 정도헌, 홍순찬, 최성필, 최윤수, 전홍우, 정창후, 성원경, 과학기술 지식베이스 시스템의 주요기술개발 및 검증, 한국과학기술정보연구원, 2010.
  17. http://www.kristalinfo.com/download/#hantec
  18. http://www.kristalinfo.com/download/#kristal