Using Syntactic Unit of Morpheme for Reducing Morphological and Syntactic Ambiguity

형태소 및 구문 모호성 축소를 위한 구문단위 형태소의 이용

  • 황이규 (전북대학교 컴퓨터과학과) ;
  • 이현영 (전북대학교 컴퓨터과학과) ;
  • 이용석 (전북대학교 컴퓨터과학과)
  • Published : 2000.07.15

Abstract

The conventional morphological analysis of Korean language presents various morphological ambiguities because of its agglutinative nature. These ambiguities cause syntactic ambiguities and they make it difficult to select the correct parse tree. This problem is mainly related to the auxiliary predicate or bound noun in Korean. They have a strong relationship with the surrounding morphemes which are mostly functional morphemes that cannot stand alone. The combined morphemes have a syntactic or semantic role in the sentence. We extracted these morphemes from 0.2 million tagged words and classified these morphemes into three types. We call these morphemes a syntactic morpheme and regard them as an input unit of the syntactic analysis. This paper presents the syntactic morpheme is an efficient method for solving the following problems: 1) reduction of morphological ambiguities, 2) elimination of unnecessary partial parse trees during the parsing, and 3) reduction of syntactic ambiguity. Finally, the experimental results show that the syntactic morpheme is an essential unit for reducing morphological and syntactic ambiguity.

기존의 한국어 형태소 해석은 한국어의 교착어 특성상 다양한 형태론적 모호성을 가진다. 이러한 형태론적 모호성은 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스트리의 선택을 어렵게 한다. 한국어에서 이런 형태론적 모호성의 대부분이 보조용언이나 의존 명사와 관련이 있다. 보조용언이나 의존명사는 주위의 형태소들과 강한 결합 관계를 가지고 있으며, 대부분 자립성이 없는 기능형태소이다. 결합된 형태소들은 문장 내에서 하나의 기능적 역할이나 구문적 역할을 수행한다. 우리는 품사 태깅된 20 만 어절 크기의 말뭉치로부터 이 형태소열을 찾아 이를 3가지 유형으로 분류하였다. 그리고, 이를 구문 형태소로 정의하고 구문 형태소를 구문 분석의 기본 입력 단위로 간주하였다. 본 논문에서는 구문 형태소가 아래와 같은 문제의 해결에 있어서 효율적인 방법임을 제안한다: 1) 형태소 해석의 축소, 2) 구문 해석 도중 불필요한 부분 파스트리의 배제, 3) 구문 모호성의 축소. 마지막으로, 실험 결과를 통해 구문단위 형태소가 형태소 및 구문 모호성을 축소하기 위해 반드시 필요함을 보인다.

Keywords

References

  1. Eugene Charniak, Curtis Hendrickson, Neil Jacobson, Mike Perkowitz, 'Equations for Part-Of- Speech Tagging,' Proc. of the 11th National Conference on Artificial Intelligence (AAAI), pp.784-789, 1993
  2. 임희석, 언어 지식과 통계 정보를 이용한 한국어 품사 태깅 모델, 고려대학교 대학원 컴퓨터학과 박사학위논문, 1997
  3. 고영근, 국어 형태론 연구, 서울대학교 출판부, 1989
  4. KIBS : Korean Information Base System, http://kibs.kaist.ac.kr/
  5. 이희자, '현대 국어 관용구의 결합 관계 고찰', 제6회 한글 및 한국어 정보처리 학술대회, p.333-352, 1994
  6. 강승식, 음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석, 서울대학교 대학원 컴퓨터공학과 박사학위 논문, 1993
  7. 김창제, 정천영, 김영훈, 서영훈, '부분적인 어절 결합을 이용한 효율적인 한국어 구문 분석기', 제22회 정보과학회 가을 학술발표 논문집, pp. 597-600, 1995
  8. 박상규, 정창민, 조준모, 이상조, '최장 묶음을 이용한효과적인 한국어 구문분석기', 제22회 정보과학회 춘계 학술발표 논문집, Vol. 21, No. 1, pp. 961-964,1995
  9. 안미정, 옥철영, '한국어 구문 구조 분석을 위한 복수동사 처리', 제21회 정보과학회 추계 학술발표 논문집, Vol. 21, No. 2, pp. 625-628, 1994
  10. 송연정, 배우정, 이기오, 이용석, '형태소 분석의 자질구조 생성에 관한 연구', 제21회 정보과학회 춘계 학술발표 논문집, pp. 817-820, 1994
  11. 박혜준, 윤준태, 송만석, '말뭉치 품사 꼬리달기 시스템', 제21회 정보과학회 춘계 학술발표 논문집, pp. 829-832, 1994
  12. 김재훈, 오류-보정 기법을 이용한 어휘 모호성 해소, 한국과학기술원 전산학과 대학원 박사학위 논문, 1996
  13. K. J. Lee, J. H. Kim, G. Ch. Kim, 'Probabilistic Language Model for Analyzing Korean Sentences,' Proceedings of the 17th International Conference on Computer Processing of Oriental Languages (ICCPOL'97), HongKong, pp. 392-395, 1997
  14. 이공주, 언어 특성에 기반한 한국어의 확률적 구문분석, 한국과학기술원 전산학과 대학원 박사학위 논문, 1998
  15. G. O. Lee, et al., 'Multi-Path LR Parsing for Nonsegmental Words Using Interactive Strategy,' The 3rd Pacific Rim International Conference on AI, Vol. 2, pp. 668-672, 1994
  16. Bresnan, J.(Ed.), The Mental Representation of Grammatical Relations, Cambridge Mass.: MIT Press, 1982
  17. 양승원, 박영진, 이용석, '조건 단일화 기반 PATRII를 이용한 한국어 구문분석', 한국정보과학회 논문지, 제 22권, 4호, pp. 653-662, 1995