DOI QR코드

DOI QR Code

CFG based Korean Parsing Using Sentence Patterns as Syntactic Constraint

구문 제약으로 문형을 사용하는 CFG기반의 한국어 파싱

  • 박인철 (호원대학교 컴퓨터게임학부)
  • Published : 2008.08.31

Abstract

Korean language has different structural properties which are controlled by semantic constraints of verbs. Also, most of Korean sentences are complex sentences which consisted of main clause and embedded clause. Therefore it is difficult to describe appropriate syntactic grammar or constraint for the Korean language and the Korean parsing causes various syntactic ambiguities. In this paper, we suggest how to describe CFG-based grammar using sentence patterns as syntactic constraint and solve syntactic ambiguities. To solve this, we classified 44 sentence patterns including complex sentences which have subordinate clause in Korean sentences and used it to reduce syntactic ambiguity. However, it is difficult to solve every syntactic ambiguity using the information of sentence patterns. So, we used semantic markers with semantic constraint. Semantic markers can be used to solve ambiguity by auxiliary particle or comitative case particle.

Keywords

CFG based grammar;PATRII;Sentence patterns;Syntactic ambiguity

References

  1. KIBS : Korean Information Base System, http://kibs.kaist.ac.kr/kibs
  2. Tomabechi, H., "Efficient Unification for Natural Language," Doctoral dissertation, Carnegie Mellon University, 1993.
  3. 강승식, 음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석, 서울대학교 박사학위 논문, 1993.
  4. 강은국, 조선어 문형 연구, 박이정출판사, 1996.
  5. 김창제, 정천영, 김영훈, 서영훈, “부분적인 어절 결합을이용한 효율적인 한국어 구문 분석기”, 정보과학회 가을 학술 발표논문집, pp.597-600, 1995.
  6. 양승원, 조건 단일화 기반 PATRII를 이용한 한국어 구문 분석, 전북대 박사 학위 논문, 1995.
  7. 윤덕호, 김영택, “다단계 여과 및 탐색을 이용한 의 존문법에 기반을 둔 한국어 분석 알고리즘”, 한국 정보과학회 논문지, Vol. 19, No. 6, pp. 614-624, 1992.
  8. 이희자, "현대국어 관용구의 결합 관계 고찰", 제6회 한글 및 한국어 정보처리 학술대회, pp.333-352, 1994.
  9. 장재철, 박의규, 나동렬, “구간 분할 기반 한국어 대등 접속 구문분석 기법”, 제 14회 한글 및 한국어 정보처리 학술대회, pp.139-146, 2002.
  10. 황이규, 이현영, 이용석, “형태소 및 구문 모호성 축소를 위한 구문 단위 형태소의 이용”, 한국정보과학회 논문지, Vol. 27, No. 7, pp. 784-793, 2000.