DOI QR코드

DOI QR Code

CFG based Korean Parsing Using Sentence Patterns as Syntactic Constraint

구문 제약으로 문형을 사용하는 CFG기반의 한국어 파싱

  • 박인철 (호원대학교 컴퓨터게임학부)
  • Published : 2008.08.31

Abstract

Korean language has different structural properties which are controlled by semantic constraints of verbs. Also, most of Korean sentences are complex sentences which consisted of main clause and embedded clause. Therefore it is difficult to describe appropriate syntactic grammar or constraint for the Korean language and the Korean parsing causes various syntactic ambiguities. In this paper, we suggest how to describe CFG-based grammar using sentence patterns as syntactic constraint and solve syntactic ambiguities. To solve this, we classified 44 sentence patterns including complex sentences which have subordinate clause in Korean sentences and used it to reduce syntactic ambiguity. However, it is difficult to solve every syntactic ambiguity using the information of sentence patterns. So, we used semantic markers with semantic constraint. Semantic markers can be used to solve ambiguity by auxiliary particle or comitative case particle.

한국어는 용언이 의미적 제약을 통해 문장을 지배하며 대부분의 한국어 문장은 주절과 내포문을 가지는 복문으로 구성되어 있다. 따라서 한국어에 맞는 구문 문법이나 구문 제약을 기술하는 것은 매우 어렵고 한국어를 파싱 하면 다양한 구문 모호성이 발생한다. 본 논문에서는 구문 제약으로 문형(sentence patterns)을 사용하는 CFG기반의 문법을 기술하여 구문 모호성을 해결하는 방법을 제안한다. 이를 위해 내포문을 포함하는 복문도 문형으로 분류하였으며 44개의 문형을 사용한다. 그러나 한국어 특성상 문형 정보만으로는 모든 구문 모호성을 해결할 수가 없기 때문에 문형에 의미 제약(semantic constraint)을 가한 의미 지표(semantic marker)를 사용하여 파싱을 수행한다. 의미 지표는 보조사의 처리나 공동격 조사에 의해 발생되는 구문 모호성을 해결하는데 이용될 수 있다.

Keywords

References

  1. KIBS : Korean Information Base System, http://kibs.kaist.ac.kr/kibs
  2. Tomabechi, H., "Efficient Unification for Natural Language," Doctoral dissertation, Carnegie Mellon University, 1993.
  3. 강승식, 음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석, 서울대학교 박사학위 논문, 1993.
  4. 강은국, 조선어 문형 연구, 박이정출판사, 1996.
  5. 김창제, 정천영, 김영훈, 서영훈, “부분적인 어절 결합을이용한 효율적인 한국어 구문 분석기”, 정보과학회 가을 학술 발표논문집, pp.597-600, 1995.
  6. 양승원, 조건 단일화 기반 PATRII를 이용한 한국어 구문 분석, 전북대 박사 학위 논문, 1995.
  7. 윤덕호, 김영택, “다단계 여과 및 탐색을 이용한 의 존문법에 기반을 둔 한국어 분석 알고리즘”, 한국 정보과학회 논문지, Vol. 19, No. 6, pp. 614-624, 1992.
  8. 이희자, "현대국어 관용구의 결합 관계 고찰", 제6회 한글 및 한국어 정보처리 학술대회, pp.333-352, 1994.
  9. 장재철, 박의규, 나동렬, “구간 분할 기반 한국어 대등 접속 구문분석 기법”, 제 14회 한글 및 한국어 정보처리 학술대회, pp.139-146, 2002.
  10. 황이규, 이현영, 이용석, “형태소 및 구문 모호성 축소를 위한 구문 단위 형태소의 이용”, 한국정보과학회 논문지, Vol. 27, No. 7, pp. 784-793, 2000.