• 제목/요약/키워드: 부분 구문분석

검색결과 94건 처리시간 0.026초

규칙에 기반한 한국어 부분 구문분석기의 구현 (Implementing Korean Partial Parser based on Rules)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 본 논문에서는 문법검사기나 기계번역과 같은 실제 응용 시스템을 위한 한국어 부분 구문분석의 처리 대상을 정의하고, 규칙에 기반한 한국어 부분 구문분석기의 구현에 대해서 논의한다. 부분 구문분석기는 기본적으로 여러 개의 형태소나 단어가 구문적으로 하나의 구조에 속한 경우 이를 하나의 덩어리로 묶어주는 역할을 수행하며, 동시에 부가적인 작업을 수행할 수 있다. 또한 부분 구문분석기는 다양한 형태로 표현된 부분 구조를 표준 형태소 구조로 바꾸어 줌으로써, 상위 모듈의 처리에서 그 결과를 용이하게 사용할 수 있도록 한다. 본 논문에서는 한국어 부분 구문분석을 위해서 수동으로 작성된 140여 개의 규칙을 이용하였으며, 각 규칙은 일반적인 규칙과 마찬가지로 조건부와 행위부로 구성되었다. 부분 구문분석의 효율성을 관찰하기 위해서 일반적인 구문분석과 부분 구문분석을 포함한 구문분석을 비교하였다. 실험을 통해서 전자가 후자에 비해 약 두 배의 레코드 수가 요구됨을 알 수 있었다.

2단계 구문분석을 이용한 구문분석 말뭉치 구축도구 (Tree Tagging Tool using Two-phrase Parsing)

  • 김혜겸;박경미;윤여찬;임해창;박소영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.151-158
    • /
    • 2005
  • 본 논문에서는 2단계 구문분석을 통한 구문분석 말뭉치 구축도구를 제안한다. 제안하는 방법은 대량의 구문분석 말뭉치를 수동으로 구축할 때 요구되는 작성자의 수작업을 줄이는 것을 목적으로 한다. 도구는 입력 문장을 문장 분할기준에 따라 분할하는 문장 분할 단계, 각 부분에 대해 자동 구문분석을 수행하는 부분 구문구조 생성 단계, 각 부분 구문구조를 통합하여 완전한 구문구조를 얻는 부분 통합 단계로 이루어져 있다. 자동 구문분석은 자질기반 한국어 구문분석모델을 이용하였고 문장을 부분으로 분할할 때는 문장 분할기준을 말뭉치에서 자동추출 하고 간단한 검증을 거쳐 적용하는 방법을 택하였다. 구문분석 말뭉치 구축의 각 단계에서 자동 구문 분석기가 출력한 결과를 작성자가 취소, 재구축 가능하게 하였다.

  • PDF

시간 표현에 대한 부분 문법 기술 및 FST를 이용한 시간 구문 분석 (Representation of Local Grammar for Temporal Expression and Analysis of Temporal Phrase with FST)

  • 김윤관;윤준태;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-236
    • /
    • 1999
  • 시간표현은 문장에서 다른 명사와 결합하여 복합어를 이루는 경우가 있고, 용언과 결합하여 시간 부사의 역할을 하는 경우가 있는데, 이는 구문 분석에 있어서 중의적 해석이 두드러지며, 그 결과 구문 분석의 오류를 빈번히 야기하기도 한다. 본 논문에서는 이러한 시간 관계의 표현을 대량의 말뭉치로부터 획득하고 이들을 부분문법(local grammar)으로 표현한 후, 이것을 FST(Finite State Transducer)를 이용하여 부분 구문분석을 하고자 한다. 이를 위해 5천만 어절의 말뭉치에서 259개의 시간 단어를 추출하였고, 시간 단어들의 의미적 또는 기능적 사용에 의해서 26개의 어휘 범주로 분류하고 각 범주들의 결합관계를 일반화하였다. 실험을 통하여 인식을 위한 시간표현의 결합관계는 최고 97.2%의 정확률을 보였고, 품사태깅에 있어서는 평균 96.8%의 정확률을 보였다. 이는 시간 표현의 결합관계가 부분 구문분석에 있어서 유용한 정보임을 보여준다.

  • PDF

Connectionism을 이용한 부분 구문 인식기의 구현 (An Implementation of Syntactic Constituent Recognizer Using Connectionism)

  • 정한민;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-483
    • /
    • 1996
  • 본 논문은 구운 분석의 검색 영역 축소를 통한 구문 분석기의 성능 향상을 목적으로 connectionism을 이용한 부분 구문 인식기의 설계와 구현을 기술한다. 본 부분 구문 인식기는 형태소 분석된 문장으로부터 명사-주어부와 술어부를 인식함으로써 전체 검색 영역을 여러 부분으로 나누어 구문 분석문제를 축소시키는 것을 목적으로 하고 있다. Connectionist 모델은 입력층과 출력층으로 구성된 개선된 퍼셉트론 구조이며, 입/출력층 사이의 노드들을, 입력층 사이의 노드들을 연결하는 연결 강도(weight)가 존재한다. 명사-주어부 및 술어부 구문 태그를 connectionist 모델에 적용하며, 학습 알고리즘으로는 개선된 백프로퍼게이션 학습 알고리즘을 사용한다. 부분 구문 인식 실험은 112개 문장의 학습 코퍼스와 46개 문장의 실험 코퍼스에 대하여 85.7%와 80.4%의 정확한 명사-주어부 및 술어부 인식을, 94.6%와 95.7%의 명사-주어부와 술어부 사이의 올바른 경계 인식을 보여준다.

  • PDF

한국어의 주격 중출 구문 (The Construction of Multiful Nominatives in Korean)

  • 이운영;이정민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.319-324
    • /
    • 1995
  • 한국어에는 주격 표지를 가진 명사가 두 번 이상 나타나는 구문이 자주 나타난다. 이러한 구문을 주격 중출 구문이라고 한다. 주격 중출 구문은 크게 부분-전체 구문, 양화사 유동 구문, 그리고 심리 술어 구문으로 나누어진다. 본고에서는 부분-전체 구문과 양화사 유동 구문은 함수-논항 관계를 이용하여 분석하고, 심리 술어 구문은 의미역할과 자리 이동으로 설명한다. 이러한 것은 의미적 측면과 통사적 측면을 함께 고려한 것으로 좀 더 일관성 있는 설명을 위한 접근이라 하겠다.

  • PDF

한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현 (Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation)

  • 박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

구문 분석을 위한 한국어 말덩이 정의 (Defining Chunks for Parsing in Korean)

  • 남궁영;김창현;천민아;박호민;윤호;최민석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.409-412
    • /
    • 2018
  • 한국어는 문장 구성 요소들 간의 이동 및 생략이 자유롭다는 언어적 특성 때문에 구문 분석을 할 때 중의성이 증가한다. 뿐만 아니라 형태소 분석 단계에서 고도로 세분화된 분석 결과로 인해 한국어 구문 분석에 어려움을 더하고 있다. 이러한 문제점을 완화하기 위한 한 방안으로 형태소 분석과 구문 분석의 중간 단계에서 같은 역할을 수행하는 형태소들을 묶어 하나의 의미를 가진 부분적인 구문 요소(말덩이)를 형성하는 방법이 있다. 본 논문에서는 이러한 말덩이들에 대해 구체적인 정의를 내리고 그 단위 및 표지를 제시하여 향후 부분 구문 분석의 연구 및 수행에 활용될 수 있는 기준을 제시한다.

  • PDF

규칙 기반 영한 기계번역에서의 구문 규칙 컴파일러 (Syntactic Rule Compiler in Rule-based English-Korean Machine Translation)

  • 김성동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1315-1317
    • /
    • 2013
  • 규칙 기반의 영한 기계번역 시스템의 구문 분석 시스템은 영어의 구문 구조를 기술하는 규칙 부분과 규칙을 적용하여 차트 파싱을 수행하는 실행 부분으로 구성된다. 구문 규칙은 문맥 자유 문법의 형식으로 기술되는데, 기술된 구문 규칙을 적용하여 파싱을 실행하는 실행 부분은 C 언어 함수로 표현되므로, 구문 규칙을 C 언어 함수로 변환해야 한다. 본 논문에서는 문맥 자유 문법 형식으로 기술된 구문 규칙을 C 언어 함수로 변환하는 도구인 구문 규칙 컴파일러를 개발하였다. 구문 규칙 컴파일러는 자동적으로 구문 규칙을 C 언어 함수로 변환함으로써 영한 기계번역 시스템의 성능 개선 과정에서 빈번하게 발생하는 구문 규칙의 생성과 수정을 용이하게 하여 번역 성능을 개선하는 작업을 지원한다.

영한 기계번역에서 구문 분석 정확성 향상을 위한 구문 범주 예측 (Syntactic Category Prediction for Improving Parsing Accuracy in English-Korean Machine Translation)

  • 김성동
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.345-352
    • /
    • 2006
  • 실용적인 영한 기계번역 시스템은 긴 문장을 빠르고 정확하게 번역할 수 있어야 한다. 보다 빠른 번역을 위해 문장 분할을 이용한 부분 파싱 방법이 제안되어 속도 향상에 기여하였다. 본 논문에서는 보다 정확한 분석을 위해 결정 트리를 이용한 구문 범주 예측 방법을 제안한다. 문장 분할을 적용한 영어 분석에서 각각의 분할된 부분은 개별적으로 분석되며 각 분석 결과들이 결합되어 문장의 구조가 생성된다. 여기서 각 분할의 구문 범주를 미리 예측하여 부분 파싱 후에 보다 정확한 분석 결과를 선정하고 예측된 구문 범주에 근거하여 올바르게 다른 문장의 분할결과와 결합함으로써 문장 분석의 정확도를 향상시키는 것이 본 논문에서 제안한 방법의 목적이다. 본 논문에서는 Wall Street Journal의 파싱된 말뭉치에서 구문 범주 예측에 필요한 특성을 추출하고 결정 트리를 이용하여 구문 범주 예측을 위한 결정 트리를 생성하였다. 실험에서는 사람이 구축한 규칙을 이용한 방법, trigram 확률을 이용한 방법, 신경망을 이용한 방법 등에 의한 구문 범주 예측 성능을 측정, 비교하였으며 제안된 구문 범주 예측이 번역의 품질 향상에 기여한 정도를 제시하였다.

개념 및 구문 정보를 이용한 한국어 대화체 분석시스템 (Korean Spoken Language Analysis System Using Concept and Syntactic Information)

  • 왕지현;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-346
    • /
    • 1997
  • 개념기반 분석방법은 발화문에서 발화자가 전달하고자 하는 중요한 부분만을 추출하여 개념어로 대표하여 분석하기 때문에 문장에서 발생하는 불필요한 여러 언어현상을 무시하고 주요 의미만 추출할 수 있는 강건함을 가장 큰 장점으로 갖는다. 한국어는 영어권 언어와는 달리 교착어와 부분 자유 어순의 특징을 가지기 때문에 구문정보를 이용하지 않는 순수 개념 기반의 분석기법을 한국어에 그대로 적용하면 문법의 복잡도가 증가하여 시스템 성능이 크게 저하된다. 본 논문에서 제시하는 구문정보를 이용한 개념기반의 분석방법은 순수 개념 기반의 분석기법이나 구문정보만을 사용하는 방법보다 모호성이 적고, 문법의 기술이 용이하며, 대화체 처리의 어려운 점들을 상당수 극복할 수 있다. 또한 분석루틴의 skip기능은 자연 발화문의 분석률을 높여주며, 어근으로부터 분리한 어미를 일정한 개념으로 분류함으로써 교착어의 특성으로 인한 문법의 복잡도를 해소하였고, 분석문법으로 부분 자유 어순에 따른 다양한 문장들을 수용할 수 있다.

  • PDF