• 제목/요약/키워드: 의존 문법

검색결과 88건 처리시간 0.023초

어절 내부 의존관계를 고려한 확률 의존 문법 학습 (Probabilistic Dependency Grammar Induction using Internal Dependency Relation in Words)

  • 최선화;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.507-510
    • /
    • 2001
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 특히 의존 문법 생성을 위해 확률 재추정 알고리즘을 의존문법생성에 맞도록 변형하여 학습하였으며 정확한 문법 생성 및 회귀데이터(Data Sparseness)문제 해결을 위해서 구성요소의 대표 지배소들 간의 의존관계 만을 학습했던 기존 연구와는 달리 구성요소 내부의 의존관계까지 학습하는 방법을 제안한다. KAIST 의 트리 부착 코퍼스 31,086 문장에서 추출한 25,000 문장의 Tagged Corpus 을 가지고 한국어 확률 의존 문법 학습을 시도 하였다. 그 결과 초기문법을 10.97% 에서 23.73% 까지 줄인 2,349 개의 정확한 문법을 얻을 수 있었다. 문법의 정확성을 실험 하기 위해 350 개의 실험문장을 Parsing 한 결과 69.61%의 파싱 정확도를 보였다. 이로서 구성요소 내부의 의존관계 학습으로 얻어진 의존문법이 더 정확했으며, 회귀데이터 문제 또한 극복할 수 있음을 알 수 있었다.

  • PDF

한국어 확률 의존문법 학습 (Probabilistic Dependency Grammar Induction)

  • 최선화;박혁로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.513-515
    • /
    • 2003
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 의존문법 생성을 위해 구성성분의 기능어들 간의 의존관계를 학습했던 기존 연구와는 달리. 한국어 구성성분은 내용어와 기능어의 결함 형태로 구성되고 임의 구성성룬 기능어와 임의 구성성분 내용어간의 의존관계가 의미가 있다는 사실을 반영한 의존문법 학습방법을 제안한다. KAIST의 트리 부착 코퍼스 31,086문장에서 추출한 30,600문장의 Tagged Corpus을 가지고 학습한 결과 초기문법을 64%까지 줄인 1.101 개의 의존문법을 획득했고. 실험문장 486문장을 Parsing한 결과 73.81%의 Parsing 정확도를 보였다.

  • PDF

단어간 의존관계에 기반한 언어모델링 (Language Modeling based on Inter-Word Dependency Relation)

  • 이승미;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-246
    • /
    • 1998
  • 확률적 언어모델링은 일련의 단어열에 문장확률값을 적용하는 기법으로서 음성인식, 확률적 기계번역 등의 많은 자연언어처리 응용시스템의 중요한 한 요소이다. 기존의 접근방식으로는 크게 n-gram 기반, 문법 기반의 두가지가 있다. 일반적으로 n-gram 방식은 원거리 의존관계를 잘 표현 할 수 없으며 문법 기반 방식은 광범위한 커버리지의 문법을 습득하는데에 어려움을 가지고 있다. 본 논문에서는 일종의 단순한 의존문법을 기반으로 하는 언어모델링 기법을 제시한다. 의존문법은 단어와 단어 사이의 지배-피지배 관계로 구성되며 본 논문에서 소개되는 의존문법 재추정 알고리즘을 이용하여 원시 코퍼스로부터 자동적으로 학습된다. 실험 결과, 제시된 의존관계기반 모델이 tri-gram, bi-gram 모델보다 실험코퍼스에 대해서 약 11%에서 11.5%의 엔트로피 감소를 보임으로써 성능의 개선이 있었다.

  • PDF

단위(Chunks) 분석과 의존문법에 기반한 한국어 구문분석 (Dependency Parsing by Chunks)

  • 김미영;강신재;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.327-329
    • /
    • 2000
  • 기존의 구문분석 방법은 구구조문법과 의존문법에 기반한 것이 대부분이다. 이러한 구문분석은 다양한 분석 결과들이 분석되는 동안 많은 시간이 소요되며, 잘못된 분석 결과를 찾아 내어 삭제하기(pruning)도 어렵다. 본 논문은 구문분석에 필요한 의존문법을 적용하기 이전에, 단위화(Chunking) 방법을 사용하는 것을 제안한다. 이렇게 함으로써, 의존문법에 적용하는 차트의 수를 줄이게 되고, 의존관계의 설정 범위(scope)도 제한을 가할 수 있으며, 구문분석 속도 또한 빨라지게 된다.

  • PDF

형태소 단위의 한국어 확률 의존문법 학습 (Korean Probabilistic Dependency Grammar Induction by morpheme)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.791-798
    • /
    • 2002
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 한국어의 부분 자유 어순성질과 문장의 필수적 성분의 생략과 같은 특성으로 인하여 한국어 구문분석에 관한 연구들에서는 주로 의존문법을 선호하고 있다. 본 논문에서는 기존의 어절단위학습방법에서는 학습할 수 없었던 어절 내의 의존관계를 학습할 수 있는 형태소 단위의 학습 방법을 제안한다. KAIST의 트리 부착 코퍼스 약 3만 문장에서 추출한 25,000문장의Tagged Corpus을 가지고 한국어 확률 의존문법 학습을 시도하였다. 그 결과 초기문법 2,349개의 정확한 문법을 얻을 수 있었으며, 문법의 정확성을 실험하기 위해 350개의 실험문장을 parsing한 결과 69.77%의 파싱 정확도를 보였다. 이로서 한국어 어절 특성을 고려한 형태소 단위 학습으로 얻어진 의존문법이 어절 단위 학습으로 얻어진 문법보다 더 정확하다는 사실을 알 수 있었다.

내부 및 외부 확률을 이용한 의존문법의 비통제 학습 (An unsupervised learning of dependency grammar Using inside-outside probability)

  • 장두성;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.133-137
    • /
    • 2000
  • 구문태그가 부착되지 않은 코퍼스를 사용하여 문법규칙의 확률을 훈련하는 비통제 학습(unsupervised learning) 방법의 대표적인 것이 CNF(Chomsky Normal Form)의 CFG(Context Free Grammar)를 입력으로 하는 inside-outside 알고리즘이다. 본 연구에서는 의존문법을 CNF로 변환하는 기법에 대해 논하고 의존문법을 위해 변형된 inside-outside 알고리즘을 논한다. 또한 이 알고리즘을 사용하여 실제 훈련한 결과를 보이고, 의존규칙과 구문구조 확률을 같이 사용하는 hybrid방식 구문분석기에 적용한 결과를 보인다.

  • PDF

문법관계 정보를 이용한 단계적 한국어 구문 분석 (Cascaded Parsing Korean Sentences Using Grammatical Relations)

  • 이성욱
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.69-72
    • /
    • 2008
  • 본 연구는 한국어 의존 구조를 결정하는 단계적 의존 구조 분석기를 제안한다. 각 단계에서는 주어진 문법관계의 후보열에서 올바른 문법관계를 결정하는데, 대상문법관계의 종류에 따라 독립적으로 수행된다. 문법관계의 후보열은 미리 학습된 지지벡터기계를 이용하여 주어, 목적어, 보어, 부사어 등 7가지의 문법관계로 추정한다. 각 단계에서는 지지벡터기계 분류기와 어절 간의 거리, 교차 구조 금지, 격 제한의 원칙 등의 한국어 언어 특성을 이용하여 대상문법관계를 결정하며, 모든 단계를 거쳐 최종적으로 전체 의존 구조와 문법관계가 결정된다. 트리 및 문법관계 부착 말뭉치를 이용하여 제안된 시스템을 구현 및 실험하였으며 약 85.7%의 정확률을 얻었다.

고차선형 논리에서의 관계절 공간 번역 (A Higher-Order Liner Logical Translation of Relative Clause Gaps)

  • 이소영;배민오;조문정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.404-406
    • /
    • 1998
  • 확정절 문법은 구 구조문법을 명시하는데 사용된 후 계산이론적 언어학자들이 많은 연구를 하는 분야이다. 확정절 문법은 혼절에 근거하고 있기 때문에 관계절 공간연결 파서를 구성할 때 메우개-공간 의존을 자연스럽게 설명할 수 없다. 본 논문에서는 메우개-공간 의존을 처리할 수 있는 일반 구 구조문법 GPSG의 특성에 대해서 논하고 일반 구 구조 문법을 논리 문법으로 확장할 수 있는 방법에 대해서 기술하였다. [7]에서는 메우개-공간 의존을 설명하기 위해서 직관적 논리를 이용하였다. 여기에서는[7]의 직관적 논리 문법의 한계에 대해서 논하였다. 또 [5]에서는 일차 선형 논리를 이용하였는데, 이는 공간연결 파서로 자연어 문장을 논리식으로 번역하는데 사용될 수 없다. 따라서 본 연구에서는 고차 선형 논리문법을 이용하여 자연어 파서를 구성하였다.

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전 (LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts)

  • 최성용;신동혁;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

내부 및 외부 확률을 이용한 의존문법의 비통제 학습 (An unsupervised learning of dependency grammar Using inside-outside probability)

  • 장두성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-137
    • /
    • 2000
  • 구문태그가 부착되지 않은 코퍼스를 사용하여 문법규칙의 확률을 훈련하는 비통제 학습(unsupervised learning) 방법의 대표적인 것이 CNF(Chomsky Normal Form)의 CFG(Context Free Grammar)를 입력으로 하는 inside-outside 알고리즘이다. 본 연구에서는 의존문법을 CNF로 변환하는 기법에 대해 논하고 의존문법을 위해 변형된 inside-outside 알고리즘을 논한다. 또한 이 알고리즘을 사용하여 실제 훈련한 결과를 보이고, 의존규칙과 구문구조 확률을 같이 사용하는 hybrid방식 구문분석기에 적용한 결과를 보인다.

  • PDF