• 제목/요약/키워드: 최장명사구

검색결과 4건 처리시간 0.018초

두 단계 학습을 통한 중국어 최장명사구 자동식별 (Two-Level Machine Learning Approach to Identify Maximal Noun Phrase in Chinese)

  • 윤창호;이용훈;김미훈;김동일;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.53-61
    • /
    • 2004
  • 일반적으로 중국어의 명사구는 기본명사구(base noun phrase), 최장명사구(maximal noun phrase) 등으로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 정확한 구문 트리(parse tree)를 찾아내는데 중요한 역할을 한다. 본 논문은 두 단계 학습모델을 이용하여 최장명사구 자동식별을 진행한다. 먼저 기본명사구, 기본동사구, 기본형용사구, 기본부사구, 기본수량사구, 기본단문구, 기본전치사구, 기본방향사구 등 8가지 기본구를 식별한다. 다음 기본구의 중심어(head)를 추출해 내고 이 정보를 이용하여 최장명사구의 식별을 진행한다. 본 논문에서 제안하는 방법은 기존의 단어레벨의 접근방법과는 달리구레벨에서 학습을 진행하기 때문에 주변문맥의 정보를 많이 고려해야 하는 최장명사구 식별에 있어서 아주 효과적인 접근방법이다. 후처리 작업을 하지 않고 기본구의 식별에서 25개 기본구 태그의 평균 F-measure가 96%, 평균길이가 7인 최장명사구의 식별에서 4개 태그의 평균 F-measure가 92.5%로 좋은 성능을 보여주었다.

  • PDF

확장청크와 세분화된 문장부호에 기반한 중국어 최장명사구 식별 (Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese)

  • 백설매;이금희;김동일;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.320-328
    • /
    • 2009
  • 일반적으로 명사구는 기본명사구와 최장명사구로 분류되는데 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 정확한 지배용언을 찾아내는데 중요한 역할을 하게 된다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 자질로 사용한 두 단계 최장명사구 식별 기법을 제안한다. 제안한 기법은 기본모델보다 2.65% 향상된 평균 89.66%($F_1$-measure)의 우수한 성능을 보인다.

문장부호 정보와 확장된 청크에 기반한 중국어 최장명사구 식별 (Maximal Length Noun Phrase Identification Based on Punctuations and Expanded Chunk)

  • 백설매;김미훈;이금희;정유진;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.112-119
    • /
    • 2005
  • 명사구는 기본명사구와 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 수행한다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 사용한 최장명사구 식별 기법을 제안한다. 제안된 기법은 기본모델(baseline)보다 4.05% 향상된 평균 88.63%의 우수한 F-measure 성능을 보인다.

  • PDF

문장부호를 사용한 효과적인 중국어 최장명사구 식별기법 (An Effective Approach Using Sentence Symbols to Identify Maximal-Length Noun Phrase in Chinese)

  • 백설매;이금희;김미훈;정유진;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.454-456
    • /
    • 2005
  • 일반적으로 중국어의 명사구는 최단명사구, 기본명사구 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 한다. 본 논문에서는 특성에 따라 5개의 클래스로 세분화된 문장부호를 학습자질로 사용하여 최장명사구 자동식별을 진행한다. 제안된 기법은 평균길이가 4인 최장명사구의 식별실험에서 기본모델(baseline)보다 $4.5\%$ 향상된 평균 $85.1\%$의 우수한 F-measure 성능을 보인다.

  • PDF