• 제목/요약/키워드: Parsing technology

검색결과 153건 처리시간 0.018초

한국어 분열구문의 전산학적 처리 (Processing Korean Cleft Constructions in a Typed Feature Structure Grammar)

  • 김종복;양재형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.48-52
    • /
    • 2008
  • The expression KES, one of the most commonly used words in the Korean language, has various usages. This expression is also used to express English-like cleft constructions. It appears to provide at two different types of cleft constructions: predicational and identificational. The paper tries to provide a constraint-based analysis of these two types of Korean cleft constructions and tries to implement the analysis in the LKB system to check its feasibility. In particular, the paper shows how a typed feature structure grammar, couched upon HPSG, can provide a robust basis for parsing Korean cleft constructions.

  • PDF

한국어 의존 파싱을 이용한 트리플 관계 추출 (Triplet Extraction using Korean Dependency Parsing Result)

  • 곽수정;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-89
    • /
    • 2013
  • 자연언어 문서에서 지식 추출은 QA 시스템을 비롯한 여러 분야에서 필수적이다. 트리플은 가장 일반적인 지식 추출 형식으로 문장 내부의 지식 정보를 주어, 서술어, 목적어의 관계로 표현한다. 본 논문에서는 한국어 의존 파서로 문장을 분석하고, 그 결과에서 트리플을 추출하는 방법을 제안했다. 제안된 트리플 추출기는 21개 문장에서 추출된 78개의 트리플 정답 집합과, 64개의 준정답 집합에 대해서 각각 60.75%와 66.67%의 F-measure 성능을 보였다.

  • PDF

한국어 부분언어에 대한 문법 정의 및 GLR 파싱 (A grammar definition and the GLR parsing for Korean sub-language)

  • 김지현;정병채;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.142-145
    • /
    • 2013
  • 최근 한국어를 배우는 외국인의 증가로 '외국어로서의 한국어 학습(KFL)'에 대한 관심이 늘고 있다. 본 논문에서는 외국인을 위한 한국어 교재에서 사용된 회화 문장으로부터 문장 패턴을 분석하고 이를 기반으로 한국어 부분 언어 문법을 정의한다. 대개 부분 언어 문법은 간단하고 배우기 쉬우므로 외국어로서의 한국어 학습자들이 쉽게 한국어로 의사소통을 할 수 있을 것이다. 특히, 본 논문에서는 이 부분 문법이 컴퓨터로 해석될 수 있도록 문법을 정의하였고, 이를 자동 어휘분석기 생성기(flex)와 자동 파서 생성기(bison)을 이용해 기본적인 검증을 하였다.

  • PDF

한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석 (Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System)

  • 함영균;남상하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.122-127
    • /
    • 2016
  • 본 논문에서서는 질의응답 시스템을 위한 자연언어 질의 이해를 위하여 프레임 시멘틱스 기반 의미 분석 방식을 제안한다. 지식베이스에 의존적인 질의 이해는 지식베이스의 불완전성에 의해 충분한 정보를 분석하지 못한다는 점에 착안하여, 질의의 술부-논항구조 및 그 의미에 대한 분석을 수행하여 자연언어 질의에서 나타난 정보들을 충분히 파악하고자 하였다. 본 시스템은 자연언어 질의를 입력으로 받아 이를 프레임 시멘틱스의 구조에 기반하여 기계가 읽을 수 있는 임의의 RDF 표현방식의 모형 쿼리를 생성한다.

  • PDF

Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법 (Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing)

  • 나승훈;신종훈;김강일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어 표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

지배가능경로를 이용한 오른쪽 우선 구문 분석 (A Right-to-Left Parsing using Headable Path)

  • 김창현;김재훈;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.35-44
    • /
    • 1993
  • 본 논문에서는 의존문법을 이용해 한국어와 같이 비교적 어순이 자유롭고, 지배성분 후위의 특성을 갖는 언어를 효율적으로 분석할 수 있는 오른쪽 우선 분석 방법을 제안한다. 지배가능경로를 이용하면 생성되는 의존 트리의 수를 줄일 수 있음을 보이며, 의존 관계의 검사를 위해서는 지배가능경로 상의 문장 성분만을 조사하면 됨을 보인다. 한국어에 적용한 실험 결과를 보이며, 각 방식에 따른 비교 기준은 생성되는 외존 트리의 갯수와 분석 수행 시간으로 한다. 이때 한국어 문장성분간의 의존관계는 품사 분류에 의한 기본적인 의존 관계만을 이용하며, 격돌이나 의미 속성 등 추가적인 제약 사항은 이용하지 않는다. 오른쪽 우선 구문 분석은 지배가능경로를 이용함으로써 의존 관계의 빠른 검색을 할 수 있었으며, 문장 지배 성찰을 포함하지 않는 부분 의존 트리를 생성하지 않음으로써 생성되는 의존 트리의 수를 줄일 수 있었다.

  • PDF

이진 결합 중심의 한국어 Chart parser (A Chart Parser for Korean by Binary Association)

  • 박성숙;심영섭;한성국;최운천;지민제;이용주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.15-24
    • /
    • 1993
  • 한국어는 구문요소의 문법기능이 표면구조상에 명시되는 구문특성을 갖고 있다. 이러한 특성은 한국어의 문법체계가 feature중심으로 전개되고 있음을 의미한다. 한국어에서의 feature 특성과 이진 결합 관계를 중심으로 하는 chart parsing 알고리즘을 제시하고 한국어 chart parser을 구현하였다.

  • PDF

지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 확률 모델 (Modification Distance Model for Korean Dependency Parsing Using Headible Path Contexts)

  • 우연문;송영인;박소영;임해창;정후중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.40-47
    • /
    • 2006
  • 본 논문에서는 한국어 의존 구문 분석을 위한 새로운 확률 모델을 제안한다. 한국어가 자유 어순 언어라 할지라도 지역적 어순은 존재하기 때문에 의존관계를 결정하기 위해 의존하는 두 어절인 의존소와 지배소 사이의 수식 거리가 유용하다는 것은 이미 많은 연구를 통해 밝혀졌다. 본 연구에서는 수식 거리의 정확한 수식 거리의 추정을 위해 지배가능경로 문맥을 이용한 수식 거리 확률 모델을 제안한다. 제안하는 모델의 구문 분석 성능은 86.9%이며, 기존에 제안된 구문 분석 모델과 비교하여 높은 구문 분석 결과를 보이며, 특히 원거리 의존관계에 대하여 더욱 향상된 성능을 보인다.

  • PDF

문장의 종결정보와 예문을 이용한 핵심개념 기반의 한국어 대화체 파싱 (Core Concept-based Korean Spoken Language Parsing Using Ending Information and Example Sentences)

  • 김홍국;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.279-284
    • /
    • 2000
  • 핵심개념 기반의 분석 시스템은 기존의 CFG형태로 기술된 문법의 양을 현저히 줄이고 간투어, 중복발화등과 같은 파싱 불필요 성분을 처리하는 루틴을 개선해 파서의 부담을 줄인 분석 방법이다. 핵심개념 기반 분석 시스템은 동사를 기준으로 문법을 기술한다. 따라서, 발화자의 사투리 둥에 의해서 동사 정보를 상실한 문장은 분석이 되지 않는 문제점을 가지고 있으며 또한, 문장 분석시 분석 문법을 구성할 수 없는 짧은 발화문같은 경우에도 분석을 하지 못하는 문제점을 가지고 있다. 이러한 문제점들을 해결하기 위해서 본 논문에서는 발화문의 예를 작성해 놓은 예문사전과 발화문이 가지고 있는 종결형 정보를 이용해서 그러한 문제를 해결하고 분석의 정확성을 높였다.

  • PDF