• 제목/요약/키워드: 3단계 구문 분석

검색결과 20건 처리시간 0.03초

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

구문구조를 이용하여 정답을 추출하는 질의응답 시스템 (A Question Answering Using Syntactic Structure for Answer Extraction)

  • 이대연;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-94
    • /
    • 2003
  • 본 논문에서는 질의문 내에 포함된 동사를 중심으로 한 질의어 확장 및 정답 추출 기법을 이용한 질의 응답 시스템에 대해 기술한다. 질의 응답시스템 전체의 과정에서 동사는 하나의 정보를 표현하는 중요한 요소로 활용하며, 동사에 대한 활용은 구축된 동사구문 사전의 정보를 이용한다. 동사구문 사전은 동사의 일반적인 표층형태와, 각 문장 성분들의 의미속성, 유의동사 등의 정보를 담고 있다. 또한 동사 구문사전의 활용에서의 동사 모호성을 배제하고, 효율을 높이기 위해 약 3만 어휘의 명사 의미 사전을 사용한다. 명사 의미사전은 구문사전 내에 사용된 의미분류로 나누어져 있으며, 유의명사 및 국어사전 상의 뜻 풀이말을 포함하고 있다. 질의문 및 각 후보 문장에 대한 구문분석은 구문사전 내에 나타난 품사 별 의미속성과, 문법 형태소의 격 정보를 이용한 격 구조를 활용하였다. 논문 중에는 일반적인 질의 응답 시스템의 3단계에 맞추어 구문사전 활용 및 구문분석의 수행 단계를 보이고 마지막에 각 기법의 정확도를 보였다.

  • PDF

제품 설명서에 나타나는 중의적 명사 수식 구문 연구 - 통제 언어의 관점에서- (A study on the ambiguous adnominal constructions in product documentation)

  • 박아름;지은별;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.23-28
    • /
    • 2012
  • 번역을 지원하는 도구로 자동 번역 시스템을 효율적으로 활용하기 위해 중요한 것은 자동 번역에 적합하도록 원문을 작성하거나 이미 작성된 원문에 대한 전처리 작업을 하는 것이다. 본 연구의 궁극적인 목표는 제품 설명서 작성자가 통제언어 체커를 통해 통제언어 규칙들을 적용하여 원문을 작성하도록 하는 것이다. 본 논문은 그 중간 단계로써 제품 설명서에 나타나는 문제 사항이 번역 품질에 어떠한 영향을 미치는지 밝혀내는 것을 목적으로 한다. 연구 대상은 제품 설명서에서 자동 번역의 성능을 저해시키는 요소 중 중의적 명사 수식 구문이다. 이러한 명사 수식 구문들은 분석 단계에서 구조적인 모호성을 초래하여 한국어 분석의 정확도를 떨어뜨리기 때문에 결과적으로 번역 품질을 악화시킬 수 있다. 이를 검증하기 위해 우선 제품 설명서 데이터를 분석하여 자동 번역 결과에 부정적인 영향을 미치는 명사 수식 구문을 다음과 같이 4가지로 유형화 하였다. (유형 1) 관형격 명사구 + 명사 병렬 접속, (유형 2) 동사의 관형형이 수식하는 명사구 + 명사 병렬 접속, (유형 3) 관형격 조사 '의' 중복, (유형 4) 병렬 접속어를 잘못 쓴 경우, 각각의 유형에 대해서 한국어 분석 단계에서 발생할 수 있는 문제에 대해 설명하였으며, 문제 사항에 대해 통제언어 규칙을 제시하였다. 통제언어 규칙에 따라 중의적 명사 수식 구문을 수정한 결과, 한국어 원문의 번역결과보다 한국어 수정문의 번역결과가 작성자의 의도를 더 잘 나타낸다는 것을 확인할 수 있었다.

  • PDF

$k$-NN으로 확장된 한국어 단위화 (Expanded Korean Chunking by $k$-NN)

  • 박성배;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.182-184
    • /
    • 2000
  • 대부분의 자연언어처리에서 단위화는 구문 분석 이전의 매우 기본적인 처리 단계로, 텍스트 문장을 문법적으로 서로 관련된 단위로 분할하는 것이다. 따라서, 단위화를 이용하면 구문 분석이나 의미 분석 등에서 메모리와 시간을 효율적으로 줄일 수 있다. 일반적으로 통찰에 의한 규칙을 사용해서도 비교적 높은 단위화 성능을 얻을 수 있지만, 본 논문에서는 기계 학습 기법인 k-NN을 사용하여 보다 정확한 단위화를 구현한다. 인터넷 홈페이지에서 얻은 1,273 문장을 대상으로 학습한 결과, k-NN으로 단위화를 확장했을 때에 확장하지 않았을 때보다 2.3%의 정확도 증가를 보였다.

  • PDF

대화 시스템의 말뭉치 구축을 위한 Object-Action 반자동 추출기 (Semi-Automatic Object-Action Extractor to Build the Utterance Corpus for the Dialogue System)

  • 윤정민;황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.220-223
    • /
    • 2015
  • 본 논문은 대화 시스템에서 사용되는 말뭉치의 구축을 위해 Object와 Action을 반자동으로 추출하는 도구에 대해 기술한다. 제안하는 추출 도구는 형태소 분석과 의존 구문 분석의 결과를 기반으로 적절한 Object와 Action을 추출하는 것에 목표를 두고 있다. 그러나 형태소 분석과 의존 구문 분석의 결과는 여러 가지 오류가 포함될 수 있다. 이러한 오류는 잘못된 Object와 Action의 추출로 이어질 수 있다. 그리고 Object의 추출에 있어 해당 명사의 격이 중요한 정보를 가진다. 하지만 한국어의 특성한 조사의 생략 등으로 인해 격 태깅의 모호성이 발생하게 된다. 따라서 본 논문에서 제안하는 반자동 추출기는 형태소 분석과 의존 구문 분석의 잘못된 결과를 사용자가 손쉽게 수정할 수 있도록 하고 모호성이 발생할 수 있는 Object를 사용자에게 알려주어 올바른 Object와 Action의 추출을 가능하게 한다. 추출기를 이용한 말뭉치의 구축은 1) 형태소 분석 2) 의존 구문 분석 3) Object-Action 추출의 단계로 진행된다. 실험에서 사용된 발화는 관광 회화용 대화 시스템의 숙박, 공항 영역의 500개의 발화이며, 이 중 259개의 발화가 태깅 시 모호성이 발생하는 발화이다. 반자동 추출기를 통해 모호성이 발생한 발화를 태깅한 결과 전체 발화 중 51.8%의 발화를 빠르고 정확하게 태깅할 수 있었다.

  • PDF

자료 및 제어 흐름 정보의 최적화 표현에 관한 연구 (A Study on the Optimized Representation for Data and Control Flow Information)

  • 정성옥;고광만;이성주
    • 한국정보통신학회논문지
    • /
    • 제4권3호
    • /
    • pp.681-687
    • /
    • 2000
  • 최적화란 비효율적인 코드를 구분해 내서 실행 속도 및 기억 공간의 효율성을 높여 주는 방법으로 컴파일러의 각 단계에서 수행된다. Augustus K. Uh떼 의해 제안된 Ideograph는 입력 프로그램에 대한 제어 의존성과 자료 의존성에 관한 정보를 동시에 표현할 수 있어 코드 최적화 단계에서 효과적으로 이용될 수 있으며 프로그램에 존재하는 병렬성을 표현하는데 효과적이다. 구문 트리는 원시 프로그램 정보를 효율적으로 표현할 수 있는 중간 표현으로서 컴파일러 구천에 널리 사용되고 있다. 본 논문에서는 원시 프로그램의 중간 표현인 구문 트리를 입력으로 받아 최적화 정보를 추출한 후 제어 흐름 및 자료 흐름 분석 정보를 추출하여 제어 의존성과 자료 의존성을 Ideouaph에 동시에 표현한다.

  • PDF

문법기반 객체지향 시각언어의 컴파일러 생성기 (A Compiler Generator for Object-Oriented Visual Languages based on Grammer)

  • 이기호;김경아
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권3호
    • /
    • pp.431-440
    • /
    • 1999
  • 기존 시각언어 컴파일러 자동화 도구는 시각 구문의 그래픽 정의부분을 명세하고 확장 및 수정하는 방법의 한계로 인해 어휘분석단계를 처리하는데 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 객체지향 시각언어 문법을 기반으로 한 새로운 방식의 문법 기반 자동 생성 시스템인 시각언어 컴파일러 자동 생성 환경(CGE-VL)을 구축한다. 이 시스템은 객체지향 패러다임을 기초로 한 시각언어 컴파일러 구축을 위한 실질적인 도구로 기존의 시각언어 컴파일러 자동화 도구와는 구별되는 객체지향 시각언어의 효과적인 명세 방법 제공, 어휘분석기를 이용한 파싱 시간의 단축, 객체지향 파서를 자동 생성하는 등의 새로운 특성을 제공한다. 이러한 특성은 특히 동일한 의미를 가지는 언어 구성요소가 그 쓰임에 따라 서로 다른 구체화된 의미 및 행동을 가지는 객체지향 시각언어에서는 언어 명세에서 최종 산물인 컴파일러에 이르는 전 단계에 동일한 객체 지향 패러다임을 사용함으로써 일관된 개발방법을 제공하여 그 효과가 두드러진다.

간호학의 기본 지식 구조 (Fundamental Structure of Knowledge in Nursing)

  • Lee, Kwang-Ja
    • 대한간호학회지
    • /
    • 제13권3호
    • /
    • pp.127-144
    • /
    • 1983
  • 오늘날은 과학문명의 발달로 인하여 기존지식의 수명이 점차 짧아져 가고있는 것이 특징이다. 지식의 증가는 단순히 지식의 양을 증가시키는 역할뿐 아니라 많은 기존지식을 불충분하고 쓸모 없는 것으로 바꿔버리게 한다. 그러므로 학교에서는 학생들에게 어떤 특정지식의 축척보다는 그 학문에 내재해 있는 기본적인 지식의 구조를 학습하게 하여 여러 가지 개념을 관련시키는 논리적 방법을 학습하게 하고 합리적인 탐구방법을 구사할 수 있도록 하여 변화하는 미지의 세계에 대처해 나갈 수 있도록 하는 것이 중요하다. 본 연구는 간호학의 기본 지식구조를 확인하는데 그 목적이 있다. 본 연구를 하게 된 동기는 간호업무의 근거로 활용도리 지식체계는 교육과정의 조직원리로 작용될 유형이나 구조를 지니고 있으며 이런 유형이나 구조를 중심으로 간호교육과정을 구성하는 것이 간호교육에 필수적이라는 문제에서 비롯되었다. 연구방법은 1982년 9월부터 1983년 5월에 걸쳐 간호학 문헌을 체계적으로 분석하여 간호학의 개념적 지식구조와 구문적 지식구조를 확인하였다. 그 결과 얻어진 결론은 다음과 같다. 1. 간호학의 개념적 구조: 모든 학문에는 탐구의 대상인 특수현상을 설명하고 서술하는데 활용되는 일련의 실질적, 개념적 구조를 가지고 있다. 그러나 그 학문의 중요한 부분 또는 중심을 포함하고 있는 개념들이 그 분야 또는 학문의 개략이라고 할 수 있는데 연구결과 간호학에서 가장 높은 순위의 대표적 특질을 지닌 개념은 인간, 건강, 환자/대상자, 간호, 행동으로 분석되었다. 2. 간호학의 구문적 지식구조 : 지식구조의 두 번째 요소인 학문의 구문(syntax)은 간호학에서의 특징적인 탐구방법과 관련되나 개념적 구조와 마찬가지로 탐구방법은 학문에 따라 다르며 그 분야의 주요양상을 나타낸다. 연구결과 간호학에서의 특징적인 탐구방법은 공동적으로 간호과정(nursing process)임이 나타났으며 그 요인으로는 사정, 진단, 계획, 수행, 평가의 다섯 단계로 분석되었다.

  • PDF

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.