• Title/Summary/Keyword: 문장형태 정보

Search Result 270, Processing Time 0.034 seconds

A Method for Extracting Dependency Relations Using Chunking and Segmentation (구묶음과 구간분할을 이용한 의존 관계 추출 기법)

  • Park, Eui-Kyu;Cho, Min-Hee;Kim, Seong-Won;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.131-137
    • /
    • 2004
  • 본 논문에서는 구묶음과 구간분할에 기반하여 한국어 문장에서 명백한 의존관계를 파악 추출하는 기법에 대해 다룬다. 구묶음 기법은 문장에 나타나는 복합 명사, 본용언/보조용언. 의존명사 등을 묶어서 문장의 구조를 단순하게 만든다. 특히 문장에 다양한 형태로 나타나는 의존명사의 처리를 강화하여 구묶음을 효과적으로 할 수 있도록 하였다. 구간분할 기법은 긴 문장을 여러 개의 구간으로 나누어 각 구간을 구문분석 한다. 각 구간은 분할 이전보다는 단순화된 형태이기 때문에 긴 문장보다는 중의성이 줄어들어 견고한 구문분석을 할 수 있게 된다. 본 논문에서는 한국어 구문분석 시스템 개발의 1 단계 과정으로써 일단 중의성이 있는 상황이 아닌 명백한 의존관계를 수집하는 것을 목표로 한다. 본 논문에서는 실험을 통하여 구묶음과 구간분할 기법이 문장의 구조 중의성을 줄여 줌으로써 보다 많은 명백한 의존관계를 정확하게 추출할 수 있음을 보였다.

  • PDF

Study on Sentence Rewriting in English-Korean Machine Translation (영한 기계번역에서 문장 다시 쓰기에 관한 연구)

  • Kim, Sung-Dong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.257-261
    • /
    • 2008
  • 규칙 기반의 영한 기계번역에서는 영어의 문법 규칙을 구축하고 이를 이용하여 영어의 구문 분석을 수행한다. 그러나 쉼표를 포함한 문장이나 특수한 형식의 문장들은 문법에 의해 분석하기 어렵다. 이를 문법에 의해 분석하기 위해서는 문법이 복잡해지고 문법의 수가 많아지게 되어 분석의 복잡도를 증가시키게 된다. 이러한 문제를 해결하기 위해 이미 존재하는 규칙에 의해 분석할 수 있는 형태로 문장을 바꾸는 문장 다시 쓰기를 제안한다. 문장 다시 쓰기를 위해 쉼표를 포함한 문장에 대해서 다시 쓰기가 필요한 패턴을 구축하였으며 이에 대해 문장 다시 쓰기를 실험하였다. 문장 다시 쓰기를 통해 입력 문장을 변형함으로써 규칙의 추가 없이 구문 분석이 가능하며 제안한 방법은 특수한 형식을 가진 문장 및 쉼표에 의해 연결되는 문장들에 대해 보다 정확한 분석과 번역을 위한 새로운 방법으로서 의의가 있다.

  • PDF

Design of Question Answering System with Automated Question Generation (질의문 자동생성방식의 질의응답시스템의 설계 및 구축)

  • Kim, Min-Kyoung;Kim, Han-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.49-54
    • /
    • 2008
  • 질의응답시스템에서 사용자 질의로 입력된 자연어문장을 완벽하게 분석하는 것은 쉬운 일이 아니며, 사용자의 질의 의도의 불명확성으로 키워드 여러 개의 질의문이 존재할 수 있다. 본 논문에서는 질의를 하기 전에 사용자가 안게 되는 자연어 질의문의 작성 부담감을 줄이고, 키워드만으로 자신이 원하는 질의문을 선택할 수 있는 시스템을 제안하고자 한다. 제안 시스템은 평서문에서 자동으로 질의문을 생성한다. 질의문 생성은 장문형질의문생성과 단문형질의문생성으로 구분하며, 장문형질의문은 문장의 전체형태를 유지하면서 특정고유명사를 질의하는 것이고, 단문형질의문은 주어진 고유명사를 질의하는 최소한의 요소를 갖춘 단순 형태의 질의 문장이다. 또한 제안 시스템은 생성된 질의문이 유한 해답을 도출할 수 있는 의미있는 질의문을 선별하는 과정을 포함한다. 본 논문에서 제안한 방식이 사용자에게 의미있는 질의문을 제시하여주고 사용자가 원하는 질의문을 선택하게 함으로써 검색의 시간단축과 자연어문장 질의어 자체에 대한 고민을 해소시킬 수 있다. 또한 이는 자연어 문장처리의 한계를 극복할 수 있는 시스템을 구현할 수 있는 기반을 마련한 것이다.

  • PDF

Constructing A Korean-English Bilingual Dictionary For Well-formed English Sentence Generations In A Glossary-based System (Glossary에 기초한 시스템에서의 적형태 영어문장 생성을 위한 한영 대역에 전자사전구축)

  • 신효필
    • Korean Journal of Cognitive Science
    • /
    • v.14 no.2
    • /
    • pp.1-13
    • /
    • 2003
  • We introduce a way to generate morphologically and syntactically well-formed English sentences when building Korean to English bilingual dictionary for Machine Translation Systems. It has been proved that basic inflectional or structural descriptions for English sentences are by no means enough to generate proper English sentences because of traditional dictionary structures. Furthermore, much research has been focused only on how to disambiguate semantic ambiguities of words in a bilingual dictionary To take advantage of existing paperback Korean to English bilingual dictionary, its automatic conversion to an electronic version and methodologies to assign proper features to the descriptions for well-formed English sentences with minimum human effort have been proposed on the basis of the dictionary-specific structures. This approach was originally motivated for a glossary-based machine translation system, but it can be also applied to large scale dictionary work.

  • PDF

Probabilistic Dependency Grammar Induction (한국어 확률 의존문법 학습)

  • 최선화;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.513-515
    • /
    • 2003
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 의존문법 생성을 위해 구성성분의 기능어들 간의 의존관계를 학습했던 기존 연구와는 달리. 한국어 구성성분은 내용어와 기능어의 결함 형태로 구성되고 임의 구성성룬 기능어와 임의 구성성분 내용어간의 의존관계가 의미가 있다는 사실을 반영한 의존문법 학습방법을 제안한다. KAIST의 트리 부착 코퍼스 31,086문장에서 추출한 30,600문장의 Tagged Corpus을 가지고 학습한 결과 초기문법을 64%까지 줄인 1.101 개의 의존문법을 획득했고. 실험문장 486문장을 Parsing한 결과 73.81%의 Parsing 정확도를 보였다.

  • PDF

The Bi-Cross Pretraining Method to Enhance Language Representation (Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상)

  • Kim, Sung-ju;Kim, Seonhoon;Park, Jinseong;Yoo, Kang Min;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

Record Information Question-Answering System Using Question Rules (질문 규칙을 이용한 기록정보 질의-응답 시스템)

  • Oh, Su-Hyun;Ahn, Young-Min;Park, Hee-Geun;Lee, Chung-Hee;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.228-232
    • /
    • 2006
  • 본 논문에서는 기네스 기록정보, 즉 기록적 가치가 있는 기록정보에 대한 질의를 처리하는 시스템에 대하여 기술한다. 기록정보 질의의 경우 일반적으로 정형화된 형태로 나타나며 이 형태를 규칙으로 사용하여 질의에 해당되는 정답을 추출하게 된다. 기록적 가치가 있는 문장에서 해당 문장이 기록 문장임을 나타내어 주는 부사를 기록부사로 정의하고, 예로 가장 제일, 최고의, 최대의, 최소의, 최초의, 최초로 등을 들 수 있다. 기록정보 질의의 경우 용언의 포함여부에 따라 기록부사는 두 가지 유형으로 분류된다. 기록부사는 질의문 내의 지역정보 및 정답유형과 함께 정답 추출의 중요한 요소로 사용되고, 용언정보는 기록 부사의 유형, 질의문 내의 용언 포함 여부에 따라 정답 추출의 요소로 결정되어진다. 제안한 시스템은 질의분석을 통하여 정답 추출을 위한 단서를 찾고 이를 이용하여 후보 문서와 후보 문장을 검색한 후 정답 추출 규칙을 이용하여 정답을 추출하게 된다.

  • PDF

Advanced detection of sentence boundaries based on hybrid method (하이브리드 방법을 이용한 개선된 문장경계인식)

  • Lee, Chung-Hee;Jang, Myung-Gil;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.61-66
    • /
    • 2009
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반 하여 개선된 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 음절을 대상으로 학습하여 문장경계 인식을 수행하였고, 문장경계인식 성능을 최대화 하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 다양한 기계학습 기반 분류 모델을 비교하여 최적의 분류모델을 선택하였으며, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 형태의 문서별 성능 측정을 위해서 문어체와 구어체가 복합적으로 사용된 신문기사와 블로그 문서(평가셋1), 문어체 위주로 구성된 세종말뭉치와 백과사전 본문(평가셋2), 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 사이트의 게시판 글(평가셋3)을 대상으로 성능 측정을 하였다. 성능척도로는 F-measure를 사용하였으며, 구두점만을 대상으로 문장경계 인식 성능을 평가한 결과, 평가셋1에서는 96.5%, 평가셋2에서는 99.4%를 보였는데, 구어체의 문장경계인식이 더 어려움을 알 수 있었다. 평가셋1의 경우에도 규칙으로 후처리한 경우 정확률이 92.1%에서 99.4%로 올라갔으며, 이를 통해 후처리 규칙의 필요성을 알 수 있었다. 최종 성능평가로는 구두점만을 대상으로 학습된 기본 엔진과 모든 문장경계후보를 인식하도록 개선된 엔진을 평가셋3을 사용하여 비교 평가하였고, 기본 엔진(61.1%)에 비해서 개선된 엔진이 32.0% 성능 향상이 있음을 확인함으로써 제안한 방법이 웹 문서에 효과적임을 입증하였다.

  • PDF

A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering (스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법)

  • Kang, Seung-Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.7
    • /
    • pp.271-276
    • /
    • 2014
  • Short message service(SMS) in a mobile communication environment is a very convenient method. However, it caused a serious side effect of generating spam messages for advertisement. Those who send spam messages distort or deform SMS sentences to avoid the messages being filtered by automatic filtering system. In order to increase the performance of spam filtering system, we need to recover the distorted sentences into normal sentences. This paper proposes a method of normalizing the various types of distorted sentence and extracting keywords through automatic word spacing and compound noun decomposition.

A Development of Korean Sentence Processor using Surface Analysis (문장 표면 분석에 의한 한국어 문장 처리기 개발)

  • Lee, Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.245-248
    • /
    • 2010
  • 현대 한국어 문장에는 (1) 여러 가지 부사절이 포함된 경우, (2) 길이가 긴 경우, (3) 여러 가지 기호를 포함한 경우, (4) 수와 단위 표현이 있는 경우, (5) 영어 등 외국어가 포함된 경우, (6) 혹은 (1)(2)(3)(4)(5)를 모두 포함한 경우가 많다. 따라서 현대 한국어 문장을 구문 처리하기 위해서는 전처리(preprocessing) 과정이 필수적이라고 생각한다. 전처리 과정에서는 문장 표면 분석을 수행하고 문장 분할도 수행하여 입력 문장을 구문 처리가 가능한 형태로 바꾸어야 한다. 본 논문에서는 현대 한국어 문장을 구문 처리하기 위한 표면 분석 방법과 분할 방법을 논의한다. 또한 한국어 구문을 나타내는 분할 구조 문법의 예도 제시한다.

  • PDF