• Title/Summary/Keyword: 문장 자동생성

Search Result 194, Processing Time 0.027 seconds

A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns (술어기반 문형정보를 이용한 자동요약시스템에 관한 연구)

  • 최인숙;정영미
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.4
    • /
    • pp.37-55
    • /
    • 2001
  • The purpose of this study is to present a text summarization system using a knowledge base containing information about verbs and their arguments that are statistically obtained from a subject domain. The system consists of two modules: the training module and the summarization module. The training module is to extract cue verbs and their basic sentence patterns by counting the frequency of verbs and case markers respectively, and the summarization module is substantiate basic sentence patterns and to generate summaries. Basic sentence patterns are substantiated by applying substantiation rules to the syntactics structure of sentences. A summary is then produced by connecting simple sentences that the are generated through the substantiation module of basic sentence patterns. ‘robbery’in the daily newspapers are selected for a test collection. The system generates natural summaries without losing any essential information by combining both cue verbs and essential arguments. In addition, the use of statistical techniques makes it possible to apply this system to other subject domains through its learning capability.

  • PDF

Setences Extraction System using Automatic Division of Paragraph (단락 자동 구분을 통한 중요 문장 추출)

  • Kim, Kye-Sung;Lee, Hyun-Ju;Jung, Young-Giu;Seo, Youn-Kyoung;Son, Ki-Jun;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.233-237
    • /
    • 2000
  • 본 논문은 단락의 자동 구분을 통한 중요 문장 추출 시스템을 제안한다. 먼저 어휘의 재출현 여부와 어휘의 일치도, 어휘의 역할 변화를 파악하여 재출현 어휘에 대한 양상을 분석하고 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장 간 긴밀도룰 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종문을 생성한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않으며, 단순히 어휘의 출현 빈도만을 이용하던 기존의 통계적인 방법보다 질 높은 요약문을 생성할 수 있다. 또한 제안한 방법론은 본 논문이 대상으로 삼고 있는 신문기사의 영역뿐만 아니라 다른 영역으로의 적용이 가능하다.

  • PDF

Constructing A Korean-English Bilingual Dictionary For Well-formed English Sentence Generations In A Glossary-based System (Glossary에 기초한 시스템에서의 적형태 영어문장 생성을 위한 한영 대역에 전자사전구축)

  • 신효필
    • Korean Journal of Cognitive Science
    • /
    • v.14 no.2
    • /
    • pp.1-13
    • /
    • 2003
  • We introduce a way to generate morphologically and syntactically well-formed English sentences when building Korean to English bilingual dictionary for Machine Translation Systems. It has been proved that basic inflectional or structural descriptions for English sentences are by no means enough to generate proper English sentences because of traditional dictionary structures. Furthermore, much research has been focused only on how to disambiguate semantic ambiguities of words in a bilingual dictionary To take advantage of existing paperback Korean to English bilingual dictionary, its automatic conversion to an electronic version and methodologies to assign proper features to the descriptions for well-formed English sentences with minimum human effort have been proposed on the basis of the dictionary-specific structures. This approach was originally motivated for a glossary-based machine translation system, but it can be also applied to large scale dictionary work.

  • PDF

Tree Tagging Tool using Two-phrase Parsing (2단계 구문분석을 이용한 구문분석 말뭉치 구축도구)

  • Kim, Hye-Kyum;Park, Kyung-Mi;Yoon, Yeo-Chan;Rim, Hae-Chang;Park, So-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.151-158
    • /
    • 2005
  • 본 논문에서는 2단계 구문분석을 통한 구문분석 말뭉치 구축도구를 제안한다. 제안하는 방법은 대량의 구문분석 말뭉치를 수동으로 구축할 때 요구되는 작성자의 수작업을 줄이는 것을 목적으로 한다. 도구는 입력 문장을 문장 분할기준에 따라 분할하는 문장 분할 단계, 각 부분에 대해 자동 구문분석을 수행하는 부분 구문구조 생성 단계, 각 부분 구문구조를 통합하여 완전한 구문구조를 얻는 부분 통합 단계로 이루어져 있다. 자동 구문분석은 자질기반 한국어 구문분석모델을 이용하였고 문장을 부분으로 분할할 때는 문장 분할기준을 말뭉치에서 자동추출 하고 간단한 검증을 거쳐 적용하는 방법을 택하였다. 구문분석 말뭉치 구축의 각 단계에서 자동 구문 분석기가 출력한 결과를 작성자가 취소, 재구축 가능하게 하였다.

  • PDF

Pre-Processing of Korean Syntactic Analyzer for Korean to English MT (한영 자동 번역을 위한 한국어 구문 분석 전처리)

  • 김영길;양성일;서영애;김창현;홍문표;최승권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.175-177
    • /
    • 2001
  • 형태소 해석 결과 생성되는 형태소 옅은 구문 분석을 수행하기에는 적절하지 않은 구문 단위로 구성되어 있는 경우가 많으며 이로 인해 구문 분석기가 불필요한 연산을 수행하여 과도한 구문 트리를 생성하는 원인이 된다. 따라서 본 논문에서는 한영 자동 번역의 한국어 구문 분석기 성능 향상 및 자연스러운 대역문 생성을 위하여 시간 부사구와 명사구에 대한 구묶음을 위한 구문 분석 전처리 방법을 제안하며 이를 위한 각 구 단위의 대역 패턴을 정의한다. 방송자막 및 매뉴얼 문장을 대상으로 실험한 결과, 각 문장 구문 단위를 평균적으로 26% 정도 감소시킴으로써 불필요한 파스 트리의 생성을 배제하여 구문 분석기의 성능을 향상시킬 수 있었다.

  • PDF

KoEPT: Automatically Solving Korean Math Word Problems using Generative Transformer (KoEPT: Transformer 기반 생성 모델을 사용한 한국어 수학 문장제 문제 자동 풀이)

  • Rhim, Sang-kyu;Ki, Kyung Seo;Kim, Bugeun;Gweon, Gahgene
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.362-365
    • /
    • 2021
  • 이 논문에서는 자연어로 구성된 수학 문장제 문제를 자동으로 풀이하기 위한 Transformer 기반의 생성 모델인 KoEPT를 제안한다. 수학 문장제 문제는 일상 상황을 수학적 형식으로 표현한 자연어 문제로, 문장제 문제 풀이 기술은 실생활에 응용 가능성이 많아 국내외에서 다양하게 연구된 바 있다. 한국어의 경우 지금까지의 연구는 문제를 유형으로 분류하여 풀이하는 기법들이 주로 시도되었으나, 이러한 기법은 다양한 수식을 포괄하여 분류 난도가 높은 데이터셋에 적용하기 어렵다는 한계가 있다. 본 논문은 이를 해결하기 위해 우선 현존하는 한국어 수학 문장제 문제 데이터셋인 CC, IL, ALG514의 분류 난도를 측정한 후 5겹 교차 검증 기법을 사용하여 KoEPT의 성능을 평가하였다. 평가에 사용된 한국어 데이터셋들에 대하여, KoEPT는 CC에서는 기존 최고 성능과 대등한 99.1%, IL과 ALG514에서 각각 89.3%, 80.5%로 새로운 최고 성능을 얻었다. 뿐만 아니라 평가 결과 KoEPT는 분류 난도가 높은 데이터셋에 대해 상대적으로 개선된 성능을 보였다.

Automatic Text Summarization using Noun-Verb Cooccurrence Pattern (명사-동사 공기패턴을 이용한 문서 자동 요약)

  • Nam, Ki-Jong;Lee, Chang-Beom;Kang, Dae-Wook;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

Implementation and Functionality of an Automatic Web Site Generator(WebSiteGen2) (WebSiteGen2(웹 사이트 자동 생성기)의 기능 및 구현)

  • 유은자;오하영;김연희;음두헌
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.61-63
    • /
    • 2001
  • 오늘날 다양한 전자상거래 응용의 생산성 향상이 요구되고 있다. 이러한 전자상거래 응용의 핵심은 데이터베이스 응용 프로그램이다. 이러한 응용을 기반으로 하는 사이트 구축을 위해 현재 개반자는 CGI, PHP, JSP, ASP, 자바 서블릿등의 기술을 이용하여 코딩작업을 해야한다. 본 논문에서는, 응용 데이터베이스 구축을 위한 SQL 문장들, 사용자 인터페이스로 사용되는 폼들, 그리고 그 폼들을 통해 이루어진 질의를 처리하는 자바 서블릿을 자동으로 생성하는 웹사이트 자동 생성 도구인 WebSiteGen2를 소개하고, 전자상거래 응용의 생산성 향상을 위해 상용화된 웹사이트 자동 생성기 제품들과의 기능 비교를 한다. 자동으로 생성될 테이블들과 폼들은 응용을 위한 클래스 다이어그램으로부터 결정된다. 또한, WebSiteGen2의 구현 원리를 소개한다.

  • PDF

Probabilistic Dependency Grammar Induction using Internal Dependency Relation in Words (어절 내부 의존관계를 고려한 확률 의존 문법 학습)

  • Choi, Seon-Hwa;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.507-510
    • /
    • 2001
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 특히 의존 문법 생성을 위해 확률 재추정 알고리즘을 의존문법생성에 맞도록 변형하여 학습하였으며 정확한 문법 생성 및 회귀데이터(Data Sparseness)문제 해결을 위해서 구성요소의 대표 지배소들 간의 의존관계 만을 학습했던 기존 연구와는 달리 구성요소 내부의 의존관계까지 학습하는 방법을 제안한다. KAIST 의 트리 부착 코퍼스 31,086 문장에서 추출한 25,000 문장의 Tagged Corpus 을 가지고 한국어 확률 의존 문법 학습을 시도 하였다. 그 결과 초기문법을 10.97% 에서 23.73% 까지 줄인 2,349 개의 정확한 문법을 얻을 수 있었다. 문법의 정확성을 실험 하기 위해 350 개의 실험문장을 Parsing 한 결과 69.61%의 파싱 정확도를 보였다. 이로서 구성요소 내부의 의존관계 학습으로 얻어진 의존문법이 더 정확했으며, 회귀데이터 문제 또한 극복할 수 있음을 알 수 있었다.

  • PDF