• 제목/요약/키워드: 요약문

검색결과 256건 처리시간 0.027초

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

질의응답서비스를 위한 복수 응답 요약에 관한 연구 (A Study on Summarizing Multi-Answers for Question Answering Service)

  • 최상희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.175-180
    • /
    • 2006
  • 이 연구에서는 질의응답을 기반으로 한 검색 서비스를 이용할 때 이용자가 효율적으로 응답정보를 이용할 수 있도록 검색되는 복수 응답을 요약하는 방안을 제시하였다. 복수 응답을 요약하기 위해서는 질의중심방식과 응답중심방식이 비교되었다. 생성된 요약문을 평가한 결과 응답내용을 중심으로 요약하는 방식이 질의중심으로 요약하는 방식보다 질의에 적합한 문장을 효과적으로 추출하고 중복되는 정보도 줄여주는 것으로 나타났다.

  • PDF

퍼지이론을 이용한 자동문서 요약 기술 (Automatic Document Summary Technique Using Fuzzy Theory)

  • 이상훈;문승진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.531-536
    • /
    • 2014
  • 인터넷에서 사용 가능한 수많은 정보로 인해서 대용량의 문서를 다루는 기술은 점차 그 필요성이 증가되어 왔지만, 효과적으로 문서 내 정보를 처리하기 위한 기술의 문제는 여전히 풀어야 할 과제로 남아 있다. 자동문서 요약 기술은 문서 내 중요한 부분을 유지하고, 중복된 내용을 제거함으로써 이러한 대용량의 문서를 처리하는 데 중요한 방법으로 인식되어 왔다. 본 논문에서는 이러한 요약문을 만들 때 중요도를 결정하는 문제를 해결하기 위해서 퍼지 이론을 이용한 문서 요약 기술을 제안한다. 제안된 요약 기술은 중요도를 결정하는 여러 특징들의 애매모호한 문제를 해결하고, 그 실험결과는 기존의 다른 방법과 비교해서 전반적으로 높은 결과를 보인다.

텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가 (Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method)

  • 장동현;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.678-689
    • /
    • 2000
  • 논 본문은 문서의 주요 내용을 나타내는 문장을 추출함으로써 요약문을 작성하는 자동 요약 기법에 대해 기술하고 있다. 개발한 시스템은 문서 집합으로부터 추출한 어휘적, 통계적 정보를 고려하여 요약 문장을 작성하는 모델이다. 시스템은 크게 두 부분, 학습과정과 요약과정으로 구성이 된다. 학습 과정은 수동으로 작성한 요약문장으로부터 다양한 통계적인 정보를 추출하는 단계이며, 요약 과정은 학습 과정에서 추출한 정보를 이용하여 각 문장이 요약문장에 포함될 가능성을 계산하는 과정이다. 본 연구는 크게 세 가지 의의를 갖는다. 첫째, 개발된 시스템은 각 문장을 텍스트 구성 요소의 하나로 분류하는 텍스트 구성 요소 판별 모델을 사용한다. 이 과정을 통해 요약 문장에 포함될 가능성이 없는 문장을 미리 제거하는 효과를 얻게 된다. 둘째, 개발한 시스템이 영어 기반의 시스템을 발전시킨 것이지만, 각각의 자질을 독립적으로 요약에 적용시켰으며, Dempster-Shafer 규칙을 사용해서 다양한 자질의 확률 값을 혼합함으로써 문장이 요약문에 포함될 최종 확률을 계산하게 된다. 셋째, 기존의 시스템에서 사용하지 않은 새로운 자질 (feature)을 사용하였으며, 실험을 통하여 각각의 자질이 요약 시스템의 성능에 미치는 효과를 알아보았다.

  • PDF

단락 자동 구분을 통한 중요 문자 추출 (Setences Extraction System using Automatic Division of Paragraph)

  • 김계성;이현주;정영규;서연경;손기준;이상조
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.233-237
    • /
    • 2000
  • 본 논문은 단락의 자동 구분을 통한 중요 문장 추출 시스템을 제안한다. 먼저 어휘의 재출현 여부와 어휘의 일치도, 어휘의 역할 변화를 파악하여 재출현 어휘에 대한 양상을 분석하고 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장 간 긴밀도를 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종 요약문을 생성한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않으며, 단순히 어휘의 출현 빈도만을 이용하던 기존의 통계적인 방법보다 질높은 요약문을 생성할 수 있다. 또한 제안한 방법론은 본 논문이 대상으로 삼고 있는 신문기사의 영역뿐만 아니라 다른 영역으로의 적용이 가능하다.

  • PDF

빅 데이터의 분석을 통한 정보 자동 요약 시스템 (Automatic Information Summary System using by Big Data Analysis)

  • 윤다영;이현화;송재오;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.415-416
    • /
    • 2014
  • 오늘날 인터넷상에서는 무수히 많은 디지털 데이터가 생성되고 있으며, 그 디지털 데이터는 기존의 소프트웨어로는 처리할 수 없을 정도로 그 양이 방대해지고 있다. 이러한 데이터들을 사용자의 검색의도에 따라 문장 분석, 키워드 추출, 요약문 생성 등의 방법을 통하여, 사용자에게 개인화된 정보를 제공하기 위한 빅 데이터의 분석을 이용한 정보 자동 요약 시스템을 제안한다.

  • PDF

요약문 기반 문학 스타일 문장 생성 (Generating Literature-Style Sentences based on Summarized Text )

  • 최부광;이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 자연어 생성 연구는 딥러닝 기반의 사전 학습 모델을 중심으로 활발하게 연구되고 있다. 하위 분야 중 하나인 텍스트 확장은 입력 텍스트를 출력에 잘 반영하는 것이 무엇보다도 중요하다. 기존 한국어 기반 텍스트 확장 연구의 경우 몇 개의 개념 집합에 기반해 문장을 생성하도록 한다. 그러나 이는 사람의 실제 발화 길이에 비해 짧고 단순한 문장만을 생성한다는 문제점이 존재한다. 본 논문은 이러한 문제점을 개선하면서 문학 스타일의 문장들을 생성하는 모델을 제안하였다. 또한 동일 모델에 대해 학습 데이터의 양에 따른 성능도 비교하였다. 그 결과, 짧은 요약문을 통해 문학 스타일의 여러 문장들을 생성하는 것을 확인하였고, 학습 데이터를 추가한 모델이 성능이 더 높게 나타나는 것을 확인하였다.

  • PDF

비디오자료의 의미추출을 위한 영상초록의 효용성에 관한 실험적 연구 (An Experimental Study on the Effectiveness of Storyboard Surrogates in the Meanings Extraction of Digital Videos)

  • 김현희
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.53-72
    • /
    • 2007
  • 본 연구에서는 12개의 표본 비디오 집단과 14명의 피조사자들을 이용하여 영상 초록 및 전체 클립 보기를 통한 색인어 및 요약문 추출의 정확도를 측정해 보았다. 측정결과 첫째, 비디오 유형에 따라 정확도가 차이가 있는 것으로 나타났으며 이는 이미지에 주로 의존하여 정보를 표출하는 비디오의 경우 텍스트 초록만으로 의미 파악을 하기에는 한계가 있으며 텍스트 초록이 영상 초록과 함께 사용되었을 때 시너지 효과를 낼 수 있음을 보여주고 있다. 둘째, 영상초록의 색인어 및 요약문 정확도가 전체 클립의 정확도 보다 떨어지지만 절반치에 근접한 것으로 나타나 영상 초록이 비디오 의미 추출에 효율적으로 활용될 수 있음을 확인하였다. 또한 영상 초록의 색인어 정확도(0.45)가 요약문 정확도(0.40) 보다더 높게 나타나 영상초록을 통해서 색인어 추출 작업을 더 효율적으로 할 수 있음을 확인할 수 있었다. 이러한 실험결과에 기초하여 영상 초록이 색인어 또는 요약문 추출 작업에 활용될 수 있을 뿐만 아니라, 디지털도서관 환경에서 텍스트 초록과 같은 다른 메타데이터 요소들과 함께 사용된다면 이용자의 적합성 판정을 좀 더 용이하게 할 것이며, 더 나아가 영상 질의의 매칭 자료로도 이용될 수 있음을 제안하였다. 끝으로 영상 초록의 품질을 높이기 위한 키프레임 추출 알고리즘 및 키프레임 배열 모형 설계 등 후속 연구에 대해서 제언하였다.