• 제목/요약/키워드: 논문 요약

검색결과 1,981건 처리시간 0.031초

효과적인 브라우징을 위한 뉴스 기사 요약에 관한 연구 (A Study on Skimming of News Article for an Efficient Browsing)

  • 이주호;정승도;조정원;최병욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.219-222
    • /
    • 2000
  • 수많은 종류의 비디오 데이터를 효율적으로 검색하기 위해서는 데이터를 분석하여 사용자에게 먼저 전체 비디오의 요약을 제시하는 것이 효과적이다. 본 논문에서는 기사 단위로 분할된 뉴스 기사 전체를 보여주지 않으면서도 기사의 내용을 왜곡됨이 없이 요약하여 효과적으로 사용자에게 보여주기 위한 방법을 제안한다. 본 논문에서는 사용자에게 시각적인 요약 정보를 앵커 프레임 추출 및 대표 프레임 추출을 통해 필름 스트림(film trip)의 형태로 제시하고, 기사를 소개하는 앵커의 첫 대사를 폐쇄 자막(closed-caption)을 이용하여 추출하여, 이를 기사의 내용에 대한 요약으로 필름 스트립과 같이 제시하도록 하였다. 앵커 프레임을 추출하기 위해 본 논문에서는 폐쇄 자막에서의 "앵커:" 태그가 존재하는 시간 구간과 동기된 프레임을 선정한다. 또한 대표 프레임은 공개형 자막(open-cpation)이 존재하는 프레임과 빈도에 기반한 가중치가 높은 .폐쇄 자막에서의 키워드와 동기된 프레임을 선정하도록 하였다. 본 논문의 뉴스 기사 요약 시스템은 시각적인 프레임제시와 함께 기사의 내용을 바탕으로 하는 기사 요약문을 같이 사용자에게 제공함으로써 기존의 필름 스트립형태만 제공하던 시스템에 비하여 사용자 중심의 지능형 요약 서비스가 가능함을 실험을 통해 보인다.

  • PDF

주제어구 추출과 질의어 기반 요약을 이용한 문서 요약 (Document Summarization using Topic Phrase Extraction and Query-based Summarization)

  • 한광록;오삼권;임기욱
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.488-497
    • /
    • 2004
  • 본 논문에서는 추출 요약 방식과 질의어 기반의 요약 방식을 혼합한 문서 요약 방법에 관해서 기술한다. 학습문서를 이용해 주제어구 추출을 위한 학습 모델을 만든다. 학습 알고리즘은 Naive Bayesian, 결정트리, Supported Vector Machine을 이용한다. 구축된 모델을 이용하여 입력 문서로부터 주제어구 리스트를 자동으로 추출한다. 추출된 주제어구들을 질의어로 하여 이들의 국부적 유사도에 의한 기여도를 계산함으로써 요약문을 추출한다. 본 논문에서는 주제어구가 원문 요약에 미치는 영향과, 몇 개의 주제어구 추출이 문서 요약에 적당한지를 실험하였다. 추출된 요약문과 수동으로 추출한 요약문을 비교하여 결과를 평가하였으며, 객관적인 성능 평가를 위하여 MS-Word에 포함된 문서 요약 기능과 실험 결과를 비교하였다.

단일 문서의 인위적 요약과 MMR 통계요약의 비교 및 분석 (Analyses and Comparisons of Human and Statistic-based MMR Summarizations of Single Documents)

  • 유준현;변동률;박순철
    • 전자공학회논문지CI
    • /
    • 제41권2호
    • /
    • pp.43-50
    • /
    • 2004
  • 웹과 같은 대량의 문서집단에서 단일 문서에 대한 자동 요약은 일반적으로 통계요약 방법을 이용한다. 그러나 단순한 통계 요약 방법은 문서내의 빈도수가 높은 단어를 포함하는 문장들이 중복되어 나타날 확률이 높다. 이러한 단점을 보완하기 위하여 본 논문에서는 통계기반 요약방법에 MMR 기법을 적용하여 요약의 질을 향상시켰다(약 λ=0.6에서 최고의 성능을 보임). 또한 본 논문에서는 인위적 요약을 수행하여 MMR 통계기반의 요약 결과의 성능을 평가하였다.

사용자의 요구를 반영하는 동영상 요약 알고리즘 (A Video Abstraction Algorithm Reflecting Various Users Requirement)

  • 정진국;홍승욱;낭종호;하명환;정병희;김경수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.599-609
    • /
    • 2003
  • 자동으로 동영상을 요약하는 알고리즘은 다양한 방향으로 진행되어 왔다. 하지만 이러한 알고리즘들은 한가지 저금수준 내용정보만을 이용하여 동영상을 요약하였기 때문에 요약하는 사용자의 주관을 반영할 수 없다는 단점이 있다. 즉, 동영상 요약이라는 것은 내용에 대한 전반적인 이해에 바탕을 두고 중요한 샷을 선택하는 것이라고 정의할 수 있는데 이 경우에 중요한 샷이라고 결정하는 것은 요약자의 주관에 따라 달라질 수 있기 때문에 사용자의 주관을 반영한 수 없다는 것은 큰 단점으로 대두될 수 있다. 본 논문에서는 사용자의 요구를 반영하는 동영상 요약 알고리즘을 제시한다. 알고리즘에서는 일반적으로 많이 사용하는 동영상 요약에 대한 목적함수와 이들에 대한 가중치를 이용한다. 본 논문에서는 동영상 요약을 목적함수를 극대화 시킬 수 있는 샷들의 집합으로 정의하는데 이 경우 문제점으로 제시될 수 있는 것이 계산량이 많다는 것이다. 즉, n개의 샷을 가진 동영상에 대하여 2$^n$번의 계산량이 필요하기 때문에 전체 알고리즘의 수행 시간이 많아지는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위하여 빠른 시간에 근사 샷들의 집합을 구할 수 있는 Simulated Annealing 알고리즘을 이용하였다. 실험 결과에 의하면 본 논문의 알고리즘은 요약자의 주관을 반영시킬 수 있고, Simulated Annealing 을 이용하여 빠른 시간에 원하는 요약을 할 수 있음을 확인하였다. 본 논문의 알고리즘은 동영상을 대상으로 하는 디지털 비디오 라이브러리와 같은 응용 분야에 이용할 수 있을 것이다.

한국어 논문 요약을 위한 KoBART와 KoBERT 모델 비교* (Comparison of KoBART and KoBERT models for Korean paper summarization)

  • 전제성;이수안
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.562-564
    • /
    • 2022
  • 통신 기술의 발전으로 일반인들도 다양한 자료들을 인터넷에서 손쉽게 찾아볼 수 있는 시대가 도래하였다. 개인이 접근할 수 있는 정보량이 기하급수적으로 많아 짐에 따라, 이를 효율적으로 요약, 정리하여 보여주는 서비스들의 필요성이 높아지기 시작했다. 본 논문에서는, 자연어 처리 모델인 BART를 40GB 이상의 한국어 텍스트로 미리 학습된 한국어 언어 모델 KoBART를 사용한 한국어 논문 요약 모델을 제안하고, KoBART와 KoBERT 모델의 한국어 논문 요약 성능을 비교한다.

  • PDF

학술지 논문의 결론 구조 경향 분석 (Analysis of Research Article Conclusions)

  • 김갑선
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2018년도 제25회 학술대회 논문집
    • /
    • pp.51-54
    • /
    • 2018
  • 본 연구는 문헌정보학 학술지 논문의 결론 장(chapter)의 특색을 분석하기 위하여 결론의 분석도구를 개발하고, 결론의 구조와 경향성을 파악하는데 있다. 연구 결과, 문정학 학술지 논문의 결론 장은 평균 4.2개의 구성요소로 구성되었다. 결론 제목은 '결론'이 절반 이상이며, 그 다음은 '결론 및 제언' 이었다. 각 구성요소별 출현빈도는 '연구결과 요약'이 단연 우세하며, '연구전체 요약', '후속연구 제언', '연구 의의' 순이었다. 서술 분량은 '연구결과 요약'이 가장 우세하며, 결론의 절반 이상을 차지하였다. 결론을 시작하는 첫 번째 요소로 가장 우세한 요소는 '연구결과 요약'이며, 결론을 마무리하는 최종 요소로 가장 우세한 것은 '후속연구 제언'이었다. 문헌정보학 학술지 논문 결론 구조의 핵심 구성요소이자 핵심기능은 '요약하기'의 구성요소인 '연구결과 요약'과 '연구전체 과정 요약'이다. 이는 결론을 기술하는데 필수 요소로 밝혀졌다. '적용하기','확대하기'에 포함된 여타의 요인은 선별적 요인으로 적용하고 있었다.

  • PDF

언어 모델의 뉴스 도메인 요약 성능 비교 분석 (Comparative Analysis of Language Model Performance in News Domain Summarization)

  • 류상원;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.131-136
    • /
    • 2023
  • 본 논문에서는 기존의 요약 태스크에서 주로 사용하는 인코더-디코더 모델과 디코더 기반의 언어 모델의 성능을 비교한다. 요약 태스크를 평가하는 주요한 평가 지표인 ROUGE 점수의 경우, 정답 요약문과 모델이 생성한 요약문 간의 겹치는 단어를 기준으로 평가한다. 따라서, 추상적인 요약문을 생성하는 언어 모델의 경우 인코더-디코더 모델에 비해 낮은 ROUGE 점수가 측정되는 경향이 있다. 또한, 최근 연구에서 정답 요약문 자체의 낮은 품질에 대한 문제가 되었고, 이는 곧 ROUGE 점수로 모델이 생성하는 요약문을 평가하는 것에 대한 신뢰도 저하로 이어진다. 따라서, 본 논문에서는 언어 모델의 요약 성능을 보다 다양한 관점에서 평가하여 언어 모델이 기존의 인코더-디코더 모델보다 좋은 요약문을 생성한다는 것을 보인다.

  • PDF

정확한 정수 합동 분석을 위한 역방향 요약 연산자 정의 (Backward Abstract Arithmetic Operations for Integer Congruence Analysis)

  • 서선애
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.652-654
    • /
    • 2002
  • 정수 합동 분석(integer congruence analysis)은 프로그램 변수들의 의미 영역을 정수 합동(integer congruence) 집합으로 정의하여 분석한다. 정수 합동 분석을 위한 정수 합동 격자(lattice of integer congruences)와 순방향 요약 산술 연산자에 대한 정의는 이미 p. Granger에 의해 소개되었다. 하지만, 분석의 정확도에 영향을 미치는 역방향 요약 산술 연산자에 대한 연구는 아직 되어 있지 않다. 이 논문에서는 정수 합동 분석을 위한 역방향 요약 산술 연산자를 정의한다. 역방향 요약 산술 연산자를 정의하는 방법은 정수 방정식을 푸는 방법을 기반으로 고안되었다. 정의된 역방향 요약 산술 연산자는 프로그램 분석의 정확도를 높이는데 기여를 할 수 있는데, 이 논문에서는 예제를 통해서 이 사실을 보인다.

  • PDF

복사-메커니즘과 추론 단계의 페널티를 이용한 Copy-Transformer 기반 문서 생성 요약 (Copy-Transformer model using Copy-Mechanism and Inference Penalty for Document Abstractive Summarization)

  • 전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.301-306
    • /
    • 2019
  • 문서 생성 요약은 최근 딥러닝을 이용한 end-to-end 시스템을 통해 유망한 결과들을 보여주고 있어 연구가 활발히 진행되고 있는 자연어 처리 분야 중 하나이다. 하지만 문서 생성 요약 모델을 구성하기 위해서는 대량의 본문과 요약문 쌍의 데이터 셋이 필요한데, 이를 구축하기가 쉽지 않다. 따라서 본 논문에서는 정교한 뉴스 기사 요약 데이터 셋을 기계적으로 구축하는 방법을 제안한다. 또한 딥러닝 기반의 생성 요약은 입력 문서와 다른 정보를 생성하거나, 또는 같은 단어를 반복하여 생성하는 문제점들이 존재한다. 이를 해결하기 위해 요약문을 생성할 때 입력 문서의 내용을 인용하는 복사-메커니즘과, 추론 단계에서 단어 반복을 직접적으로 제어하는 페널티를 사용하면 상대적으로 안정적인 문장이 생성될 수 있다. 그리고 Transformer 모델은 순환 신경망 모델보다 요약문 생성 과정에서 시퀀스 길이가 긴 본문의 정보를 적절히 인코딩하여 줄 수 있는 모델이다. 따라서 본 논문에서는 복사-메커니즘과 추론 단계의 페널티를 이용한 Copy-Transformer 모델을 한국어 문서 생성 요약 데이터에 적용하였다. 네이버 지식iN 질문 요약 데이터 셋과 뉴스 기사 요약 데이터 셋 상에서 실험한 결과, 제안한 모델을 이용한 생성 요약이 비교 모델들 대비 가장 좋은 성능을 보이고 양질의 요약을 생성하는 것을 확인하였다.

  • PDF

요약 해석 및 응용 (Abstract Interpretation and its Applications)

  • 창병모
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제13권3호
    • /
    • pp.9-17
    • /
    • 2000
  • 본 논문에서는 시맨틱스를 기반으로한 대표적인 프로그램 분석 틀로써 최근에 활발한 연구가 진행되고 이는 요약 해석의 기본 개념에 대해서 소개하고 명령형 혹은 객체-지향 언어에서 많이 사용되고 있는 동작 시맨틱스를 기초로 하는 요약 해석에 대해서 설명한다. 또한 최근까지 소개된 요약 해석을 이용한 다양한 응용 분야에 대해서 설명한다.