• 제목/요약/키워드: 특징 기반 요약

검색결과 109건 처리시간 0.029초

내용 기반 하이라이트 요약을 위한 의미 있는 이벤트 검출 (SEMANTIC EVENT DETECTION FOR CONTENT-BASED HIGHLIGHT SUMMARY)

  • 김천석;배빛나라;뉴엔녹탄;노용만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.73-76
    • /
    • 2002
  • 비디오 하이라이트 요약을 위해 내용기반에 의한 의미 있는 이벤트의 검출 방법에 대해 논하였다. 제안된 방법은 비디오 파싱을 포함한 5개의 단계로 구성 되었고, 다수의 기술자가 하위 레벨 특징들의 추출과 정확한 이벤트 검출을 위해 사용 되었다. 특징의 추출에 사용하는 샷과 키 프레임은 이벤트 검출에 힌트가 되는 부분만 사용함으로써 계산 복잡도를 줄였다. 각 샷은 사전에 정의된 추론 방법에 의해 요소가 부여되고, 이들 샷들의 의미를 통합하여 하나의 이벤트가 구성 된다.

  • PDF

NMF 와 코사인유사도를 이용한 질의 기반 문서요약 (Query-Based Text Summarization Using Cosine Similarity and NMF)

  • 박선;이주홍;안찬민;박태수;송재원;김덕환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.473-476
    • /
    • 2006
  • 인터넷의 발달로 인하여 정보의 양은 시간이 지날수록 폭발적으로 증가하고 있다. 이러한 방대한 정보로부터 정보검색시스템은 사용자에게 너무 많은 검색결과를 제시하여 사용자가 원하는 정보를 찾기 위해 너무 많은 시간을 소요하게 하는 정보의 과적재 문제가 있다. 질의 기반의 문서요약은 정보의 사용자가 원하는 정보의 검색시간을 줄임으로써 정보의 과적재 문제를 해결하는 방법으로서 점차 중요성이 증가하고 있다. 본 논문은 비음수 행렬 인수분해 (NMF, Non-negative Matrix Factorization)과 코사인 유사도를 이용하여 질의 기반의 문서를 요약하는 새로운 방법을 제안하였다. 제안된 방법은 질의와 문서 간에 사전학습이 필요 없다. 또한 문서를 그래프로 변형시키는 복잡한 처리 없이 NMF 에 의해 얻어진 의미 특징(semantic feature)과 의미 변수(semantic variable)로 문서의 고유 구조를 반영하여 요약의 정확도를 높일 수 있다. 마지막으로 단순한 방법으로 문장을 쉽게 요약할 수 있다.

  • PDF

어휘의 동시 발생 빈도와 분포를 이용한 다중 주제 회의록 요약 (Multi-Topic Meeting Summarization using Lexical Co-occurrence Frequency and Distribution)

  • 이병수;이지형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제52차 하계학술대회논문집 23권2호
    • /
    • pp.13-16
    • /
    • 2015
  • 본 논문에서는 어휘의 동시 발생 (co-occurrence) 빈도와 분포를 이용한 회의록 요약방법을 제안한다. 회의록은 일반 문서와 달리 문서에 여러 세부적인 주제들이 나타나며, 잘못된 형식의 문장, 불필요한 잡담들을 포함하고 있기 때문에 이러한 특징들이 문서요약 과정에서 고려되어야 한다. 기존의 일반적인 문서요약 방법은 하나의 주제를 기반으로 문서 전체에서 가장 중요한 문장으로 요약하기 때문에 다중 주제 회의록 요약에는 적합하지 않다. 제안한 방법은 먼저 어휘의 동시 발생 (co-occurrence) 빈도를 이용하여 회의록 분할 (segmentation) 과정을 수행한다. 다음으로 주제의 구분에 따라 분할된 각 영역 (block)의 중요 단어 집합 생성, 중요 문장 추출 과정을 통해 회의록의 중요 문장들을 선별한다. 마지막으로 추출된 중요 문장들의 위치, 종속 관계를 고려하여 최종적으로 회의록을 요약한다. AMI meeting corpus를 대상으로 실험한 결과, 제안한 방법이 baseline 요약 방법들보다 요약 비율에 따른 평가 및 요약문의 세부 주제별 평가에서 우수한 요약 성능을 보임을 확인하였다.

  • PDF

다중 비주얼 특징을 이용한 어학 교육 비디오의 자동 요약 방법 (Automatic Summary Method of Linguistic Educational Video Using Multiple Visual Features)

  • 한희준;김천석;추진호;노용만
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1452-1463
    • /
    • 2004
  • 양방향 방송 서비스로의 전환을 맞아 다양한 사용자 요구 및 기호에 적합한 컨텐츠를 제공하고, 증가하는 방송 컨텐츠를 효율적으로 관리, 이용하기 위해 비디오의 자동 에 대한 요구가 증가하고 있다. 본 논문에서는 내용 구성이 잘 갖추어진 어학 교육 비디오의 자동 에 대한 방법을 제안한다. 내용 기반을 자동으로 생성하기 위해 먼저 디지털 비디오로부터 샷 경계를 검출한 후, 각 샷을 대표하는 키프레임으로부터 비주얼 특징들을 추출한다. 그리고 추출된 다중 비주얼 특징을 이용해 어학 교육 비디오의 세분화된 내용 정보를 결정한다. 마지막으로, 결정된 내용 정보를 기술하는 요약문을 MPEG-7 MDS(Multimedia Description cheme)에 정의된 계층적 (Hierarchical Summary) 구조에 맞추어 XML 문서로 생성한다. 외국어 회화 비디오에 대해 실험하여 제안한 자동 방법의 효율성을 검증하였으며, 제안한 방법이 교육 방송용 컨텐츠의 다양한 서비스 제공 및 관리를 위한 비디오 요약 시스템에 효율적으로 적용 가능함을 확인하였다.

  • PDF

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

Doc2Vec을 이용한 특허 문서 자동 분류 (Automatic Classification of Patent Documents Using Doc2Vec)

  • 송진주;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

MPEG-7을 기반으로 한 뉴스 동영상 스키마와 요약 생성 방법의 설계 및 구현 (A Design and Implementation of Scheme and Summary Generation Mechanism for News Video based on MPEG-7 MDS)

  • 심진선;정진국;낭종호;김경수;하명환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.577-579
    • /
    • 2002
  • 최근 디지털 동명상의 사용이 증가하면서 자동으로 구조를 분석하는 기술이 필요하게 되었다. 특히 뉴스 동영상은 다른 동영상에 비해 그 구조가 비교적 정명화 되어 있다는 특징 때문에 많은 연구에서 이용되어졌다. 뉴스 동영상을 이용하는 이전의 연구에서 문제점으로 제시될 수 있는 사항은 서로 다른 자료 구조와 시스템 구조로 인 딴 호환성의 부족을 들 수 있다. 본 논문에서 는 이와 같은 호환성 부족을 해결하기 위해 멀티미디어 데이터를 기술하는 표준인 MPEG-7을 기반으로 한 뉴스 동영상 스키마를 제안하였다 특히 전제 뉴스를 보지 않고 효율적으로 뉴스 동영상을 이해할 수 있도록 요약하는 방법을 제시하였으며 MPEG-7의 HDS를 이용하여 기술하였다. 본 논문에서 제안한 방법은 디지털 비디오 라이브러리와 같은 응용 분야에서 유용하게 이용될 수 있을 것이다.

  • PDF

확장된 6하원칙을 이용한 신문기사 자동요약 (An automatic extraction of newspaper articles using expanded 5WlH)

  • 윤재민;강인수;권오옥;배재학;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.466-468
    • /
    • 2002
  • 본 논문은 신문기사를 추출(Extract)하는데 있어서, 신문기사의 구조적인 특징을 분석한 후, 6하원칙(5W1H)과 전문(Lead)과의 관계를 유추하여 신문기사를 효과적으로 요약하기 위한 방법과 알고리즘을 제안하였다. 본 연구에서는 먼저 신문기사에서 가장 중요한 단락인 전문에서 6하원칙의 각 구성성분을 추출하고, 본문에서는 전문에 나타난 6하원칙의 각 성분이 어떻게 재사용되며 강조되고 있는가를 파악하기 위래 제안된 방법과 알고리즘을 이용하여 중요한 문장을 추출하였다. 실험문서는 조선일보 웹사이트에서 제공하는 신문기사 100건을 대상으로 하였으며 요약율이 20%와 30%일 경우 제안한 방법의 정확률은 각각 82.4%와 74.1%로 기존의 전문기반(Lead-based)방법보다 3.6%와 6.3% 향상되었다.

  • PDF

동영상 요약 시퀀스 생성을 위한 하이브리드 유사 프레임 비교 기법 (A Hybrid Comparing Method of a Similar Frame for Generating Video Summarization Sequences)

  • 옥창석;권대건;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.394-397
    • /
    • 2012
  • 멀티미디어의 규모가 급격하게 늘어나고 있는 현재, 영화와 같은 동영상은 용량에 있어 사진과 비교했을 때 상당한 크기를 가지고 있고 그만큼 많은 정보를 담고 있다. 이렇게 많은 정보를 얻기 위해 사용자들은 많은 시간을 소비해야 한다. 이러한 비효율적인 측면의 보완을 위해 동영상의 각 프레임의 유사도를 판단하여 유사한 프레임들은 하나로 모으고, 유사하지 않은 프레임들은 구분하여 요약된 시퀀스로 보여줄 수 있는 방법이 필요하다. 이러한 관점에서 봤을 때 동영상은 시간적 순서에 따라 프레임이 배열되어 있고 인근 프레임 간에는 Coherence가 존재한다는 장점이 있다. 따라서 우리는 이러한 장점을 최대한 이용하여 동영상의 요약 시퀀스를 생성하기 위해 일차적으로 필요한 유사 프레임을 비교할 수 있는 기법을 제안한다. 제안하는 기법은 각 프레임의 공간적인 정보를 활용 할 수 있는 특징점 기반의 기법과, 각 프레임의 색 분포 정보를 활용 할 수 있는 히스토그램 기반의 기법을 Hybrid하게 적용하여 유사 프레임을 판단한다. 제안한 기법을 통해 도출한 결과를 통계학적으로 검증을 위해 널리 사용되는 Precision과 Recall을 이용하여 검증한다.

자막 정보를 이용한 야구경기 비디오의 자동요약 시스템 (An Automatic Summarization System of Baseball Game Video Using the Caption Information)

  • 유기원;허영식
    • 방송공학회논문지
    • /
    • 제7권2호
    • /
    • pp.107-113
    • /
    • 2002
  • 본 논문에서는 자동으로 야구 비디오를 요약하는 방법과 이를 구현한 소프트웨어 시스템을 제안한다. 제안된 시스템은 빠른 수행 속도와 정확성 높은 요약 결과를 추구한다. 이를 위해 압축비디오상의 특징 값에 기반 한 빠른 비디오 분할과 간단한 자막 인식을 수행하여 야구 경기에서 중요한 이벤트들을 검출한다. 또한, 본 시스템은 여러 레벨의 비디오 요약을 지원하기 위해 계층적 구조의 내용 기술을 지원한다.