• Title/Summary/Keyword: 다중문서

Search Result 222, Processing Time 0.031 seconds

Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding (단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.115-119
    • /
    • 2018
  • 다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.

  • PDF

다중측면 모델을 이용한 문서화 지원 시스템

  • 이관호;김창화;백두권
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1991.10a
    • /
    • pp.476-486
    • /
    • 1991
  • 본 연구의 목적은 문서의 다중측면을 고려한 문서화 지원시스템을 구현하는 것이다. 기존의 소프트웨어 개발 문서를 지원하기 위한 시스템은 소프트웨어 개발단계 측면에서의 문서들을 작성하기 때문에 개발 완료후 소프트웨어 이용자를 위한 문서나 서비스 측면에서 필요한 문서들은 새로운 작업을 통해 작성되어야 한다. 따라서 중복되는 자료로 인한 저장 공간의 낭비와 개발비용의 상승을 가져온다. 본 연구에서는 다중 측면 모델을 이용하여 소프트웨어 문서를 정의하고 정형화된 표현으로 문서화과정을 정의했다. 또한 소프트웨어 개발 단계 측면에서 만들어지는 문서 뿐만 아니라 기능측면, 이용자측면에서의 문서를 제공함으로써 다양한 문서지원이 가능한 문서화 지원시스템을 설계한다.

  • PDF

Topic-Based Multi-Document Summarization using Semantic Features of Documents (문서의 의미특징을 이용한 주제 기반의 다중문서 요약)

  • Park, Sun;An, Dong Un;Kim, Chul-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.715-716
    • /
    • 2009
  • 인터넷의 발전은 대량의 정보를 양산하였고, 이러한 대량의 정보 집합 내에서는 비슷한 정보가 재활용 되거나 반복되는 정보중복문제를 가지고 있다. 중복되는 정보들로부터 사용자에게 원하는 정보를 신속히 검색할 수 있도록 하는 정보 요약에 대한 필요성은 점차 증가하고 있다. 본 논문은 비음수 행렬 인수분해(NMF, non-negative matrix factorization)에 의한 문서의 의미특징을 이용하여 주제기반의 다중문서를 요약하는 새로운 방법을 제안한다. 본 논문에서는 다중문서가 포함하고 있는 문서들 간의 고유구조를 문서요약에 이용하여서 요약의 질을 높일 수 있고, 주제와 문장 간의 유사성과 다양성 고려하여서 쉽게 과잉정보를 제거하여 문장을 요약할 수 있는 장점을 갖는다.

Classification of Multiclass Newsgroup Documents Using SVM Learning (SVM 학습을 이용한 다중 클래스 뉴스그룹 문서 분류)

  • 오장민;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.60-62
    • /
    • 1999
  • 다중 클래스 문서분류는 주어진 여러 개의 관심사별로 문서를 선별해 주는 문제이다. 문서 분류 문제의 특징은 문서가 매우 높은 차원으로 표현된다는 것이다. 다른 학습 알고리즘에 비해 SVM 알고리즘은 차원을 전혀 줄이지 않고 문제를 해결한다. 본 논문에서는 SVM 학습 알고리즘을 이용하여 대규모의 뉴스 그룹 문서 분류 문제를 다룬다. 다중 클래스 문서 분류를 위해서 각 클래스에 대한 SVM학습 결과를 효과적으로 결합하였으며 실험을 통하여 SVM과 다른 학습 알고리즘과의 성능을 비교하였다.

  • PDF

Multi-document Summarization Based on Cluster using Term Co-occurrence (단어의 공기정보를 이용한 클러스터 기반 다중문서 요약)

  • Lee, Il-Joo;Kim, Min-Koo
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.2
    • /
    • pp.243-251
    • /
    • 2006
  • In multi-document summarization by means of salient sentence extraction, it is important to remove redundant information. In the removal process, the similarities and differences of sentences are considered. In this paper, we propose a method for multi-document summarization which extracts salient sentences without having redundant sentences by way of cohesive term clustering method that utilizes co-occurrence Information. In the cohesive term clustering method, we assume that each term does not exist independently, but rather it is related to each other in meanings. To find the relations between terms, we cluster sentences according to topics and use the co-occurrence information oi terms in the same topic. We conduct experimental tests with the DUC(Document Understanding Conferences) data. In the tests, our method shows better performance of summarization than other summarization methods which use term co-occurrence information based on term cohesion of document or sentence unit, and simple statistical information.

Automatic Text Classification Using Hybrid Multiple Model Schemes (하이브리드 다중 모델 학습 기법을 이용한 자동 문서 분류)

  • 명순희;조형근;김인철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.253-255
    • /
    • 2002
  • 본 논문에서는 다중 모델 기계학습 기법을 이용하여 문서 자동 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모텔 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고 한 것들인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과, 본 연구에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

  • PDF

Automatic Text Categorization Using Hybrid Multiple Model Schemes (하이브리드 다중모델 학습기법을 이용한 자동 문서 분류)

  • 명순희;김인철
    • Journal of the Korean Society for information Management
    • /
    • v.19 no.4
    • /
    • pp.35-51
    • /
    • 2002
  • Inductive learning and classification techniques have been employed in various research and applications that organize textual data to solve the problem of information access. In this study, we develop hybrid model combination methods which incorporate the concepts and techniques for multiple modeling algorithms to improve the accuracy of text classification, and conduct experiments to evaluate the performances of proposed schemes. Boosted stacking, one of the extended stacking schemes proposed in this study yields higher accuracy relative to the conventional model combination methods and single classifiers.

Multi-Document Summarization Using Tag Cluster (태그 클러스터를 이용한 다중문서요약 기법)

  • Heu, Jee-Uk;Jeong, Jin-Woo;Hong, Hyun-Ki;Lee, Dong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.45-48
    • /
    • 2011
  • 오늘날 인터넷의 빠른 보급으로 인하여 웹 상에 생성되는 문서의 양은 하루가 다르게 늘어나고 있다. 이러한 엄청난 양의 문서들 중 사용자는 자신이 원하는 정보가 담긴 문서를 얻기 위해서는 직접 문서를 검토해야 하며, 많은 시간이 투자 된다는 어려움이 있다. 이러한 사용자들의 어려움을 줄이기 위하여 문서의 핵심을 유지하며 양을 줄이는 다중문서요약기업에 대한 연구가 활발히 진행되어왔다. 본 논문에서는 효율적이고 빠른 문서 요약을 위하여 폭소노미 시스템인 플리커를 통하여 문서 내에 존재하는 각 단어들의 클러스터를 획득하고, 이를 기반으로 단어들의 중요도를 분석하여 중요문장을 추려내는 다중문서요약 기법을 제안한다.

A Study on Layered Electronic Document (계층구조로 운영하는 전자문서에 관한 연구)

  • Lee, Jongkuk;Jeong, Yeonseo;Nam, Kidong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.780-782
    • /
    • 2012
  • 본 논문은 전자문서를 다중 계층적으로 운영하는 구조와 방법을 제시한다. 기존의 전자문서는 단일 계층에서의 작업으로만 이루어졌다. 이런 방식으로는 원본에 변경을 필요하기 때문에 원본을 변경할 수 없는 파일인 경우 (예: Adobe PDF), 전자문서를 보면서 줄을 긋고, 설명을 적는 것과 같은 작업은 전자문서를 출력해서 종이에 작업을 해야 하거나, 원본 문서를 내가 변경 시킬 수 있는 형태의 문서로 제작한 다음, 설명을 적거나, 줄을 긋는 방법을 택하여 왔다. 이런 방법은 원본을 다시 복사해야 하는 불편함과, 저장해야 하는 데이터 용량의 증가 등의 문제를 야기시켜왔다. 이에 본 논문은 위의 문제점들을 해결하기 위해, 전자문서를 다중 계층적으로 운영하는 구조를 제시한다. 즉 다중 계층을 적용시킨 전자문서로 원본에는 전혀 손상을 입히지 않으면서, 설명 자료 등을 첨부시키고, 강조하는 등의 작업을 가능하게 하여 전자문서의 효용성을 높이고자 한다.

Sentence Extraction Using Adapting Method in Multi-Document Summarization (다중문서 요약에서 적응 기법을 이용한 문장 추출)

  • Lim, Jung-Min;Kang, In-Su;Bae, Jae-Hak J.;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.12-19
    • /
    • 2004
  • 기존의 다중 문서요약은 전체 대상문서에 대해서 한번에 요약문을 생산하지만, 본 논문은 요약 대상문서 집합에서 핵심내용을 갖는 문서를 기본 문서로 선택, 임시 요약문장을 추출하고 대상문서 집합에서 순차적으로 문서를 입력받아 중요문장을 추출, 이전에 구축된 요약문장과 현재 추출된 문장을 비교하면서 요약에 필요한 문장을 선택하는 적응 기법을 제안한다. 제안한 방법으로 구현한 시스템은 NTCIR TSC 3에서 사용된 29개의 다중 문서집합을 통해서 성능을 평가하였다. 적응 기법 시스템은 TSC3의 baseline시스템인 Lead 방법보다는 높은 성능을 나타냈지만, TSC 3에 참가한 시스템들과의 비교에서는 월등한 성능 우위를 나타내지 못했다.

  • PDF