• 제목/요약/키워드: 문서 주제

검색결과 329건 처리시간 0.02초

효율적인 문서 처리 작업을 위한 문서집합 나열 (Sequencing Document Clusters to Support Human Annotation Efforts)

  • 나종열;문일철;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2008
  • 온톨로지 어노테이션(Annotation)과정은 수동에 의해 대부분의 문서 처리 작업이 진행되고 있다. 그러므로 계획적이지 않은 문서 처리는 자칫 일관성이나 효율성을 떨어뜨릴 수가 있다. 예를 들어, 처리되는 문서들의 도메인이 자주 바뀌면, 수동 어노테이션을 하는 작업자는 객관성을 잃을 가능성이 높다. 따라서, 본 연구에서는 처리되는 문서집합의 도메인이 최대한 연관성이 유지되도록 처리 문서를 집합하여 나열하는 알고리즘을 소개한다. 첫번째로, 문서들을 유사한 주제 집합으로 형성한다. 두번째로, 두개 이상의 집합에 겹치는 문서들을 계산한다. 마지막으로, 이러한 겹침이 최대화 되도록 문서들의 처리 순서를 나열한다. 본 알고리즘을 IT관련 위키피디아 문서집합을 이용하여 평가를 시행했다. 평가 결과 우리의 알고리즘을 이용하면 처리되는 문서들의 도메인 이동이 무작위로 처리하는 것 보다 연속적이었음을 수치상으로 계산할 수 있었다.

  • PDF

영어 작문 자동채점에서 ConceptNet과 작문 프롬프트를 이용한 주제-이탈 문서의 자동 검출 (Automatic Detection of Off-topic Documents using ConceptNet and Essay Prompt in Automated English Essay Scoring)

  • 이공주;이경호
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1522-1534
    • /
    • 2015
  • 본 연구에서는 미리 구축해 놓은 학습데이터 없이도 입력된 작문이 주어진 작문 주제에 적합한 내용인지 아닌지를 자동으로 판단할 수 있는 방법을 제안한다. ConceptNet은 다양한 종류의 문서에서 추출한 자연언어 문장들로부터 구축된 그래프 형태의 지식베이스이다. 본 연구에서는 작문 주제에 해당하는 작문 프롬프트(essay prompt)와 ConceptNet만을 이용하여 문서의 주제-이탈 여부를 판별하는 방법을 제안한다. ConceptNet에서 두 개념간의 최단 경로를 찾고 이에 대한 의미 유사도를 계산하는 방법을 제안한다. 이를 이용하여 작문 프롬프트와 수험생 작문 내용을 ConceptNet의 개념들로 매핑하고 이 개념들 사이의 의미 유사도를 계산하여 작문 프롬프트와 수험생 작문 사이의 주제 부합 여부를 판단한다. 8개의 작문 시험을 수행하여 얻은 수험생 작문 데이터에 대하여 평가를 수행한 결과 기존의 연구에 비해 좋은 성능을 얻을 수 있었다. ConceptNet을 활용하면 유의미한 단순 추론이 가능하기 때문에 본 연구에서 제안한 방법은 추론을 요하는 작문 문제에도 적용 가능함을 보였다.

워드 임베딩 클러스터링을 활용한 리뷰 다중문서 요약기법 (Multi-Document Summarization Method of Reviews Using Word Embedding Clustering)

  • 이필원;황윤영;최종석;신용태
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.535-540
    • /
    • 2021
  • 다중문서는 하나의 주제가 아닌 다양한 주제로 구성된 문서를 의미하며 대표적인 예로 온라인 리뷰가 있다. 온라인 리뷰는 정보량이 방대하기 때문에 요약하기 위한 여러 시도가 있었다. 그러나 기존의 요약모델을 통해 리뷰를 일괄적으로 요약할 경우 리뷰를 구성하고 있는 다양한 주제가 소실되는 문제가 발생한다. 따라서 본 논문에서는 주제의 손실을 최소화하며 리뷰를 요약하기 위한 기법을 제시한다. 제안하는 기법은 전처리, 중요도 평가, BERT를 활용한 임베딩 치환, 임베딩 클러스터링과 같은 과정을 통해 리뷰를 분류한다. 그리고 분류된 문장은 학습된 Transformer 요약모델을 통해 최종 요약을 생성한다. 제안하는 모델의 성능 평가는 기존의 요약모델인 seq2seq 모델과 ROUGE 스코어와 코사인 유사도를 평가하여 비교하였으며 기존의 요약모델과 비교하여 뛰어난 성능의 요약을 수행하였다.

전위 트리를 이용한 사용자 프로파일 기반의 문서 패턴 검색 기법 (Text Pattern Search Based on User Profile using Prefix Tree)

  • 우호진;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.533-536
    • /
    • 2005
  • 기하급수적으로 증가하는 데이터 중에서 개개인 사용자에게 적합한 정보를 추출하여 제공해야 할 필요성이 증대되고 있다. 본 논문에서는 대용량의 문서 집합으로부터 사용자가 원하는 특정 주제의 정보를 정확하게 추출해 낼 수 있는 문서 패턴 검색 방법을 제시한다. 사용자 선호도를 정확하게 반영할 수 있도록 전위 트리를 기반으로 사용자의 키워드 마이닝 프로파일을 생성하고, 이를 이용하여 문서 집합에서 매치된 패턴을 찾아내는 방법을 제안하였다. 생성된 프로파일을 이용한 검색 기법의 효용성을 실험을 통해 검증하였다.

  • PDF

동적분류에 의한 주제별 웹 검색엔진의 설계 및 구현 (Design and Implementation of Web Directory Engine Using Dynamic Category Hierarchy)

  • 최범기;박선;박태수;송재원;이주홍
    • 인터넷정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.71-80
    • /
    • 2006
  • 웹 검색엔진의 검색방법에는 키워드검색방법과 주제별검색방법이 있다. 키워드검색은 재현율(recoil)이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾는 것이 어렵다. 주제별검색 역시 찾는 문서의 해당 주제가 모호하거나 주제를 정확하게 알지 못하면 문서를 찾지 못하는 경우가 있다. 즉, 검색결과의 정확율(precision)는 높으나 재현율이 떨어진다. 본 논문은 주제별검색의 문제점을 해결하기 위해서 주제와 키워드간의 관계를 퍼지논리로 정량적으로 계산하고, 이를 바탕으로 주제간의 함의(implication)관계를 유도하여 동적인 분류체계를 구성하는 새로운 웹 검색엔진을 설계하고 구현하였다. 구현된 검색엔진은 분류간의 함의관계를 유사한 하위주제로서 간주함으로써 주제별검색 결과의 재현율을 높일 수 있다.

  • PDF

문서 자동요약 기술을 적용한 클라우드 스토리지 기반 지능적 아카이빙 시스템 (Cloud storage-based intelligent archiving system applying automatic document summarization)

  • 유기동
    • 한국산업정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.59-68
    • /
    • 2012
  • 제로 클라이언트 체제는 기업의 문서 중앙화를 위해 제시된 최신의 방법이며, 이를 기업의 현실에 보다 적합하도록 토착화시키는 작업은 필수적이다. 본 연구는 제로 클라이언트 체제의 잘 알려진 보안 및 프라이버시 상의 문제점을 제외한, 사용 상의 문제점을 보완하고자 고안되었다. 즉, 작업자가 작업한 문서를 기업 클라우드 스토리지에 저장하고자 저장 카테고리를 검색하는 과정의 부담과 정확성을 향상시키기 위하여, 작업 문서의 주제어를 자동으로 파악하고, 이를 바탕으로 해당 문서가 저장되어야 하는 카테고리를 자동으로 검색하여 작업자의 확인을 통해 자동 저장되도록 하는, 지능적 아카이빙 방식을 제시한다. 본 연구에서 제시하는 주제어 자동 파악 및 자동 아카이빙을 위한 방법론과 프로토타입 시스템은 기업 환경에 적용이 가능할 정도로 정확성과 확장성을 갖추고 있다.

문서 구조 정보에 기반한 웹 페이지 범주화 모델 (A Web Page Categorization Model Based on Document Structural Information)

  • 정성화;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-96
    • /
    • 1998
  • 본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

  • PDF

링크기반 클러스터링을 이용한 웹 문서 검색의 성능 향상에 관한 실험적 연구 (An Experimental Study on Enhancing the Retrieval Performance for the Web Documents Using Link-Based Clustering Technique)

  • 김혜진;문성빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2002년도 제9회학술대회 논문집
    • /
    • pp.247-252
    • /
    • 2002
  • 본 연구에서는 하이퍼텍스트나 웹 문서의 검색에서 링크로 연결된 문서들이 주제적으로 서로 관련되어 있다는 것을 기반으로 하여 링크정보를 참조한 웹 문서 클러스터링 기법을 제안하였고 이것을 이용하여 검색된 결과를 질의 근접 순위화함으로써 웹 문서 검색의 성능을 향상시키는 방안을 연구하였다. 본 연구에서 사용된 웹 문서 집단은 웹(WWW)을 통하여 직접 수집하였으며 웹 문서가 다른 웹 문서를 링크하고 있을 때를 OutLink, 다른 웹 문서로부터 링크를 받고 있을 때를 InLink로 구분하였다. 실험결과 OutLink를 참조하여 클러스터링을 수행하는 기법과 InLink를 참조하여 클러스터링을 수행하는 기법 모두 검색 성능을 향상시켰다.

  • PDF

TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약 (Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks)

  • 정석원;이현구;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약 (Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks)

  • 정석원;이현구;김학수
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF