• Title/Summary/Keyword: 한글문서 정보

Search Result 572, Processing Time 0.025 seconds

End-to-end Document Summarization using Copy Mechanism and Input Feeding (Copy Mechanism과 Input Feeding을 이용한 End-to-End 한국어 문서요약)

  • Choi, Kyoungho;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.56-61
    • /
    • 2016
  • 본 논문에서는 Sequence-to-sequence 모델을 생성요약의 방법으로 한국어 문서요약에 적용하였으며, copy mechanism과 input feeding을 적용한 RNN search 모델을 사용하여 시스템의 성능을 높였다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, input feeding과 copy mechanism을 포함한 모델이 형태소 기준으로 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

  • PDF

Korean Open Domain Question Answering System Using KorQuAD (KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템)

  • Cho, Sanghyun;Kim, Minho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.321-325
    • /
    • 2019
  • 오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

  • PDF

A Natural Language Information Retrieval Model using Automatic Network and Two-level Document Ranking (자동 키워드망과 2단계 문서 순위 결정에 의한 자연어 정보검색 모델)

  • Kang, Hyun-Kyu;Park, Se-Young;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.8-12
    • /
    • 1995
  • 본 논문은 정보검색에서 사용자에게 순서화된 문서를 제시하기 이전에 1차로 검색된 문서들에 대하여 자동 키워드망과 2단계로 문서 순위 결정하는 모델에 대하여 논하였다. 자연어 검색을 위한 색인은 자동으로 구축된 키워드 색인으로 1차로 자연어 검색을 하고, 2차로 자동 키워드망을 이용한 순위재조정을 통해 검색효율의 향상에 관해 검색 효율을 평가하여 1차 검색 결과보다 최대 10.9%의 검색효율 향상을 보였다. 또한 문서 순위 조정 방법에 있어서 여러 가지 공식을 비교 분석하였으며 내용 검색을 반영하는 공식을 찾았다. 본 논문에서 제시한 2단계 순위 결정 방법은 리스트를 기반으로 하는 정보 검색의 분야에 적용되어 검색효율을 높일 수 있는 한가지 방법이 될 수 있을 것이다.

  • PDF

Unsupervised News Article Summarization Using VNA Sets (VNA 집합을 이용한 뉴스기사의 중요문장 추출)

  • Na, Jong-Yeol;Sin, Ji-Ae;Choe, Gi-Seon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.165-168
    • /
    • 2007
  • 본 연구에서는 문서의 문장들을 순위화하여 추출하는 일반적인 문서 요약 방법론을 소개한다. 첫 번째 단계는 주제와 관련되는 동사, 명사, 형용사(VNA) 단어들의 집합을 구하여 각 문장의 주제 관련성 정도를 결정하며, 두 번째 단계는 단어들의 의존관계를 통해 각 문장의 정보 함유량을 판단한다. 두 개의 방법은 모두 주제와 관련된 정보를 많이 내포하는 문장에 중요도를 부여하고 있다. 이러한 방법은 주제와 연관성이 높고 정보전달성이 높은 문서요약을 만들기 위함이다. 생성된 문서요약본의 성능평가는 문서요약의 결과로 추출된 문장들과 설문에 의해 추출된 문장들의 일치율에 의해 시행되었으며 68%의 일치율을 보였다.

  • PDF

Sentence Interaction-based Document Similarity Models for News Clustering (뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들)

  • Choi, Seonghwan;Son, Donghyun;Lee, Hochang
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

Quality Prediction of Knowledge Search Documents Using Text-Confidence Features (신뢰도 자질을 이용한 지식검색 문서의 품질 평가)

  • Lee, Jung-Tae;Song, Young-In;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.62-67
    • /
    • 2007
  • 불특정 사용자의 참여에 의해 정보가 생성되는 지식검색 서비스에서는 문서의 품질이 검색 만족도에 중요한 요소 중 하나이다. 지식검색 문서의 품질 평가에 관한 기존 연구는 조회 수나 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었지만, 새로 작성된 문서와 같은 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가 자질로서 문서 내용의 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여나 이용을 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실험에서 보였으며, 추후 자질 추출 방법을 개선한다면 효과적인 품질 평가 자질로서 기능을 할 수 있을 것으로 기대된다.

  • PDF

Nonlinear Character Segmentation and Recognition Using Topographic Features in Hangul String Images (한글 문자열 영상의 지형적 특징을 이용한 비선형 문자 분할 및 인식)

  • Lee, Dong-June;Lee, Seong-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.201-206
    • /
    • 1994
  • 문서 인식 시스템의 성능을 저하시키는 가장 큰 원인 중의 하나로 문자 분할 오류를 들 수 있는데 보다 우수한 성능의 문서 인식 시스템 개발을 위해서는 정확한 문자 분할 방법이 절실히 요구된다. 기존의 문자 분할에 관한 연구들은 이진 영상을 대상으로 함으로써 접촉되거나 겹치는 문자의 경계 부분에서 문자 분할에 유용한 정보들을 잃어 문자 분할 오류를 초래할 수 있다. 하지만 명도 영상을 분석해 보면 문자의 접촉 부분에서 주로 나타나는 지형적 특징이 있으며, 문자 경계에서 명도값이 변하는 것을 관찰할 수 있는데 이와같은 명도 영상의 정보를 사용하면 보다 효과적으로 문자를 분할할 수 있을 것으로 판단된다. 본 연구에서는 이러한 점에 착안하여 명도 영상으로부터 지형적 특징을 추출하고 다단계 그래프 탐색 방법을 이용하여 명도값을 추적함으로써 비선형 문자 경계를 찾는 새로운 문자 분할 방법을 제안한다. 제안된 방법은 명도 문자열 영상을 입력으로 받아 명도 영상의 투영값과 명도 영상으로부터 추출된 지형적 특성을 이용하여 문자 분할 영역을 결정하고 문자 분할 영역내에서 다단계 그래프 탐색에 의한 비선형 문자 분할 경로를 찾는다. 그리고 문자 인식기와 결항하여 최종 문자 분할 위치를 확정하는 인식 결과를 이용한 문자 분할을 수행함으로써 문자 분할 위치 및 문자 인식 결과를 확정한다. 다양한 문서에 대한 실험 결과 제안된 방법이 이진 정보만을 사용하는 방법보다 접촉 혹은 겹친 문자 분할에 매우 효과적임을 알 수 있었다.

  • PDF

Text Undestanding System for Summarization (텍스트 이해 모델에 기반한 정보 검색 시스템)

  • Song, In-Seok;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

An Information Retrieval Model based on an Ergodic Markov Model (Ergodic Markov Model을 이용한 정보 검색 모델)

  • Kang, In-Ho;Lee, Yeo-Jin;Han, Young-S.;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.57-62
    • /
    • 2001
  • 인터넷의 급속한 양적 증가로 인해 색인어 기반의 검색 방식만으로는 원하는 정보를 찾아 내기가 쉽지 않다. 색인어 기반의 검색 방식에서는 색인어로 나타나지 않는 특징을 이용할 수 없으며, 질적으로 균등한 검색 결과를 제시하지 못하기 때문이다. 따라서 사이트의 여러 가지 특성에 따라 계층적으로 분류해놓은 웹 디렉토리를 이용하거나, 관련 전문가들의 추천 리스트를 이용하여 검객하기도 한다. 본 연구에서는 기존의 색인어 기반의 검색 모델에 웹 디렉토리와 추천 문서 같은 문서간의 링크 정보를 결합할 수 있는 정보 검색 모델을 제시한다. 특정 질의어의 검색 결과로 얻어낸 문서와 그 문서와 연결된 문서 집합을 이용하여 네트워크를 구성한다. 이 네트워크에 검색기가 제시하는 순위와 유사도, 그리고 문서간의 링크 정도를 이용해서 확률값을 정해준다. 그리고 Ergodic Markov Model의 특성을 이용하여 색인어 정보와 링크 정보를 결합한다. 본 연구에서는 특정 문서가 질의어에 부합되는 정도를 사용자가 그 문서로 이동할 확률값으로 계산하는 방식을 보인다.

  • PDF

The design and implementation of automatic translation system for hangul's romanization ( A study on mechanic conversion using transcription ) (한글 로마자 자동 표기 시스템 설계 및 구현 ( 전사법(轉寫法) 기계적 변환에 관한 연구 ))

  • Kim, Hong-Sop;Pak, Jong-Sop;I, Hyon-Kol
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.437-447
    • /
    • 1993
  • 국제 협약에 따라 한글에 관한 정보는 로마자로 표기해야 한다. 우리나라는 1959년 2월 로마자 표기법'을 제정, 수차례 개정을 통해 1983년 6월 문교부(Ministry Of Education)안을 발표했으나, 표지판, 역명, 교과서, 공공문서들에서 활용되었지만, 영자신문, 외국 학술지등은 M-R( Mccune-Reishauer ) 표기법을, 인명, 신문 및 방송매체 등은 혼합표기방식을 사용함으로써 인(人). 지명(地名), ID, 대표어등 정보 검색시 혼란을 야기시켰고, 개정안에 따를 표기 정정으로 수백억원에 가까운 예산을 낭비하였으며, 최근 ISO(International Standard Organization)에서는 남북한 단일화 및 기계적 변환을 요구하고 있으나, 반달표 표기곤란, 편리성 결여, 북한의 주장등의 사유로 제정등을 거론하고 있는 실정에 있다. 잘 쓰지 않는 ASCII 코드 중에서 반달점 폰트를 제작하고 단어, 문장, 문서를 STRING으로 받아 알고리즘화된 음운법칙을 적용하여 소리글자로 변환하고 MOE테이블에서 대응글자를 참조하여 기계적 변환이 가능하도록 하였으며, 세련된 디자인, 풀다운 팝업방식을 채택, 2HD 1장으로 국내최초로 개발하였다.

  • PDF