• Title/Summary/Keyword: 한글문서

Search Result 625, Processing Time 0.02 seconds

Similarity calculation between national R&D reports using co-occurrence (문서의 공기관계를 이용하여 국가 R&D 보고서간 유사도 계산)

  • Kim, Nam-Hun;Joo, Jong-Min;Park, Hyuk-Ro;Yang, Hyung-Jeong;Choi, Kwang-Nam
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.201-204
    • /
    • 2016
  • 본 논문에서는 문서의 공기관계를 통해 추출된 문서의 특징을 이용하여 유사 보고서를 판별하는 시스템을 제안한다. 국가 R&D 보고서의 XML형식 파일에서 텍스트를 추출 후, 문장 단위로 나누어 각 문장의 공기 관계를 추출한다. 그 후 공기관계의 노드와 엣지를 문서에 추가하고, 노드로 사용된 단어만 남기고 나머지 단어는 제외한다. 그리고 이것을 문서의 특징으로 삼고 유사도 계산을 한다. 이 때, 유사도 계산은 코사인 유사도를 사용한다. 실험결과, 국가 R&D문서 유사도 계산에서 제안된 방법이 기존의 방법보다 높은 분류율을 보여주었다.

  • PDF

Extraction of Meaningful Tables from The Web Documents (웹 문서 중 의미 있는 표의 추출)

  • Jung, Sung-Won;Lee, Won-Hee;Kim, Young-Gi;Kwon, Hyuck-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.332-339
    • /
    • 2002
  • 현재까지 정보 검색 시스템은 색인어 위주로써 문서의 구조적 정보를 고려하지 알았다. 글자의 크기나 글자체, 들여 쓰기, 표 등은 저자의 의도를 구체화하며, 문서를 명확하게 하는 주요한 수단이다. 이 연구에서는 특히 표에 주목한다. 표는 많은 문서에 일반적으로 쓰이며, 글을 명확하게 해 준다. 일반 문서에 비해서 웹 문서는 태그를 이용하여 정보를 추가할 수 있어 표를 쉽게 구분할 수 있다. 하지만, 웹 상의 표는 지식을 구조화하는 근본적인 목적이외에, 단순히 화면을 정렬하려고 하는 목적으로도 많이 쓰인다. 이 연구에서는 정보 검색시스템에 표 정보를 사용하기 위한 전처리 단계로 의미 있는 표를 추출하는 방법을 제시하며, 이를 위하여 결정 트리를 사용한다.

  • PDF

Metasearch for Website Finding (사이트 검색을 위한 메타 검색)

  • Lee, Yeo-Jin;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.245-252
    • /
    • 2002
  • 여러 검색 엔진이 낸 결과를 결합하여 성능의 향상을 얻고자 하는 정보 검색 방법을 메타 검색(metasearch)이라고 한다. 정보 검색에서의 사용자 요구가 다양화되고 있지만, 기존의 메타 검색에 관한 연구는 이를 제대로 반영하지 못하고 웹 문서를 대상으로 검색(topic relevance task)한 결과를 결합하는 데에만 치중해 있다. 최근에는 사이트 검색(entry page finding task)만을 목적으로 한 시스템도 개발되고 있다. 본 논문에서는 사이트 검색 엔진들의 결과를 결합하는 메타 검색 방법을 제시한다. 웹 문서 검색 결과를 결합시에는 여러 검색 엔진에서 중복(overlap)하여 나타난 문서에 가중치를 두는 방법이 효과적이다. 하지만 이 방법을 그대로 사이트 검색에 적용하면 웹 문서 검색에서와 같은 좋은 결과를 낼 수 없다. 본 논문에서는, 여러 검색 엔진에 중복하여 나타난 문서에 가중치를 두는 것보다는 그 문서가 속한 사이트를 고려하여 사이트 단위로 중복된 정도를 반영하는 것이 사이트 검색 엔진의 견과를 결합하는 데 더 효과적임을 보인다.

  • PDF

Cross Field Searching Model for Field Structured Documents (필드 구조 문서를 위한 교차 필드 검색 모델)

  • Yun, Bo-Hyun;Wang, Ji-Hyun;Kang, Hyun-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.224-230
    • /
    • 2000
  • 기존의 전문 검색 시스템은 문서를 단지 단어의 연속이라는 제한적 관점에서만 바라보았다. 또한 기존의 필드 검색 시스템은 고정된 필드를 색인 및 검색대상으로 하거나, 문서의 내용이 아닌 메타 정보에 관한 검색만이 가능하였다. 본 논문에서는 내용과 필드 구조를 통합하여 가변 필드 구조 문서를 색인 및 검색하는 모델인 교차 필드 검색 모델을 제안한다. 기존 정보검색 시스템의 기능을 기본으로 제공하면서 필드구조를 색인/검색하기 위한 기능적 요구사항을 제시하고, 내용 및 필드 구조를 색인하면서 동적인 삽입/삭제가 가능한 색인 구조를 제안한다. 아울러 검색시에 문서 가중치를 계산하여 문서를 순위조정하는 불리언 모델, 확장 불리언 모델, 벡터 공간 모델의 변형 모델을 제시한다. 아울러 구현 사례로 STEER-XDS 검색 시스템에 대해 알아본다.

  • PDF

A Development of XML-Based ]Repository Management System for a thesis database (XML 기반 학술지 데이터베이스 저장관리시스템의 개발)

  • 조남선;김우성;서인홍
    • Proceedings of the KAIS Fall Conference
    • /
    • 2001.05a
    • /
    • pp.330-333
    • /
    • 2001
  • 학술지 데이터 베이스 구축에 있어서 가장 주요한 문제점온 기존 문헌의 디지털화이다. 기존 문헌을 디지털화함에 있어서 택할 수 있는 방법은 문서 인식기(OCR)를 통한 자동인식과 수작업을 통해서 컴퓨터로 입력하는 방법이 있다. 전자의 방법은 현재의 한글 문서 인식기술로 볼 때 인식률이 저조하고, 인식기를 통한 자동인식에서 발생된 오류를 수정하는 비용이 수작업으로 입력하는 비용에 비해 더 크다고 판단된다. 따라서 자료의 입력은 수작업으로 하는 것이 효율적이다 학술지 데이터 베이스들 구축하고 이를 서비스하기 위해 서는 입력된 텍스트 데이터를 표준화하여 구조적으로 변환/편집해야 한다. 이는 구조문서 표준이라 할 수 있는 XML의 이용이 필요하다는 말이기도 할 것이다. 또한 디지털화 된 문서를 효율적으로 활용하고 관리하기 위해서는 비쥬얼한 구조문서 저장 관리기가 필요하다. 본 논문에서는 디지털화 된 텍스트를 구조적인 XML문서로 변환하여 효과적으로 저장 관리 할 수 있는 저장관리기를 설계하고 개발하였다.

Dense Retrieval using Pretrained RoBERTa with Augmented Query (증강된 질문을 이용한 RoBERTa 기반 Dense Passage Retrieval)

  • Jun-Bum Park;Beomseok Hong;Wonseok Choi;Youngsub Han;Byoung-Ki Jeon;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.141-145
    • /
    • 2022
  • 다중 문서 기반 대화 시스템에서 응답 시스템은 올바른 답변을 생성하기 위해서 여러 개의 문서 중 질문과 가장 관련 있는 문서를 검색하는 것부터 시작해야 한다. DialDoc 2022 Shared Task[1]를 비롯한 최근의 연구들은 대화 시스템의 문서 검색 과정을 위해 Dense Passage Retrieval(DPR)[2] 모델을 사용하고 있으며 검색기의 성능 개선을 위해 Re-ranking과 Hard negative sampling 같은 방법들이 연구되고 있다. 본 논문에서는 문서에 기반하는 대화 데이터의 양이 적거나 제한될 경우, 주어진 데이터를 효율적으로 활용해 보고자 검색기를 생성 모델을 이용하여 문서의 엔티티를 기반으로 질문을 생성하고 기존 데이터에 증강하는 방법을 제시했으며 실험의 결과로 MRR metric의 경우 0.96 ~ 1.56의 성능 향상을, R@1 metric의 경우 1.2 ~ 1.57의 성능 향상을 확인하였다.

  • PDF

Korean Text Summarization using MASS with Copying Mechanism (MASS와 복사 메커니즘을 이용한 한국어 문서 요약)

  • Jung, Young-Jun;Lee, Chang-Ki;Go, Woo-Young;Yoon, Han-Jun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.157-161
    • /
    • 2020
  • 문서 요약(text summarization)은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어 내는 작업으로, 기계 번역 작업에서 주로 사용되는 Sequence-to-Sequence 모델을 사용한 end-to-end 방식의 생성(abstractive) 요약 모델 연구가 활발히 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘(copying mechanism) 방법을 적용하고, 한국어 언어 생성(language generation)을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델에 복사 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였다.

  • PDF

Korean Chemical Named Entity Recognition in Patent Documents (특허문서의 한국어 화합물 개체명 인식)

  • Jinseop Shin;Kyung-min Kim;Seongchan Kim;Mun Yong Yi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.522-524
    • /
    • 2023
  • 화합물 관련 한국어 문서는 화합물 정보를 추출하여 그 용도를 발견할 수 있는 중요한 문서임에도 불구하고 자연어 처리를 위한 말뭉치의 구축이 되지 않아서 활용이 어려웠다. 이 연구에서는 최초로 한국 특허 문서에서 한국어 화합물 개체명 인식(Chemical Named Entity Recognition, CNER)을 위한 말뭉치를 구축하였다. 또한 구축된 CNER 말뭉치를 기본 모델인 Bi-LSTM과 KorBERT 사전학습 모델을 미세 조정하여 개체명 인식을 수행하였다. 한국어 CNER F1 성능은 Bi-LSTM 기반 모델이 83.71%, KoCNER 말뭉치를 활용하는 자연어 처리 기술들은 한국어 논문에 대한 화합물 개체명 인식으로 그 외연을 확대하고, 한국어로 작성된 화합물 관련 문서에서 화합물 명칭뿐만 아니라 물성, 반응 등의 개체를 추출하고 관계를 규명하는데 활용 될 수 있을 것이다.

  • PDF

LLaMA2 Models with Feedback for Improving Document-Grounded Dialogue System (피드백 기법을 이용한 LLama2 모델 기반의 Zero-Shot 문서 그라운딩된 대화 시스템 성능 개선)

  • Min-Kyo Jung;Beomseok Hong;Wonseok Choi;Youngsub Han;Byoung-Ki Jeon;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.275-280
    • /
    • 2023
  • 문서 그라운딩된 대화 시스템의 응답 성능 개선을 위한 방법론을 제안한다. 사전 학습된 거대 언어 모델 LLM(Large Language Model)인 Llama2 모델에 Zero-Shot In-Context learning을 적용하여 대화 마지막 유저 질문에 대한 응답을 생성하는 태스크를 수행하였다. 본 연구에서 제안한 응답 생성은 검색된 top-1 문서와 대화 기록을 참조해 초기 응답을 생성하고, 생성된 초기 응답을 기반으로 검색된 문서를 대상으로 재순위화를 수행한다. 이 후, 특정 순위의 상위 문서들을 이용해 최종 응답을 생성하는 과정으로 이루어진다. 검색된 상위 문서를 이용하는 응답 생성 방식을 Baseline으로 하여 본 연구에서 제안한 방식과 비교하였다. 그 결과, 본 연구에서 제안한 방식이 검색된 결과에 기반한 실험에서 Baseline 보다 F1, Bleu, Rouge, Meteor Score가 향상한 것을 확인 하였다.

  • PDF

The Design and Implementation of an Editor Composing DTD and SGML Document (DTD/SGML 문서 저작 도구의 설계 및 구현)

  • Hyeon, Deuk-Chang;Lee, Su-Yeon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.4
    • /
    • pp.944-954
    • /
    • 1997
  • This study addreses the design and implrmentation of korean SGML(Standard Generalized Markup Langu-age)editor capable of ggenerating DTD(Document Type Definition)s,which can be used at the same time to gen-erate HTML documents as well] as SGML documents using interactive method.HTML is an appkication of SGML and HTML DTD is defined according to the syntax of SGML.Therefore it is possible to generate HTML documents of any versions by replacing the corresponding DTDs and using the implemented editor.This system has been implemented using GUI such as Motif and UIL(User Interface Language)in X-window system and C-language for common modules of functions.

  • PDF