• Title/Summary/Keyword: 한글문서 정보

Search Result 572, Processing Time 0.042 seconds

Hangul Document Retrieval Using Character Recognition (문자 인식을 이용한 한글 문서 검색)

  • 안재철;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

SILNOON: A Hangul Document Recognition System (한글 문서 인식 시스템 SILNOON)

  • Lee, Seung-Ho;Cho, Chang-Je;Kim, Il-Young;Oh, Se-Chang;Cho, Seong-Bae;Kim, Jin-H.
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.132-136
    • /
    • 1989
  • 본 논문에서는 한국과학기술원 전산학과 인공지능연구실에서 개발하고 있는 한글 문서 인식 시스템 SILNOON을 소개한다. 본 연구는 인쇄체 한글로 작성된 문서를 자동으로 인식하여 컴퓨터 화일로 저장하고, 인식된 문서를 편집 및 수정하여 레이저 프린터를 통하여 출력할 수 있는 실용적인 한글 문서 인식 시스템의 개발을 그 목적으로 하고 있다. SILNOON 시스템은 크게 전처리, 문자 인식, 후처리 등의 세 단계로 구성되어 있다. 본 논문에서는 SILNOON 시스템의 각 구성 단계에 대하여 설명하고 개인용 컴퓨터 상에서 구현되어 있는 시제품을 가지고서 실험한 결과를 발표한다.

  • PDF

CopyCheck: Korean Document Plagiarism Detection System (CopyCheck: 한글문서 표절검사 소프트웨어)

  • Park, So-Yeong;Jang, Eun-Seo;Kwon, Do-Hyung;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.129-132
    • /
    • 2013
  • 본 논문에서는 대학의 과제물이나 학위 논문 또는 회사의 입사지원서, 자기소개서와 같은 문서에 대하여 표절검사에 활용할 수 있는 소프트웨어인 CopyCheck를 설계 및 개발하였다. CopyCheck는 표절검사 방법을 빠른 검사와 정밀 검사를 두어 보다 사용자가 편리하게 사용할 수 있도록 하였다. 표절검사를 진행한 후, 전체보기와 구간보기, 표절구간 시각화의 3가지 방법을 통해 사용자가 다양한 방법으로 표절 문서를 파악할 수 있도록 도와준다. 또한, 표절검사 결과를 저장할 수 있도록 하여 사용자가 언제든지 다시 볼 수 있도록 하였다.

  • PDF

A Study of developing Hangul text editor for X-Window using a one-byte Hangul code supporting ISO 2022 (ISO 2022 를 따르는 한 바이트 한글 부호계를 지원하는 X-Window용 한글 문서 편집기 개발 연구)

  • Cho, Chung-Lae;Kim, Kyong-Sok
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.73-79
    • /
    • 1995
  • 현재 정보 관련 응용 분야 가운데 ISO 2022 를 따르는 분야가 아주 않은데, 현재 쓰고 있는 한글 부호계들은 ISO 2022 를 절대로 지원하지 못하거나, ISO 2022를 지원하더라도 한글을 재대로 지원하지 못하는 문제가 있다. 이러한 문제를 해결하기 위해서 ISO 2022 를 지원하면서 한글을 제대로 지원하는 새로운 한 바이트 한글 부호계를 만들었다. 새로운 한 바이트 한글 부호계는 요즘 한글 11,172 소리마디를 모두 표현 할 수 있으며, 불완전한 소리마디를 나타내는 방법으로 기존의 채움 글자 방식을 버리고 자연스럽고 한글의 특성에 맞는 뗌 글자 방식을 택하였다. 본 연구에서는 새로운 한 바이트 한글 부호계를 지원하는 X-Window용 한글 문서 편집기를 개발해 봄으로써 그 운용 가능성을 검증하였다. 한 바이트 한글 부호계를 지원하는 문서 편집기의 운용 환경으로 유닉스 운영체제 하에서 돌아가는 X-Window 시스템을 택하였고, 한글 입출력 부분을 모티프 (Motif)의 위짓 (widget) 형태로 구현하여 다른 응용 프로그램에서도 쉽게 한 바이트 한글 부호계를 지원할 수 있게 하였다.

  • PDF

A study on the segmentation and extraction of the pictures and characters in korean document (한글 문서 인식을 위한 문서 영상에서의 문자와 그림의 분리 추출)

  • Lee, In-Dong;Ho, Kang-Tae;Kwon, Oh-Seok;Kim, Tae-Kyun
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.50-53
    • /
    • 1989
  • 한글 문서를 인식하기 위하여 문서 영상에서 문자와 그림을 분리 추출하기 위한 방법에 대하여 논하였다. 분리 추출 방법으로는 실시간으로 입력되는 영상 데이타로부터 문자와 그림 의 경계 위치를 알아내는 방법을 사용하였다. 한글, 영문, 한자, 기호 등의 문자와 그림이 혼합된 A4 크기의 문서 영상을 300 DPI의 해상도로 입력받아 실험하였다. 단 한번의 주사만으로 모든 문자와 그림이 정보 gm름의 순서에 따라 분리 추출되었다. 실험 결과 본 방법은 최소한의 시간과 최소한의 기억 용량으로 완벽한 분리 추출이 가능함을 보였다.

  • PDF

Digitization of Old Korean Texts with Obsolete Korean Characters and Suggestion for Improvement of Information Sharing (옛한글 문서의 전자문서화와 정보공유 방법 제안)

  • Kim, Ha Young;Yoo, Woo Sik
    • Journal of Conservation Science
    • /
    • v.37 no.3
    • /
    • pp.255-269
    • /
    • 2021
  • A vast amount of materials-such as prints, woodblock prints, manuscripts, old novels, and letters-written in old Korean and using old grammar and/or obsolete characters, are collected in many institutions, including the Jangseogak at the Academy of Korean Studies. Digitization of these texts has required a prolonged manual inputting process. Individual researchers, who majored in old Korean, have read and typed the characters into electronic documents, which depends upon individual skill, effort, and approach, and is particularly limiting because none can be significantly increased. To date, only a small proportion of the old Korean document collections, currently kept in storage, have been digitized and made available to the public. Even the electronic formats of the texts prove difficult to displaying correctly, due to the incompatibility between the old Korean characters and the character set on today's electronic devices. To improve the techniques and efficiency of digitizing old Korean texts, it is necessary to develop optical character recognition (OCR), which will analyze images of old Korean documents, as well as input, display, and storage methods.

Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document (한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법)

  • Song, KwangHo;Min, Ji-Hong;Kim, Yoo-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.62-66
    • /
    • 2016
  • 문서의 의미 기반 처리를 위해서 문서의 내용을 대표하는 키워드를 추출하는 것은 정확성과 효율성 측면에서 매우 중요한 과정이다. 그러나 단일문서로부터 키워드를 추출해 내는 기존의 연구들은 정확도가 낮거나 한정된 분야에 대해서만 검증을 수행하여 결과를 신뢰하기 어려운 문제가 있었다. 따라서 본 연구에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 제안한 기법을 활용하여 성능평가를 진행한 결과 기존의 연구들보다 향상된 정확도를 얻을 수 있음을 확인하였다.

  • PDF

Design of Hangul Document Retrieval System Using Signature File Methods (요약화일 기법을 이용한 한글 문서 검색 시스템의 설계)

  • Lee, Jeong-Ki;Kim, Chul-Wan;Chang, Jae-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.47-57
    • /
    • 1993
  • 현재 국내에서 한국형 정보 검색 시스템의 중요성을 인식하고, 이를 국내 기술로 구축하려는 여러 시도들이 진행중에 있다. 이 가운데 정보 검색 시스템 구축에 기반이 되는 정보 저장 하부 구조로서, 한글 문서를 위한 효율적인 문서 검색 기법에 대한 연구는 필수적이다. 본 논문에서는 이를 위해 파일 기법을 이용한 한글 문서 검색 기법을 설계한다. 아울러, 제안된 기법을 토대로 실제 시스템을 구현하여 성능을 분석하였다.

  • PDF

A Hangeul Electronic Publishing System with Preview Function (Preview 기능을 갖는 한글 전자 출판 시스템)

  • Lim, K.T.;Lee, S.Y.;Kim, C.J.
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.178-182
    • /
    • 1989
  • 본 논문용 preview 기능을 갖는 한글 전자출판 시스템에 관한 것이다. 논리구조와 레이아웃 구조로 구조화된 문서를 작성 할 수 있는 문서작성 전용 에디터를 설계하였다. 이는 문서내용의 논리적 특성에 맞게 문서를 작성할 수 있는 내용 중심의 문서작성 에디터로, high level 적으로 문서를 만들 수 있게 한다. 아울러 문서내에서 context sensitive 한 성질을 갖는 그림 및 도표의 영역은 시스템이 자동으로 할당하도록 하는 알고리즘을 구현하였다. 이렇게 자동 할당된 그림 및 도표의 위치와 크기를 페이지 단위로 이동, 조정 할 수 있게 하므로서 이에 따른 텍스트도 적응적으로 처리되게 하였다. 또한 레이아웃 처리된 출력결과를 하드카피 하기 전에 디스플레이상에서 확인할 수 있는 preview 기능을 설계하였다. 본 시스템은 크게 압력부, 레이아웃 처리부, preview부, 출력부로 구성된다. 본 논문에서는 압력부와 레이아웃 처리부, preview부에 중점을 두어 설명하고 처리된 문서의 출력 결과를 보인다.

  • PDF

High Speed Local Text Reuse Detection using IR Approach (정보검색 기법을 이용한 부분 문서 재사용 고속 탐색)

  • Bae, Won-Sik;Jo, Myung-Rae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.63-68
    • /
    • 2008
  • 인터넷의 발달로 지식의 재사용이 폭발적으로 증가하였다. 이는 지식의 확산이라는 측면에서는 바람직하지만 지식의 도용이라는 문제점을 안고 있다. 따라서 문서의 전부나 일부분을 재사용한 것인지를 판단하고자하는 요구가 증가하고 있다. 본 논문에서는 정보검색 기술을 이용하여 문서에서 부분 문서 재사용 및 표절을 탐색하는 방법을 제안한다. 본 논문에서는 대용량 문서의 고속 탐색을 위해서 원본 문서와 대상 문서를 색인하여 검색에 이용한다. 또한 한글의 언어적 특성을 맞게 어순 변경 비교, 기능어 생략 비교, 갭(gap) 비교 등의 다양한 처리 조건을 제공하여 문서 재사용을 탐색할 수 있다. 실험을 통해서 기존의 시스템보다 정확하게 고속으로 문서 재사용 탐색이 가능함을 보였다. 특히 비교 문서가 증가하더라도 비교 시간이 급격하게 증가하지 않으며, 정보검색 기법을 사용하는 경우 취약하다고 알려져 있는 부분 문서 재사용 탐색에도 견고하며, 처리 조건에 따라 유연하게 문서 재사용 탐색이 가능하다.

  • PDF