• 제목/요약/키워드: Hangul Document

검색결과 41건 처리시간 0.028초

문자 인식을 이용한 한글 문서 검색 (Hangul Document Retrieval Using Character Recognition)

  • 안재철;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

웹 문서 검색을 위한 한글 MG 시스템의 확장 (An Extension of Hangul MG System for Web Document Retrival)

  • 김범수;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.290-292
    • /
    • 2000
  • 최근 국대 인터넷 발전과 더불어 검색엔진들의 수요가 많아지고 있어 크고 작은 검색엔진들이 많이 개발되고 있다. 기존의 디지털 라이브러리에 사용되고 있는 정보 검색 엔진인 한글 MG 시스템을 웹 문서 검색에 적용하는데는 어려움이 있었다. 본 논문은 한글 MG 시스템을 기반으로 웹 사이트의 내부 문서 검색이 가능한 소형검색엔진으로 확장하는데 필요한 웹 로봇에 의한 문서 수집, 수집된 문서의 가공, 메타 데이터의 데이터베이스와, 단락 대 문서 사상, 문서 검색을 위한 질의 루틴의 수정과 웹 검색 및 시스템 관리 인터페이스에 대한 방안들을 제안하여 확장 시스템을 설계하고 구현하였다.

  • PDF

워드프로세서의 전자서명 기능에 대한 취약성 분석 (Vulnerability Analysis on Digital Signature Function of Word Processors)

  • 이창빈;박선우;이광우;김지연;남정현;이영숙;원동호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.109-118
    • /
    • 2011
  • 최근 널리 사용되고 있는 전자문서는 문서가 변경되어도 이를 확인하기 어렵다는 특성을 가지고 있어 위 변조 및 이에 따른 피해가 우려되고 있다. 이에 따라 다양한 워드프로세서들은 전자문서의 신뢰성을 보장하기 위해 전자서명 생성 및 검증 기능을 제공하고 있다. 하지만 이러한 프로그램들이 전자서명 생성 및 검증을 정상적으로 수행하는지에 대한 연구가 미비하여 이를 완전하게 신뢰하기 어렵다는 문제점이 있다. 이에 본 논문에서는 현재 가장 보편적으로 사용되고 있는 워드프로세서인 Microsoft사의 Word와 한글과컴퓨터사의 한글의 전자서명 기능에 대한 안전성 분석과 개선방안을 제안한다.

문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색 (Keyword Spotting on Hangul Document Images Using Character Feature Models)

  • 박상철;김수형;최덕재
    • 정보처리학회논문지B
    • /
    • 제12B권5호
    • /
    • pp.521-526
    • /
    • 2005
  • 본 논문에서는 저 품질의 한글 문서 영상에서 OCR 기반 검색 시스템의 대안으로 키워드 검출 시스템(Keyword Spotting)을 제안하고 OCR 기반 문서 검색 시스템과 비교한다. 제안 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분리하면서 문자 넓이 값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안한다. 키워드 특징은 서체별 문자 모델의 결합으로 구성한다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대 단어 매칭 방법을 적용한다. 본 논문에서 제안한 키워드 검출 시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 글자 크기가 작고 문서의 상태가 좋지 않은 경우 제안한 키워드 검출 시스템에 의한 검색 성능이 OCR 기반 검색 시스템 보다 우수함을 입증하였다.

카메라 기반 문서영상에서의 문자 추출 (Text extraction from camera based document image)

  • 박희주;김진호
    • 한국산업정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.14-20
    • /
    • 2003
  • 본 논문에서는 카메라로 획득한 문서영상에 대해 조명의 영향에 관계없이 고속으로 문자영역을 추출하는 알고리즘을 제안하였다. 카메라 문서는 스캐너 문서와는 달리 주변 환경이나 조명의 영향으로 인하여 문자영역을 추출하는 것이 매우 어렵다. 먼저 영상 사전처리 단계에서 컬러영상을 명도영상으로 변환한 후 조명의 영향에 무관하게 배경 그림으로부터 문자 영역을 정확히 추출하기 위해서 명도레벨 정규화를 사용하였다. 또한 배경 그림 및 잡음은 제거하고 문자 획의 손실 없이 문자 영역을 추출하기 위하여 국소-적응적-이진화-방법(local adaptive binarization method)을 새롭게 개발하여 문서영상을 이진화시켰다. 문자영역 추출 단계에서는 수평 및 수직 투영과 연결요소 정보에 의해 문자열, 단어 및 개별 문자 영역을 단계적으로 추출하였다. 제안된 방법의 타당성을 검증하기 위하여 ETRI에서 구축한 한글/영어/숫자/특수기호가 혼합된 현장 문서영상 DB를 가지고 실험해 보았다.

  • PDF

웹 기반하의 국어의 로마자 전사 표기 자동 변환 시스템 (Automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.108-114
    • /
    • 2002
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 국어의 로마자 표기 자동변환이 가능하게 설계 및 구현하였다. 특히, 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 유니코드(Unicode)와 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(')등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

웹 기반하의 국어의 로마자 표기 자동 변환 시스템 설계 (Design of automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.6-11
    • /
    • 2001
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 자동변환이 가능하게 설계하였다. 특히 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 레이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(´)등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

한글 문서 인식 시스템 SILNOON (SILNOON: A Hangul Document Recognition System)

  • 이승호;조창제;김일영;오세창;조성배;김진형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.132-136
    • /
    • 1989
  • 본 논문에서는 한국과학기술원 전산학과 인공지능연구실에서 개발하고 있는 한글 문서 인식 시스템 SILNOON을 소개한다. 본 연구는 인쇄체 한글로 작성된 문서를 자동으로 인식하여 컴퓨터 화일로 저장하고, 인식된 문서를 편집 및 수정하여 레이저 프린터를 통하여 출력할 수 있는 실용적인 한글 문서 인식 시스템의 개발을 그 목적으로 하고 있다. SILNOON 시스템은 크게 전처리, 문자 인식, 후처리 등의 세 단계로 구성되어 있다. 본 논문에서는 SILNOON 시스템의 각 구성 단계에 대하여 설명하고 개인용 컴퓨터 상에서 구현되어 있는 시제품을 가지고서 실험한 결과를 발표한다.

  • PDF

Mobile PC를 이용한 절토사면 현황조사에 관한 연구 (A Study on Inventory of Cut-Slope using the Mobile PC)

  • 이종현;김승희;김승현;구호본
    • 한국지반공학회:학술대회논문집
    • /
    • 한국지반공학회 2008년도 춘계 학술발표회 초청강연 및 논문집
    • /
    • pp.813-820
    • /
    • 2008
  • We have developed inventory database program which is available in the mobile PC. The mobile PC is convenient in terms of portability, data input, modification, practicality of various program and data confirmation in site. By utilizing the inventory database program in mobile PC, we are able to complete database in site. Then, database is converted into the Hangul document and Excel worksheet. Also, based on the above procedure, effective management and utilization of inventory on cut-slope can be achieved.

  • PDF