• 제목/요약/키워드: Hangul Document Information

검색결과 32건 처리시간 0.02초

쿼드트리로 구성된 한글 문서 영상에서의 문자추출에 관한 연구 (EXTRACTION OF CHARACTERS FROM THE QUADTREE ENCODE DOCUMENT IMAGE OF HANGUL)

  • 백은경;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1991년도 추계학술대회 논문집 학회본부
    • /
    • pp.201-204
    • /
    • 1991
  • In this paper the method of representing the document image by the quadtree data structure, and extracting each character seperately from the constructed quadtree are described. The document image is represented by a binary encoded quadtree and the segmentation is performed according to the information of each leaf node of the quadtree. Then, each character is extracted by the relation of positions of segments. This method enables to extract characters without examining every pixel in the image and the required storage of document image is decreased.

  • PDF

멀티서버 환경에서 인트라넷용 전자결재시스템 설계 및 구현 (Design and Implementation of an Electronic Approval System for Intranet in Multi-Server Environment)

  • 박창서;고형화
    • 전자공학회논문지C
    • /
    • 제36C권11호
    • /
    • pp.1-9
    • /
    • 1999
  • 산업사회에서 정보사회로 변함에 따라 정보통신부는 전자결재 소프트웨어 기능 표준을 만들었으며 몇몇 업체가 클라이언트/서버 환경에서 전자결재시스템을 개발 한데 이어 인트라넷용 전자결재시스템을 개발하였다. 인트라넷용 전자결재시스템은 구축비용이 저렴하고 사용에 편리한 장점이 있으나 웹용 워드프로세서의 부재로 문서작성 기능이 미약하고 네트워크에 과중한 트래픽을 발생시킨다. 본 논문은 이를 개선하기 위하여 ActiveX 기술을 적용하여 웹 브라우저에서 클라이언트 자원을 사용 할 수 있게 설계하였다 즉, 한글 워드프로세서를 문서작성기로 사용하기 위하여 ActiveX 컨트롤과 한글 DDE API를 양방향 통신이 가능한 DDE 서버클라이언트 형태로 구현하였으며 한글 문서내의 특정필드의 데이터를 데이터베이스와 연동시켜 결재 흐름을 제어하였다. 구현된 시스템을 멀티서버 환경의 현업에 적용한 결과 시행 3개월만에 전자결재 사용 실적이 부서에 따라서 75%-93% 달하는 높은 활용도를 보였다.

  • PDF

효율적인 HWP 악성코드 탐지를 위한 데이터 유용성 검증 및 확보 기반 준지도학습 기법 (Efficient Hangul Word Processor (HWP) Malware Detection Using Semi-Supervised Learning with Augmented Data Utility Valuation)

  • 손진혁;고기혁;조호묵;김영국
    • 정보보호학회논문지
    • /
    • 제34권1호
    • /
    • pp.71-82
    • /
    • 2024
  • 정보통신기술(ICT) 고도화에 따라 PDF, MS Office, HWP 파일로 대표되는 전자 문서형 파일의 활용이 많아졌고, 공격자들은 이 상황을 놓치지 않고 문서형 악성코드를 이메일과 메신저를 통해 전달하여 감염시키는 피해사례가 많아졌다. 이러한 피해를 막고자 AI를 사용한 악성코드 탐지 연구가 진행되고 있으나, PDF나 MS-Office와 같이 전 세계적으로 활용성이 높은 전자 문서형 파일에 비해 주로 국내에서만 활용되는 HWP(한글 워드 프로세서) 문서 파일은 양질의 정상 또는 악성 데이터가 부족하여 지속되는 공격에 강건한 모델 생성에 한계점이 존재한다. 이러한 한계점을 해결하기 위해 기존 수집된 데이터를 변형하여 학습 데이터 규모를 늘리는 데이터 증강 방식이 제안 되었으나, 증강된 데이터의 유용성을 평가하지 않아 불확실한 데이터를 모델 학습에 활용할 가능성이 있다. 본 논문에서는 HWP 악성코드 탐지에 있어 데이터의 유용성을 정량화하고 이에 기반하여 학습에 유용한 증강 데이터만을 활용하여 기존보다 우수한 성능의 AI 모델을 학습하는 준지도학습 기법을 제안한다.

저화질 문서영상들을 위한 적응적 이진화 알고리즘 (An Adaptive Binarization Algorithm for Degraded Document Images)

  • 주재현;오정수
    • 한국통신학회논문지
    • /
    • 제37권7A호
    • /
    • pp.581-585
    • /
    • 2012
  • 본 논문은 인쇄체 한글과 한자를 포함하는 저화질 문서영상에 효과적인 이진화 알고리즘을 제안하다. 가는 가로획과 굵은 세로획으로 구성된 문자 속성 때문에 기존 알고리즘은 저화질 문서영상에서 세로획보다 약한 성분을 갖는 가로획을 쉽게 검출할 수 없다. 제안된 알고리즘은 전방향 참조 적응적 알고리즘에 수직 방향 참조 알고리즘을 추가하여 기존 알고리즘이 갖는 문제를 해결한다. 실험 결과는 제안된 알고리즘이 다양한 저화질 문서영상들에서 문자를 잘 추출하는 것을 보여주고 있다.

문자 인식을 이용한 한글 문서 검색 (Hangul Document Retrieval Using Character Recognition)

  • 안재철;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

웹 문서 검색을 위한 한글 MG 시스템의 확장 (An Extension of Hangul MG System for Web Document Retrival)

  • 김범수;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.290-292
    • /
    • 2000
  • 최근 국대 인터넷 발전과 더불어 검색엔진들의 수요가 많아지고 있어 크고 작은 검색엔진들이 많이 개발되고 있다. 기존의 디지털 라이브러리에 사용되고 있는 정보 검색 엔진인 한글 MG 시스템을 웹 문서 검색에 적용하는데는 어려움이 있었다. 본 논문은 한글 MG 시스템을 기반으로 웹 사이트의 내부 문서 검색이 가능한 소형검색엔진으로 확장하는데 필요한 웹 로봇에 의한 문서 수집, 수집된 문서의 가공, 메타 데이터의 데이터베이스와, 단락 대 문서 사상, 문서 검색을 위한 질의 루틴의 수정과 웹 검색 및 시스템 관리 인터페이스에 대한 방안들을 제안하여 확장 시스템을 설계하고 구현하였다.

  • PDF

SGML 문서 저작 도구 (An SGML Document Authoring Tool)

  • 안보희;유재우;송후봉
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.512-521
    • /
    • 1999
  • ISO 8879로 정의된 SGML은 문서의 논리적 구조를 정의하는 메타언어로서 전자문서의 기본 형식으로 많이 사용되고 있다. SGML 문서는 문서구조 정의와 이에 따라 작성된 실제문서로 구성되므로 저작 도구는 문서구조와 실제문서를 모두 작성하고 검증할 수 있어야 한다. 그러나 SGML 문서처리를 위한 정형화된 모델과 절차가 존재하지 않으므로 이러한 도구의 구성이 쉽지 않다. 본 연구에서는 SGML 구문분석기, 문서구조 정의를 위한 편집기, SGML 문서 편집기 및 형식 편집기 등으로 구성된 모형과 각 구성 요소의 정형화된 처리 방법을 제안하고 구현하였다. 사용자의 편의를 위하여 아이콘 기반의 시각 프로그래밍 기법을 사용하였으며, 한글 문제점들을 해결하는 통합적 문서 저작 환경을 윈도우즈 NT 시스템에서 java와 C++ 언어를 사용하여 구현하였다.

  • PDF

워드프로세서의 전자서명 기능에 대한 취약성 분석 (Vulnerability Analysis on Digital Signature Function of Word Processors)

  • 이창빈;박선우;이광우;김지연;남정현;이영숙;원동호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.109-118
    • /
    • 2011
  • 최근 널리 사용되고 있는 전자문서는 문서가 변경되어도 이를 확인하기 어렵다는 특성을 가지고 있어 위 변조 및 이에 따른 피해가 우려되고 있다. 이에 따라 다양한 워드프로세서들은 전자문서의 신뢰성을 보장하기 위해 전자서명 생성 및 검증 기능을 제공하고 있다. 하지만 이러한 프로그램들이 전자서명 생성 및 검증을 정상적으로 수행하는지에 대한 연구가 미비하여 이를 완전하게 신뢰하기 어렵다는 문제점이 있다. 이에 본 논문에서는 현재 가장 보편적으로 사용되고 있는 워드프로세서인 Microsoft사의 Word와 한글과컴퓨터사의 한글의 전자서명 기능에 대한 안전성 분석과 개선방안을 제안한다.

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류 (Document Classification using Recurrent Neural Network with Word Sense and Contexts)

  • 주종민;김남훈;양형정;박혁로
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권7호
    • /
    • pp.259-266
    • /
    • 2018
  • 본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

카메라 기반 문서영상에서의 문자 추출 (Text extraction from camera based document image)

  • 박희주;김진호
    • 한국산업정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.14-20
    • /
    • 2003
  • 본 논문에서는 카메라로 획득한 문서영상에 대해 조명의 영향에 관계없이 고속으로 문자영역을 추출하는 알고리즘을 제안하였다. 카메라 문서는 스캐너 문서와는 달리 주변 환경이나 조명의 영향으로 인하여 문자영역을 추출하는 것이 매우 어렵다. 먼저 영상 사전처리 단계에서 컬러영상을 명도영상으로 변환한 후 조명의 영향에 무관하게 배경 그림으로부터 문자 영역을 정확히 추출하기 위해서 명도레벨 정규화를 사용하였다. 또한 배경 그림 및 잡음은 제거하고 문자 획의 손실 없이 문자 영역을 추출하기 위하여 국소-적응적-이진화-방법(local adaptive binarization method)을 새롭게 개발하여 문서영상을 이진화시켰다. 문자영역 추출 단계에서는 수평 및 수직 투영과 연결요소 정보에 의해 문자열, 단어 및 개별 문자 영역을 단계적으로 추출하였다. 제안된 방법의 타당성을 검증하기 위하여 ETRI에서 구축한 한글/영어/숫자/특수기호가 혼합된 현장 문서영상 DB를 가지고 실험해 보았다.

  • PDF