• 제목/요약/키워드: Hangul Document

검색결과 41건 처리시간 0.024초

쿼드트리로 구성된 한글 문서 영상에서의 문자추출에 관한 연구 (EXTRACTION OF CHARACTERS FROM THE QUADTREE ENCODE DOCUMENT IMAGE OF HANGUL)

  • 백은경;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1991년도 추계학술대회 논문집 학회본부
    • /
    • pp.201-204
    • /
    • 1991
  • In this paper the method of representing the document image by the quadtree data structure, and extracting each character seperately from the constructed quadtree are described. The document image is represented by a binary encoded quadtree and the segmentation is performed according to the information of each leaf node of the quadtree. Then, each character is extracted by the relation of positions of segments. This method enables to extract characters without examining every pixel in the image and the required storage of document image is decreased.

  • PDF

PDF를 활용한 고문헌의 원문디지털화 방안에 대한 고찰 (Study on Methods of Digitalization of Older Books Using PDF)

  • 리상용
    • 한국문헌정보학회지
    • /
    • 제34권1호
    • /
    • pp.133-153
    • /
    • 2000
  • 본 논문은 1999년 4월에 출시된 Acrobat 4.0에서 지원하는 PDF(Portable Document Format)를 이용해서 고문헌의 원문을 디지털화하여, 웹상에서 이용자가 고문헌의 원문을 손쉽게 검색할 수 있도록 하기 위한 방안에 대해 연구한 것이다. 이전의 Acrobat 3.0판은 한글 지원에 문제가 많았으나, 이번에 개정된 4.0판에서는 다국어폰트의 지원으로 한글, 중국어, 일본어 등의 PDF변환이 가능해졌다. 따라서 <한글97>(속칭<아래아 한글>)로 구축된 고문헌의 원문파일을 PDF로 변환은 물론 편집도 가능하게 되었다. PDF파일의 뷰어인 Acrobat Reader는 웹상에서 무상으로 다운로드 받을 수 있으므로, 이 PDF를 이용하여 고문헌의 원문을 디지털화 한다면, 향후 개선되어야 할 문제가 있긴 하지만, 이용자가 인터넷상에서 손쉽게 고문헌의 원문을 검색할 수 있게 될 것이다.

  • PDF

한글 텍스트 문서 분류시스템을 위한 속성선택 (Feature Selection for a Hangul Text Document Classification System)

  • Lee, Jae-Sik;Cho, You-Jung
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.435-442
    • /
    • 2003
  • 정보 추출(Information Retrieval) 시스템은 거대한 양의 정보들 가운데 필요한 정보의 적절한 탐색을 도와주기 위한 도구이다. 이는 사용자가 요구하는 정보를 보다 정확하고 보다 효과적이면서 보다 효율적으로 전달해주어야만 한다. 그러기 위해서는 문서내의 무수히 많은 속성들 가운데 해당 문서의 특성을 잘 반영하는 속성만을 선별해서 적절히 활용하는 것이 절실히 요구된다. 이에 본 연구는 기존의 한글 문서 분류시스템(CB_TFIDF)[1]의 정확도와 신속성 두 가지 측면의 성능향상에 초점을 두고 있다. 기존의 영문 텍스트 문서 분류시스템에 적용되었던 다양한 속성선택 기법들 가운데 잘 알려진 세가지 즉, Information Gain, Odds Ratio, Document Frequency Thresholding을 통해 선별적인 사례베이스를 구성한 다음에 한글 텍스트 문서 분류시스템에 적용시켜서 성능을 비교 평가한 후, 한글 문서 분류시스템에 가장 적절한 속성선택 기법과 속성 선택에 대한 가이드라인을 제시하고자 한다.

  • PDF

저화질 문서영상들을 위한 적응적 이진화 알고리즘 (An Adaptive Binarization Algorithm for Degraded Document Images)

  • 주재현;오정수
    • 한국통신학회논문지
    • /
    • 제37권7A호
    • /
    • pp.581-585
    • /
    • 2012
  • 본 논문은 인쇄체 한글과 한자를 포함하는 저화질 문서영상에 효과적인 이진화 알고리즘을 제안하다. 가는 가로획과 굵은 세로획으로 구성된 문자 속성 때문에 기존 알고리즘은 저화질 문서영상에서 세로획보다 약한 성분을 갖는 가로획을 쉽게 검출할 수 없다. 제안된 알고리즘은 전방향 참조 적응적 알고리즘에 수직 방향 참조 알고리즘을 추가하여 기존 알고리즘이 갖는 문제를 해결한다. 실험 결과는 제안된 알고리즘이 다양한 저화질 문서영상들에서 문자를 잘 추출하는 것을 보여주고 있다.

멀티서버 환경에서 인트라넷용 전자결재시스템 설계 및 구현 (Design and Implementation of an Electronic Approval System for Intranet in Multi-Server Environment)

  • 박창서;고형화
    • 전자공학회논문지C
    • /
    • 제36C권11호
    • /
    • pp.1-9
    • /
    • 1999
  • 산업사회에서 정보사회로 변함에 따라 정보통신부는 전자결재 소프트웨어 기능 표준을 만들었으며 몇몇 업체가 클라이언트/서버 환경에서 전자결재시스템을 개발 한데 이어 인트라넷용 전자결재시스템을 개발하였다. 인트라넷용 전자결재시스템은 구축비용이 저렴하고 사용에 편리한 장점이 있으나 웹용 워드프로세서의 부재로 문서작성 기능이 미약하고 네트워크에 과중한 트래픽을 발생시킨다. 본 논문은 이를 개선하기 위하여 ActiveX 기술을 적용하여 웹 브라우저에서 클라이언트 자원을 사용 할 수 있게 설계하였다 즉, 한글 워드프로세서를 문서작성기로 사용하기 위하여 ActiveX 컨트롤과 한글 DDE API를 양방향 통신이 가능한 DDE 서버클라이언트 형태로 구현하였으며 한글 문서내의 특정필드의 데이터를 데이터베이스와 연동시켜 결재 흐름을 제어하였다. 구현된 시스템을 멀티서버 환경의 현업에 적용한 결과 시행 3개월만에 전자결재 사용 실적이 부서에 따라서 75%-93% 달하는 높은 활용도를 보였다.

  • PDF

효율적인 HWP 악성코드 탐지를 위한 데이터 유용성 검증 및 확보 기반 준지도학습 기법 (Efficient Hangul Word Processor (HWP) Malware Detection Using Semi-Supervised Learning with Augmented Data Utility Valuation)

  • 손진혁;고기혁;조호묵;김영국
    • 정보보호학회논문지
    • /
    • 제34권1호
    • /
    • pp.71-82
    • /
    • 2024
  • 정보통신기술(ICT) 고도화에 따라 PDF, MS Office, HWP 파일로 대표되는 전자 문서형 파일의 활용이 많아졌고, 공격자들은 이 상황을 놓치지 않고 문서형 악성코드를 이메일과 메신저를 통해 전달하여 감염시키는 피해사례가 많아졌다. 이러한 피해를 막고자 AI를 사용한 악성코드 탐지 연구가 진행되고 있으나, PDF나 MS-Office와 같이 전 세계적으로 활용성이 높은 전자 문서형 파일에 비해 주로 국내에서만 활용되는 HWP(한글 워드 프로세서) 문서 파일은 양질의 정상 또는 악성 데이터가 부족하여 지속되는 공격에 강건한 모델 생성에 한계점이 존재한다. 이러한 한계점을 해결하기 위해 기존 수집된 데이터를 변형하여 학습 데이터 규모를 늘리는 데이터 증강 방식이 제안 되었으나, 증강된 데이터의 유용성을 평가하지 않아 불확실한 데이터를 모델 학습에 활용할 가능성이 있다. 본 논문에서는 HWP 악성코드 탐지에 있어 데이터의 유용성을 정량화하고 이에 기반하여 학습에 유용한 증강 데이터만을 활용하여 기존보다 우수한 성능의 AI 모델을 학습하는 준지도학습 기법을 제안한다.

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류 (Document Classification using Recurrent Neural Network with Word Sense and Contexts)

  • 주종민;김남훈;양형정;박혁로
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권7호
    • /
    • pp.259-266
    • /
    • 2018
  • 본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

6-유형 별로 적응적 계층 구조를 갖는 인쇄 한글 인식 (Printed Hangul Recognition with Adaptive Hierarchical Structures Depending on 6-Types)

  • 함대성;이득용;최경웅;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제10권1호
    • /
    • pp.10-18
    • /
    • 2010
  • 한글 인식은 부류 수가 많다는 특성을 가지며 이 특성으로 인해 6-유형으로 사전 분류하는 것이 일반적이다. 사전 분류 후 각 유형들은 초성, 중성, 종성으로 분리하여 인식할 수 있다. 초성, 중성, 종성 각각은 부류의 수는 적지만 'ㅔ', 'ㅖ', 과 같이 서로간의 유사도가 높아 오 인식 되는 경우가 종종 발생한다. 따라서 본 논문에서는 6-유형 각각에 대해 다단계 트리 구조를 가진 계층적 인식 방법을 제안 하였다. 또한 초성, 중성, 종성의 서로 간의 간섭을 줄이기 위해, 초성과 종성의 인식 결과를 중성 분류기의 특징으로 사용하였다. PHD08 데이터베이스의 테스트 집합에 대해 98.96%의 정확률을 보였다.

SGML 문서 저작 도구 (An SGML Document Authoring Tool)

  • 안보희;유재우;송후봉
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.512-521
    • /
    • 1999
  • ISO 8879로 정의된 SGML은 문서의 논리적 구조를 정의하는 메타언어로서 전자문서의 기본 형식으로 많이 사용되고 있다. SGML 문서는 문서구조 정의와 이에 따라 작성된 실제문서로 구성되므로 저작 도구는 문서구조와 실제문서를 모두 작성하고 검증할 수 있어야 한다. 그러나 SGML 문서처리를 위한 정형화된 모델과 절차가 존재하지 않으므로 이러한 도구의 구성이 쉽지 않다. 본 연구에서는 SGML 구문분석기, 문서구조 정의를 위한 편집기, SGML 문서 편집기 및 형식 편집기 등으로 구성된 모형과 각 구성 요소의 정형화된 처리 방법을 제안하고 구현하였다. 사용자의 편의를 위하여 아이콘 기반의 시각 프로그래밍 기법을 사용하였으며, 한글 문제점들을 해결하는 통합적 문서 저작 환경을 윈도우즈 NT 시스템에서 java와 C++ 언어를 사용하여 구현하였다.

  • PDF

한글 문자 데이터베이스 PHD08 구축 (Construction of Printed Hangul Character Database PHD08)

  • 함대성;이득용;정인숙;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.33-40
    • /
    • 2008
  • 문자 인식의 응용이 형식 문서의 인식 같은 고전적인 영역을 벗어나 웹 문서나 자연 영상의 문자 인식으로 확장되고 있다. 이러한 새로운 응용에서는 명조나 고딕같은 표준 글꼴뿐만 아니라 다양한 모양의 글꼴을 사용하는 것이 보편적이다. 기존의 데이터베이스들은 주로 표준 글꼴을 대상으로 제작되어 새로운 응용에 사용하는데 한계를 안고 있다. 본 논문에서는 완성형 2350자 각각을 대상으로 9종류의 글꼴에 대해 글꼴 크기, 품질, 해상도를 달리하여 243개의 이미지 샘플을 생성하였다. 또한 이들 샘플 각각에 대해 이진 임계치와 회전 각도를 달리하여 변형된 샘플을 얻었다. 이러한 과정으로 각 글자마다 2,187개의 샘플을 생성하였으며, 총 5,139,450개의 샘플을 갖는 인쇄체 한글 데이터베이스를 구축하였다. 데이터베이스에 대한 특성과 상용 OCR 소프트웨어에 대한 인식 성능 등을 제시한다.