• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.03 seconds

Efficient Object Classification Scheme for Scanned Educational Book Image (교육용 도서 영상을 위한 효과적인 객체 자동 분류 기술)

  • Choi, Young-Ju;Kim, Ji-Hae;Lee, Young-Woon;Lee, Jong-Hyeok;Hong, Gwang-Soo;Kim, Byung-Gyu
    • Journal of Digital Contents Society
    • /
    • v.18 no.7
    • /
    • pp.1323-1331
    • /
    • 2017
  • Despite the fact that the copyright has grown into a large-scale business, there are many constant problems especially in image copyright. In this study, we propose an automatic object extraction and classification system for the scanned educational book image by combining document image processing and intelligent information technology like deep learning. First, the proposed technology removes noise component and then performs a visual attention assessment-based region separation. Then we carry out grouping operation based on extracted block areas and categorize each block as a picture or a character area. Finally, the caption area is extracted by searching around the classified picture area. As a result of the performance evaluation, it can be seen an average accuracy of 83% in the extraction of the image and caption area. For only image region detection, up-to 97% of accuracy is verified.

A Study on the Generation of 3 Dimensional Graphic Files Using SPOT Imagery (SPOT 위성영상을 이용한 3차원 그래픽 화일 생성연구)

  • Cho, Bong-Whan;Lee, Yong-Woong;Park, Wan-Yong
    • Journal of Korean Society for Geospatial Information Science
    • /
    • v.3 no.1 s.5
    • /
    • pp.79-89
    • /
    • 1995
  • Using SPOT satellite imagery, 3 dimensional geographic information can be obtained from SPOT's oblique viewing image. Especially, SPOT provides high spatial resolution, adequate base/height ratio and stable orbit characteristics. In this paper, 3D terrain features were extracted using SPOT stereo image and also the techniques for generation of 3D graphic data were developed for the extracted terrain features. We developed computer programs to generate automatically 3D graphic files and to display geographic information on the computer screen, The results of this study may be effectively utilized for the development of 3D geographic information using satellite images.

  • PDF

Analysis of Judicial Precedent Information related to Debt Recovery based on Deep-Learning (심층 학습 기반의 채권 회수 판례 분석)

  • Kim, Seon-wu;Ji, Sun-young;Choi, Sung-pil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.373-377
    • /
    • 2018
  • 판례는 재판에 대한 선례로, 법적 결정에 대한 근거가 되는 핵심 단서 중 하나이다. 본 연구에서는 채권회수를 예측하는 서비스 구축을 위한 단서를 추출하기 위해 채권 회수 판례를 수집하여 이를 분석한다. 먼저 채권 회수 판례에 대한 기초 분석을 위하여, 채권 회수 사례와 비회수 사례를 각 20건씩 수집하여 분석하였으며, 이후 대법원 및 법률 지식베이스의 채권 관련 판례 12,457건을 수집하고 채권 회수 여부에 따라 가공하였다. 채권 회수 사례와 비회수 사례를 분류하기 위한 판례 내의 패턴을 분석하여 레이블링하고, 이를 자동 분류할 수 있는 Bidirectional LSTM 기반 심층학습 모델을 구성하여 학습하였다. 채권 관련 판례 가공 기준에 따라 네 가지의 데이터 셋을 구성하였으며, 각 데이터셋을 8:2의 비율로 나누어 실험한 결과, 검증 데이터에 대하여 F1 점수 89.82%의 우수한 성능을 보였다.

  • PDF

Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method (자동 정렬을 통한 영한 복합어의 역어 추출)

  • Lee, Ju-Ho;Choi, Key-Sun;Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어 쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

Extraction Algorithm of Field-Associated Terms for Korean Document Classification (한글문서 분류용 분야연상어의 추출 알고리즘)

  • 김숙영;최창원;이상곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.544-546
    • /
    • 2003
  • 인간은 문서에서 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분적인 덱스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집하고, 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시정을 고려하여 분야연상어의 수준과 안정성랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성랭크, 집중률, 빈도정보를 이용하여 단일어로 된 분야연상어를 추출하는 방법을 제안한다.

  • PDF

Extraction of Field-Associated Term for the Purpose of Document Classification (문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법)

  • Choi, Hyun;Hwang, Nam-Seon;Lee, Samuel Sangkon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.892-894
    • /
    • 2004
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 인간이 한국어와 일본어의 180분야로 분류한 약 15,000개의 문서뱅크를 수집하고, 수집된 문서에서 복합어로 구성된 분야연상어의 효율적인 추출 알고리즘을 제안한다. 제안된 알고리즘으로 자동구축된 분야연상어를 문서분류의 초기결정에 이용할 수 있다. 분야연상어를 이용하면 어떠한 분야체계에도 손쉽게 적용할 수 있으므로 문서분류용 목적으로 이용할 수 있는 보편성은 충분하다.

  • PDF

System for Extraction and Classification of Critical Objects using YOLOv8 (YOLOv8을 활용한 디지털 문서의 핵심 객체 추출 및 분류 시스템 설계)

  • Young-Rae Cho;Hong Jun Kim;Byung Hoon Park;Sooyeon Shin;Chi hoon Lee
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.596-599
    • /
    • 2024
  • 디지털 문서의 유통과정에서 발생할 수 있는 보안상의 문제를 해결하기 위해서는 파일 복사, 이동과정에 문서의 보안 등급을 자동 검출하고 특정 문서의 유출을 방지하는 보안 솔루션이 필요하다. 따라서 본 논문에서는 이러한 보안상의 문제를 해결하기 위하여 하나의 검출 분류 시스템을 제안하고자 한다. 제안한 시스템은 디지털 문서 내용을 이용하여 핵심 정보라고 판단되는 객체를 우선 추출한 후 그 핵심 유형을 분류하는 과정을 통해서 핵심 정보를 사전에 탐지하도록 하였다. 이를 위해서 SOTA를 달성한 YOLOv8를 이용하여 디지털 문서의 핵심 객체 감지하고 또한 파인튜닝을실시한 모델을 이용하여 그 유형을 분류하도록 설계하였다. 해당 시스템 검증을 위해서 기업에서 사용하고 있는 실제 사내 문서를 데이터셋을 이용하고 그 성능평가를 실시하였다.

Weight decision of the XML Tag using Relationship Probability (관계성 확률을 이용한 XML 태그의 가중치 결정)

  • Jeong, Hye-Jin
    • Annual Conference of KIPS
    • /
    • 2007.05a
    • /
    • pp.699-702
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도 결정에 관한 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 인용된 문서간의 관계를 알아보고 서로 연관이 있을 확률을 계산하여 그 기대치만큼 색인어에 대한 가중치에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

Automation of Building Extraction and Modeling Using Airborne LiDAR Data (항공 라이다 데이터를 이용한 건물 모델링의 자동화)

  • Lim, Sae-Bom;Kim, Jung-Hyun;Lee, Dong-Cheon
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.27 no.5
    • /
    • pp.619-628
    • /
    • 2009
  • LiDAR has capability of rapid data acquisition and provides useful information for reconstructing surface of the Earth. However, Extracting information from LiDAR data is not easy task because LiDAR data consist of irregularly distributed point clouds of 3D coordinates and lack of semantic and visual information. This thesis proposed methods for automatic extraction of buildings and 3D detail modeling using airborne LiDAR data. As for preprocessing, noise and unnecessary data were removed by iterative surface fitting and then classification of ground and non-ground data was performed by analyzing histogram. Footprints of the buildings were extracted by tracing points on the building boundaries. The refined footprints were obtained by regularization based on the building hypothesis. The accuracy of building footprints were evaluated by comparing with 1:1,000 digital vector maps. The horizontal RMSE was 0.56m for test areas. Finally, a method of 3D modeling of roof superstructure was developed. Statistical and geometric information of the LiDAR data on building roof were analyzed to segment data and to determine roof shape. The superstructures on the roof were modeled by 3D analytical functions that were derived by least square method. The accuracy of the 3D modeling was estimated using simulation data. The RMSEs were 0.91m, 1.43m, 1.85m and 1.97m for flat, sloped, arch and dome shapes, respectively. The methods developed in study show that the automation of 3D building modeling process was effectively performed.

Interactive Approach to Discover Complex Matchings between XML Schemas (XML 스키마간의 복합매칭 추출을 위한 대화형 기법)

  • 이준승;이경호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.55-57
    • /
    • 2004
  • 본 논문은 온톨로지를 활용한 스키마 매칭 알고리즘을 제안한다. 기존의 대부분의 스키마 매칭 방법은 단순매칭을 대상으로 하는 반면, 제안된 방법은 계층적 구조의 온톨로지에 기반하여 복합매칭을 계산할 수 있다. 특히 제안된 온톨로지는 이전의 매칭결과에 대한 사용자의 피드백을 이용하여 자동으로 갱신됨에 따라 적절한 도메인 정보를 유지할 수 있다. 성능평가를 위한 실험결과, 온톨로지의 적용이 매칭 성능을 향상시킴을 확인할 수 있었다.

  • PDF