• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.028 seconds

Automatic Object Extraction from Electronic Documents Using Deep Neural Network (심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구)

  • Jang, Heejin;Chae, Yeonghun;Lee, Sangwon;Jo, Jinyong
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.11
    • /
    • pp.411-418
    • /
    • 2018
  • With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%.

An Automatic Data Construction Approach for Korean Speech Command Recognition

  • Lim, Yeonsoo;Seo, Deokjin;Park, Jeong-sik;Jung, Yuchul
    • Journal of the Korea Society of Computer and Information
    • /
    • v.24 no.12
    • /
    • pp.17-24
    • /
    • 2019
  • The biggest problem in the AI field, which has become a hot topic in recent years, is how to deal with the lack of training data. Since manual data construction takes a lot of time and efforts, it is non-trivial for an individual to easily build the necessary data. On the other hand, automatic data construction needs to handle data quality issue. In this paper, we introduce a method to automatically extract the data required to develop Korean speech command recognizer from the web and to automatically select the data that can be used for training data. In particular, we propose a modified ResNet model that shows modest performance for the automatically constructed Korean speech command data. We conducted an experiment to show the applicability of the command set of the health and daily life domain. In a series of experiments using only automatically constructed data, the accuracy of the health domain was 89.5% in ResNet15 and 82% in ResNet8 in the daily lives domain, respectively.

Metadata Design and Machine Learning-Based Automatic Indexing for Efficient Data Management of Image Archives of Local Governments in South Korea (국내 지자체 사진 기록물의 효율적 관리를 위한 메타데이터 설계 및 기계학습 기반 자동 인덱싱 방법 연구)

  • Kim, InA;Kang, Young-Sun;Lee, Kyu-Chul
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.20 no.2
    • /
    • pp.67-83
    • /
    • 2020
  • Many local governments in Korea provide online services for people to easily access the audio-visual archives of events occurring in the area. However, the current method of managing these archives of the local governments has several problems in terms of compatibility with other organizations and convenience for searching of the archives because of the lack of standard metadata and the low utilization of image information. To solve these problems, we propose the metadata design and machine learning-based automatic indexing technology for the efficient management of the image archives of local governments in Korea. Moreover, we design metadata items specialized for the image archives of local governments to improve the compatibility and include the elements that can represent the basic information and characteristics of images into the metadata items, enabling efficient management. In addition, the text and objects in images, which include pieces of information that reflect events and categories, are automatically indexed based on the machine learning technology, enhancing users' search convenience. Lastly, we developed the program that automatically extracts text and objects from image archives using the proposed method, and stores the extracted contents and basic information in the metadata items we designed.

Face Detection system using stereo and color (스테레오와 컬러 정보를 이용한 얼굴검출 시스템)

  • Lee, Ho;Kim, Dong-Sung
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.865-868
    • /
    • 2000
  • 본 논문에서 얼굴 검출의 목적은 화상회의나 현금 자동 인출기 같이 복잡한 배경에서 압축이나 인식, 인증 등의 처리를 위해서 한 사람의 얼굴을 검출하는 데에 있다. 본 논문에서는 이러한 얼굴 검출 방법으로 스테레오와 컬러 정보를 이용한 방법을 제안하고자 한다. 제안된 방법은 크게 두 단계로 나눌 수 있는데 첫 번째 단계는 스테레오 영상으로 두개 영상의 차영상을 구해 깊이 정보를 이용하여 얼굴의 영역이 될만한 후보를 추출한다. 두번째 단계로는 후보들중에 크기가 큰 영역의 중심점에 영역성장을 하여서 얼굴 영역을 추출한다. 제안한 알고리즘을 사용한 결과 얼굴의 회전 및 표정 변화 등에 관계없이 얼굴검출을 하였다.

  • PDF

A Corpus Formalization for Extracting the Syntactic Relations (구문 관계 지식 추출을 위한 코퍼스 정규화에 대한 연구)

  • Cho, Jeong-Mi;Cho, Young-Hwan;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.207-215
    • /
    • 1996
  • 대량의 코퍼스를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 지식을 자동으로 획득하여 자연 언어 처리의 여러 분야에 이용하는 등의 연구가 활발히 진행되고 있으며, 이에 따라 코퍼스에 대한 필요성이 날로 증가하고 있다. 코퍼스에서 추출할 수 있는 유용한 지식 중의 하나가 구문 관계 지식이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 이형태 등은 정확한 지식 획득을 어렵게 할 뿐 아니라 자료 회귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 코퍼스정규화에 의해 이러한 문제를 해결하고자한다.

  • PDF

Development of Advanced Intelligent Table Search System (향상된 지능형 테이블 검색 시스템의 개발)

  • Han, Kee-Jun;Kim, Seong-Chan;Liu, Ying
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.405-407
    • /
    • 2012
  • 학술 문서 내에서 테이블은 실험 결과, 정의, 요약하는 정보들을 함축하여 사용자에게 제공하는 역할을 한다. 즉 이러한 테이블을 학술 문서 내에서 탐색, 추출하여 검색에 이용하는 것은 학술 문서의 이해를 돕는 것과 더불어 학술 문서를 사용자가 직접 작성할 때에도 비슷한 형태의 테이블을 참조하여 형식에 맞는 테이블을 작성하는 데에 도움을 준다. 따라서 본 연구는 이러한 다양한 목적의 테이블 검색을 지원하기 위하여 문서로부터 자동으로 적합한 키워드를 추출하고 이를 통하여 문서와 유사한 테이블, 문서 내 테이블과 유사한 형식의 테이블을 검색하는 데 적합한 새로운 지능형 테이블 검색 시스템을 제안하며 이를 통해 기존에 존재하는 테이블 검색 시스템 알고리즘들과 성능 비교를 통해 향후 테이블 기반 검색 시스템 발전 가능성을 제시한다.

The Hold Recognition System for An Artificial Climbing Wall (인공암벽의 홀드 인식 시스템)

  • Kim, Jungsoo;Chung, Daniel;Ko, Ilju
    • Annual Conference of KIPS
    • /
    • 2016.04a
    • /
    • pp.879-882
    • /
    • 2016
  • 본 논문은 인공암벽에 부착된 홀드의 형태 및 위치 인식 시스템을 제안한다. 스크린 클라이밍 시스템에 있어서 인공암벽에 부착된 홀드의 형태와 위치 데이터는 다양한 정보로 활용되지만 사람이 수작업으로 계산하기에는 어려움이 따른다. 홀드의 형태가 각기 다르며, 인공암벽에 부착된 홀드의 수가 보통 수백 개 이상 되기 때문이다. 따라서 제안하는 인식 기술을 통하여 자동으로 홀드의 형태와 위치 데이터를 계산할 수 있게 한다. 홀드의 형태는 스네이크 알고리즘으로 윤곽선을 추출해 인식하며, 홀드의 위치는 추출된 윤곽 데이터의 무게중심 점을 계산하여 인식한다.

Workbench for Constructing Dictionary for Semantic Analysis of Compound Noun (합성명사 의미해석용 사전 구축을 위한 워크벤치)

  • Lee, Kyung-Soon;Kim, Do-Wan;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.149-155
    • /
    • 2000
  • 본 논문에서는 한국어에서 빈번하게 나타나는 합성명사의 의미해석을 하기 위한 워크벤치를 설계하고 구현하였다. 합성명사 의미해석을 위한 사전 구축 지원 워크벤치의 기능은 합성명사를 이루고 있는 명사와 명사가 어떠한 의미관계로 결합하고 있는지를 밝히기 위해서 의미관계 패턴을 정의한다. 정의된 의미관계 패턴을 이용하여 합성명사를 자동적으로 추출한다. 추출된 합성명사 사전을 이용해서 각 명사의 상위개념에 대해서도 의미관계를 반영시켜서 합성명사의 의미관계를 해석할 수 있도록 하는 환경을 제공하고 있다.

  • PDF

Improvement of retrieval system and generation of compound noun using word weight method (단어 가중치 값을 이용한 복합명사 제한적 확장 및 검색 성능 개선)

  • Kim, Hyun-Jin;Lee, Chung-Hee;Hur, Jeong;Jang, Myeong-Gil
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.603-606
    • /
    • 2002
  • 자동색인이나 정보검색 엔진에서는 효율적인 색인어 추출이 주요한 요인으로 작용한다. 특히 색인 집합의 많은 부분을 차지하는 복합명사의 경우에는 색인과 검색 두 분야 모두에 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사를 이루는 단일 단어 중에 단어 가중치가 높은 것을 중심으로 복합명사를 확장하는 방식을 이용하여, 색인어를 추출하여, 복합명사가 제한적으로 확장되는 효과를 보여 주며, 검색에서는 질의문에 나타나는 명사들에 이러한 가중치 값을 적용하여 검색에 효과를 높여 주는 방식을 제안한다.

  • PDF

A Naive Bayesian Learning of Clustering for Medical Datamining (의료데이터마이닝에서 클러스터링 기반의 나이브 베이지안 학습)

  • Han, Song-Yi;Jung, Young-Gyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.410-413
    • /
    • 2010
  • 병원정보시스템의 전세계적인 보급과 데이터웨어하우스의 도입으로 인해서 병원내의 의료데이터가 기하 급수적인 증가추세를 보이고 있다. 환자에 대한 임상적인 특징을 다수 포함하고 있는 의료데이터는 유용한 임상지식의 보고로서 그 가치가 매우 유용하다. 따라서 데이터에 숨겨진 지식을 발견하여 구조화시킴으로써 새로운 지식을 창조하는 데이터마이닝은 임상부분에 적합한 기술이라 말할 수 있다. 본 연구에서는 급성염증을 가진 환자들의 의료데이터를 기반으로 특징을 추출하고, 추출된 특징을 바탕으로 병명을 판단하기 위한 학습을 수행한다. 학습 방법은 클러스터링을 이용한 나이브 베이지안으로 진행한다. 기존의 나이브 베이지안 학습은 대량의 데이터를 처리하는데 효과적이며 성능 또한 우수하지만, 속성별 독립을 가정하기 때문에 의료데이터를 분석에는 잘 사용되지 않는다. 따라서 높은 신뢰도를 구현하기 위해 나이브 베이지안 학습 전에 클러스터링을 선행하여, 기존 데이터에 클러스터링 클래스를 추가한다. 이를 통해 급성염증의 증상을 보이는 환자데이터를 바탕으로 자동적으로 방광염과 결석으로 인한 신장염을 효과적으로 진단해낸다.

  • PDF