• 제목/요약/키워드: Automatic Data Extraction

검색결과 309건 처리시간 0.023초

Reference Map을 이용한 시계열 image data의 자동분류법 (Automatic Classification Method for Time-Series Image Data using Reference Map)

  • 홍선표
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.58-65
    • /
    • 1997
  • 본 논문에서는 시계열 image data를 안정되고 높은 정확도로 분류할 수 있는 자동분류법을 제안하였다. 제안한 방법은 대상 영역에 관한 분류도가 기존재하던 가, 아니면 최소한 시계열 image data 중 어느 한 image data가 분류되어 있다고 하는 전제조건에 그 기초를 두고 있다. 분류도는 training area를 선정하기 위라여 사용하는 기준주제도로 사용되어진다. 제안한 방법은 1)기준주제도를 사용한 training data의 추출, 2)taining data의 균질성에 의거한 변화화소의 검출, 3)검출된 변화화소에 대한 clustering, 4)training data의 재구성, 5)maximum likelihood classifier와 같은 판별법에 의한 분류 등 5개의 단계로 구성된다. 제안한 방법의 성능을 정량적으로 평가하기 위하여 4개의 시계열 Landsat TM image data를 제안한 방법과 숙련된 operator가 필요한 기존의 방법으로 각각 분류하여 비교 검토하였다. 그 결과, 기존의 방법으로는 숙련된 operator가 필요하고, 분류도를 얻기까지 수일이 소요되는 데 반하여, 제안한 방법으로는 숙련된 operator 없이, 신뢰성 있는 분류도를 수 시간 내에 자동으로 얻을 수 있었다.

  • PDF

Automatic Generation of GCP Chips from High Resolution Images using SUSAN Algorithms

  • Um Yong-Jo;Kim Moon-Gyu;Kim Taejung;Cho Seong-Ik
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2004년도 Proceedings of ISRS 2004
    • /
    • pp.220-223
    • /
    • 2004
  • Automatic image registration is an essential element of remote sensing because remote sensing system generates enormous amount of data, which are multiple observations of the same features at different times and by different sensor. The general process of automatic image registration includes three steps: 1) The extraction of features to be used in the matching process, 2) the feature matching strategy and accurate matching process, 3) the resampling of the data based on the correspondence computed from matched feature. For step 2) and 3), we have developed an algorithms for automated registration of satellite images with RANSAC(Random Sample Consensus) in success. However, for step 1), There still remains human operation to generate GCP Chips, which is time consuming, laborious and expensive process. The main idea of this research is that we are able to automatically generate GCP chips with comer detection algorithms without GPS survey and human interventions if we have systematic corrected satellite image within adaptable positional accuracy. In this research, we use SUSAN(Smallest Univalue Segment Assimilating Nucleus) algorithm in order to detect the comer. SUSAN algorithm is known as the best robust algorithms for comer detection in the field of compute vision. However, there are so many comers in high-resolution images so that we need to reduce the comer points from SUSAN algorithms to overcome redundancy. In experiment, we automatically generate GCP chips from IKONOS images with geo level using SUSAN algorithms. Then we extract reference coordinate from IKONOS images and DEM data and filter the comer points using texture analysis. At last, we apply automatically collected GCP chips by proposed method and the GCP by operator to in-house automatic precision correction algorithms. The compared result will be presented to show the GCP quality.

  • PDF

Automatic proficiency assessment of Korean speech read aloud by non-natives using bidirectional LSTM-based speech recognition

  • Oh, Yoo Rhee;Park, Kiyoung;Jeon, Hyung-Bae;Park, Jeon Gue
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.761-772
    • /
    • 2020
  • This paper presents an automatic proficiency assessment method for a non-native Korean read utterance using bidirectional long short-term memory (BLSTM)-based acoustic models (AMs) and speech data augmentation techniques. Specifically, the proposed method considers two scenarios, with and without prompted text. The proposed method with the prompted text performs (a) a speech feature extraction step, (b) a forced-alignment step using a native AM and non-native AM, and (c) a linear regression-based proficiency scoring step for the five proficiency scores. Meanwhile, the proposed method without the prompted text additionally performs Korean speech recognition and a subword un-segmentation for the missing text. The experimental results indicate that the proposed method with prompted text improves the performance for all scores when compared to a method employing conventional AMs. In addition, the proposed method without the prompted text has a fluency score performance comparable to that of the method with prompted text.

BIM 기반 비정형 건축물 패널화 모델 생성 방법에 관한 연구 (BIM-Based Generation of Free-form Building Panelization Model)

  • 김양길;이윤구;함남혁;김재준
    • 한국BIM학회 논문집
    • /
    • 제12권4호
    • /
    • pp.19-31
    • /
    • 2022
  • With the development of 3D-based CAD (Computer Aided Design), attempts at freeform building design have expanded to small and medium-sized buildings in Korea. However, a standardized system for continuous utilization of shape data and BIM conversion process implemented with 3D-based NURBS is still immature. Without accurate review and management throughout the Freeform building project, interference between members occurs and the cost of the project increases. This is very detrimental to the project. To solve this problem, we proposed a continuous utilization process of 3D shape information based on BIM parameters. Our process includes algorithms such as Auto Split, Panel Optimization, Excel extraction based on shape information, BIM modeling through Adaptive Component, and BIM model utilization method using ID Code. The optimal cutting reference point was calculated and the optimal material specification was derived using the Panel Optimization algorithm. With the Adaptive Component design methodology, a BIM model conforming to the standard cross-section details and specifications was uniformly established. The automatic BIM conversion algorithm of shape data through Excel extraction created a BIM model without omission of data based on the optimized panel cutting reference point and cutting line. Finally, we analyzed how to use the BIM model built for automatic conversion. As a result of the analysis, in addition to the BIM utilization plan in the general construction stage such as visualization, interference review, quantity calculation, and construction simulation, an individual management plan for the unit panel was derived through ID data input. This study suggested an improvement process by linking the existing research on atypical panel optimization and the study of parameter-based BIM information management method. And it showed that it can solve the problems of existing Freeform building project.

Urban Road Extraction from Aerial Photo by Linking Method

  • Yang, Sung-Chul;Han, Dong-Yeo;Kim, Min-Suk;Kim, Yong-Il
    • Korean Journal of Geomatics
    • /
    • 제3권1호
    • /
    • pp.67-72
    • /
    • 2003
  • We have seen rapid changes in road systems and networks in urban areas due to fast urbanization and increased traffic demands. As a result, many researchers have put greater importance on extraction, correction and updating of information about road systems. Also, by using the various data on road systems and its condition, we can manage our road more efficiently and economically. Furthermore, such information can be used as input for digital map and GIS analysis. In this research, we used a high resolution aerial photo of the roads in Seongnam area. First, we applied the top-hat filter to the area of interest so that the road markings could be extracted in an efficient manner. The lane separation lines were selected, considering the shape similarity between the selected lane separation line and reference data. Next, we extracted the roads in the urban area using the aforementioned road marking. Using this technique, we could easily extract roads in urban area in semi-automatic way.

  • PDF

Minimally Supervised Relation Identification from Wikipedia Articles

  • Oh, Heung-Seon;Jung, Yuchul
    • Journal of Information Science Theory and Practice
    • /
    • 제6권4호
    • /
    • pp.28-38
    • /
    • 2018
  • Wikipedia is composed of millions of articles, each of which explains a particular entity with various languages in the real world. Since the articles are contributed and edited by a large population of diverse experts with no specific authority, Wikipedia can be seen as a naturally occurring body of human knowledge. In this paper, we propose a method to automatically identify key entities and relations in Wikipedia articles, which can be used for automatic ontology construction. Compared to previous approaches to entity and relation extraction and/or identification from text, our goal is to capture naturally occurring entities and relations from Wikipedia while minimizing artificiality often introduced at the stages of constructing training and testing data. The titles of the articles and anchored phrases in their text are regarded as entities, and their types are automatically classified with minimal training. We attempt to automatically detect and identify possible relations among the entities based on clustering without training data, as opposed to the relation extraction approach that focuses on improvement of accuracy in selecting one of the several target relations for a given pair of entities. While the relation extraction approach with supervised learning requires a significant amount of annotation efforts for a predefined set of relations, our approach attempts to discover relations as they occur naturally. Unlike other unsupervised relation identification work where evaluation of automatically identified relations is done with the correct relations determined a priori by human judges, we attempted to evaluate appropriateness of the naturally occurring clusters of relations involving person-artifact and person-organization entities and their relation names.

학술대회 및 저널별 기술 핵심구 추출 모델 (A Keyphrase Extraction Model for Each Conference or Journal)

  • 정현지;장광선;김태현;신동구
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.81-83
    • /
    • 2022
  • 연구 동향을 파악하는 것은 연구 수행 시 필수적인 요소이다. 대부분의 연구자들은 관심분야의 학술대회 및 저널을 대표하는 기술 핵심구나 관심 분야를 검색함으로써 연구 동향을 파악한다. 하지만, 최근 인공지능과 같은 특정 분야의 경우 한 개의 학술대회에 한 해당 수백~수천 개의 논문이 출간되기 때문에 전체 분야의 경향성을 파악하는 데 어려움이 존재한다. 본 논문에서는 학술대회 또는 저널 제목을 활용하여 기술 핵심구를 자동으로 추출함으로써 연도별 학술대회 및 저널의 연구 동향 파악을 지원하고자 한다. 핵심구 추출은 문장 또는 문서를 대표하는 주요 구문을 추출하는 작업으로서 검색, 요약, 내용 파악 등을 위해 근간이 되는 기술이다. 기존 사전학습 언어모델 기반의 핵심구 추출 모델은 문서 단위의 긴 텍스트를 기준으로 모델링 하였기 때문에 제목 단위의 짧은 텍스트에서는 성능이 낮아진다는 단점이 존재한다. 본 논문에서는 짧은 텍스트에 강인하면서 단어 자체의 중요도를 고려한 학술대회 및 저널의 기술 핵심구 추출 모델을 제안하고자 한다.

  • PDF

An intelligent system for automatic data extraction in E-Commerce Applications

  • Cardenosa, Jesus;Iraola, Luis;Tovar, Edmundo
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.202-208
    • /
    • 2001
  • One of the most frequent uses of Internet is data gathering. Data can be about many themes but perhaps one of the most demanded fields is the tourist information. Normally, databases that support these systems are maintained manually. However, there is other approach, that is, to extract data automatically, for instance, from textual public information existing in the Web. This approach consists of extracting data from textual sources(public or not) and to serve them totally or partially to the user in the form that he/she wants. The obtained data can maintain automatically databases that support different systems as WAP mobile telephones, or commercial systems accessed by Natural Language Interfaces and others. This process has three main actors. The first is the information itself that is present in a particular context. The second is the information supplier (extracting data from the existing information) and the third is the user or information searcher. This added value chain reuse and give value to existing data even in the case that these data were not tough for the last use by the use of the described technology. The main advantage of this approach is that it makes independent the information source from the information user. This means that the original information belongs to a particular context, not necessarily the context of the user. This paper will describe the application based on this approach developed by the authors in the FLEX EXPRIT IV n$^{\circ}$EP29158 in the Work-package "Knowledge Extraction & Data mining"where the information captured from digital newspapers is extracted and reused in tourist information context.

  • PDF

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

기대최대화 알고리즘을 활용한 도로노면 training 자료 자동추출에 관한 연구 - 감독분류를 통한 도로 네트워크의 자동추출을 위하여 (Automatic Extraction of Training Dataset Using Expectation Maximization Algorithm - for Automatic Supervised Classification of Road Networks)

  • 한유경;최재완;이재빈;유기윤;김용일
    • 한국측량학회지
    • /
    • 제27권2호
    • /
    • pp.289-297
    • /
    • 2009
  • 본 논문은 감독분류 기법을 활용한 도로 네트워크 추출의 기본 과정인 트레이닝 자료의 추출과정을 자동화함으로써 감독분류를 활용한 도로 네트워크 추출 과정의 자동화에 기여할 수 있는 방법론의 개발을 목적으로 한다. 이를 위해 본 연구에서는 상호 기하보정 된 항공사진과 LIDAR 자료로부터 정사영상과 LIDAR 반사강도 영상을 제작하고, 기 구축된 수치지도를 활용하여 초기 트레이닝 자료를 자동으로 추출하였다. 하지만 위의 과정을 통하여 추출된 초기 트레이닝 자료는 기하보정과정에서 수반되는 기하학적 오차 및 다양한 개체들로 구성된 도로의 특성에 영향을 받아 다양한 분광특성을 포함하게 된다. 따라서 본 연구에서는 추출된 초기 트레이닝 자료에서 도로 추출의 기본이 되는 도로노면의 분광특성을 통계학적 기법인 기대최대화 알고리즘에 기초하여 효과적으로 결정하기 위한 방법론을 제안하였다. 또한 개발된 방법론의 평가를 위하여 동일지역에 대해 수동으로 취득한 트레이닝 자료와 본 연구에서 자동으로 추출한 자료를 비교 평가하여 정확도를 분석하였다. 실험결과에 대한 통계검증결과 본 논문에서 제안한 도로노면 트레이닝 자료 자동추출기법의 효용성을 증명하였다.