• 제목/요약/키워드: Automatic Data Extraction

검색결과 309건 처리시간 0.026초

효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법 (A Feature Selection Technique for an Efficient Document Automatic Classification)

  • 김지숙;김영지;문현정;우용태
    • 정보기술과데이타베이스저널
    • /
    • 제8권1호
    • /
    • pp.117-128
    • /
    • 2001
  • Recently there are many researches of text mining to find interesting patterns or association rules from mass textual documents. However, the words extracted from informal documents are tend to be irregular and there are too many general words, so if we use pre-exist method, we would have difficulty in retrieving knowledge information effectively. In this paper, we propose a new feature extraction method to classify mass documents using association rule based on unsupervised learning technique. In experiment, we show the efficiency of suggested method by extracting features and classifying of documents.

  • PDF

이동로봇의 불확실성을 고려한 시각 랜드마크의 자동 추출 (Automatic Extraction of Stable Visual Landmarks for a Mobile Robot under Uncertainty)

  • 문인혁;조강현;윤형로
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.264-264
    • /
    • 2000
  • In this paper, we propose a method to automatically extract stable visual landmarks from observed data for a mobile robot with stereo vision system. The robot selects as stable landmarks vertical line segments which are distinct and on planar surfaces, because they are expected to be observed reliably from various view-points. When the robot moves, it uses several, less uncertain landmarks for estimating its motion. Experimental results in real scenes show the validity of the proposed method.

  • PDF

Xpath에 의한 인터넷 문서의 레이아웃 추출 방법에 관한 연구 (A Study on Layout Extraction from Internet Documents Through Xpath)

  • 한광록;선복근
    • 한국콘텐츠학회논문지
    • /
    • 제5권4호
    • /
    • pp.237-244
    • /
    • 2005
  • 현재 뉴스 데이터 등 대부분의 인터넷 문서는 일정한 템플릿을 기반으로 작성되고 있으며 템플릿은 메인 데이터 이외에 인덱스, 광고, 헤더데이터 등 정보검색에 도움이 되지 않는 형태로 구성되어 있다. 이는 인터넷 문서를 정보검색의 데이터로서 사용하려고 할 때 적합한 형태가 아니다. 그러므로 다양한 정보검색 분야에서 인터넷 문서를 처리하기 위해선 광고, 페이지 인덱스 등의 부가정보를 분별해야 한다. 따라서 본 논문에서는 웹페이지의 레이아웃에 영향을 미치는 블럭 태그의 특징과 구조를 파악하고 웹페이지간의 거리를 계산하여, 웹페이지의 레이아웃을 검출하는 방법을 제안한다. 실험결과 1000개의 문서 중 640개를 분류했으며, 평균 64%의 recall 수치를 얻을 수 있었다. 이 방법을 데이터 추출, 문서요약 등의 정보검색 분야의 전처리 과정에 적용할 경우 문서의 자동화 처리 시간을 감소시키고 처리의 효율성을 높일 수 있을 것으로 기대된다.

  • PDF

컴퓨터 제어 패턴 재봉기를 위한 패턴 데이타 추출 및 생성 알고리즘 (Pattern Data Extraction and Generation Algorithm for A Computer Controlled Pattern Sewing Machine)

  • 윤성용;백상현;김일환
    • 산업기술연구
    • /
    • 제19권
    • /
    • pp.179-187
    • /
    • 1999
  • The computer pattern sewing machine is an automatic sewing machine that is controlled by an input pattern. Even a novice can run this machine for various tasks fast and reliably such as sewing a button, a belt ring and an airbag, etc. The pattern processing software, which is the main software of this machine, is for editing and modifying pattern data by online teaching or off-line editing, setting up parameters, and calculate a moving distance of working area on the x-y axes. In this paper we propose an algorithm to generate pattern data for sewing by simplifying image data. The pattern data are composed of outline data like dot, line, circle, arc, curve, etc. We need converting this data into sewing data which involve sewing parameter, moving distance of working are an the x-y axes, thread, spindle speed.

  • PDF

M10CN 교환기의 집중과금처리방식 (CAMA) 구현 (Implementation of CAMA for M10cn switch)

  • 최윤수;김동훈;정성문;이명재
    • 전자공학회논문지S
    • /
    • 제35S권4호
    • /
    • pp.30-39
    • /
    • 1998
  • Currently, LAMA(Local Automatic Message Accounting) is a billing mechanism which is being used for billing process, in which billing dat is written on MT(Magnetic Tape), collected at each regional billing center and then processed once a month. However, in order to prepare further development of telecommunication network and future new services, computerization of billing process and new daily billing processing system are urgently needed. Therefore Korea Telecom had developed a CAMA (Centralized Automatic Message Accounting) system for M10CN switch. In the CAMA system, billing data generated in switches is transfered on-line using approproate protocols and various transmission media and immediately processed. The CAMA system for M10CN switch consists of three parts such as ED (Extraction Device), TD(Transmission Device) and HC(Host Collector). The system also has redundancy to maintain continuance and confidence of system operation.

  • PDF

JPEG2000 이미지의 에지 분포를 이용한 ROI 마스크 생성과 자동 관심영역 추출 (A Generation of ROI Mask and An Automatic Extraction of ROI Using Edge Distribution of JPEG2000 Image)

  • 서영건;김희민;김상복
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.583-593
    • /
    • 2015
  • 오늘날 컴퓨터와 통신 기술의 발달로 멀티미디어(이미지 데이터)는 다양한 응용 분야에서 사용되고 있다. 여기에 가장 널리 사용되고 있는 JPEG2000는 관심영역(ROI) 기술을 제공한다. ROI의 추출은 사용자에게 우선적으로 보여져야 하기 때문에 빠르게 수행되어야 하고 큰 이미지에서 자동적으로 추출되어야 한다. 이를 위해, 본 연구는 JPEG2000의 코드 블록 내에 있는 에지 분포를 이용하여 ROI의 자동 추출과 우선적 처리에 관한 방법을 제안한다. 먼저 에지 추출을 위한 처리와, 다음으로 에지 정보를 이용해 ROI를 자동적으로 추출한다. 그리고, 추출된 ROI 블록을 이용하여 ROI를 그룹핑 하고, ROI 블록의 마스크를 생성한다. 이후에는 양자화를 하고 우선적 처리를 하는 ROI 코딩을 하고 EBCOT를 실행한다. 제안 방법의 유효성을 보이기 위하여 JPEG2000에서 사용되는 다른 ROI 추출 기법들과 비교하고 ROI 코딩을 하지 않는 기법과 ROI 코딩이 포함된 기법 간의 PSNR을 평가하여 품질을 비교한다.

시각 자극 복원을 위한 비음수 행렬 분해 기반의 영상 기저 자동 추출 (Automatic Extraction of Image Bases Based on Non-Negative Matrix Factorization for Visual Stimuli Reconstruction)

  • 조성식;박영묘;이성환
    • 인지과학
    • /
    • 제22권4호
    • /
    • pp.347-364
    • /
    • 2011
  • 본 논문에서는 fMRI를 사용하여 뇌신경 반응을 측정한 후, 자극으로 주어진 $10{\times}10$ 크기의 이진 영상을 사전 정보 없이 복원하기 위해 비음수 행렬 분해를 이용한 자동화된 영상 기저 추출 방법을 제안한다. 영상 기저란 영상을 표현하는 기본 단위로, 기존 연구에서는 사전에 정의된 $1{\times}1$, $2{\times}1$, $1{\times}2$, $2{\times}2$의 크기를 갖는 총 361개의 영상 기저에 반응하는 뇌 신호를 분석하여 기저 영상으로 복원하고, 모든 기저에 대한 복원 결과를 선형 결합하여 최종복원 영상을 획득하였다. 사람이 사전에 정의한 영상 기저를 필요로 하는 기존 연구와는 달리, 본 연구에서는 비음수 행렬 분해를 기반으로 학습 데이터로 주어진 이진 영상을 가장 잘 표현하는 영상 기저를 자동 추출하였다. 자동으로 추출된 영상 기저를 사용하여 이진 영상을 복원한 결과, 기존 연구 방법보다 개선된 복원 정확도를 보였다.

  • PDF

머리 MR영상에서 자동화된 뇌영역 추출 (Automated Brain Region Extraction Method in Head MR Image Sets)

  • Cho, Dong-Uk;Kim, Tae-Woo;Shin, Seung-Soo
    • 한국콘텐츠학회논문지
    • /
    • 제2권3호
    • /
    • pp.1-15
    • /
    • 2002
  • 본 논문은 인간 뇌의 가시화 및 해석을 위하여 단일 채널 MR영상에서 자동화된 뇌영역 추출 방법을 제안한다. 이 방법은 쌍곡선 적합을 이용한 자동 문턱치화와 3차원 형태 학적 연산에 의하여 뇌 마스크 볼륨을 생성한다. 쌍곡선 적합은 MR영상의 히스토그램에 곡선을 적합할 때 오차를 줄일 수 있으며, 침식, 연결부위 레이블링, 최대특징 연산, 팽창 등 3차원 형태학적 연산은 문턱치화된 뇌 마스크로부터 생성된 정육각형 볼륨 마스크에 적용된다. 제안한 방법은 SPGR, T1, T2, PD MR영상 세트에서 뇌영역을 자동 추출할 수 있으며, 가장자리 슬라이스에도 적용 가능하고, 영상이 뇌 전체를 포함하지 않아도 된다. 실험에서 20 세트의 MR영상에 적용하여 수동 방법과 비교하여 0.97 이상의 유사도를 보였다.

  • PDF

Automatic Photovoltaic Panel Area Extraction from UAV Thermal Infrared Images

  • Kim, Dusik;Youn, Junhee;Kim, Changyoon
    • 한국측량학회지
    • /
    • 제34권6호
    • /
    • pp.559-568
    • /
    • 2016
  • For the economic management of photovoltaic power plants, it is necessary to regularly monitor the panels within the plants to detect malfunctions. Thermal infrared image cameras are generally used for monitoring, since malfunctioning panels emit higher temperatures compared to those that are functioning. Recently, technologies that observe photovoltaic arrays by mounting thermal infrared cameras on UAVs (Unmanned Aerial Vehicle) are being developed for the efficient monitoring of large-scale photovoltaic power plants. However, the technologies developed until now have had the shortcomings of having to analyze the images manually to detect malfunctioning panels, which is time-consuming. In this paper, we propose an automatic photovoltaic panel area extraction algorithm for thermal infrared images acquired via a UAV. In the thermal infrared images, panel boundaries are presented as obvious linear features, and the panels are regularly arranged. Therefore, we exaggerate the linear features with a vertical and horizontal filtering algorithm, and apply a modified hierarchical histogram clustering method to extract candidates of panel boundaries. Among the candidates, initial panel areas are extracted by exclusion editing with the results of the photovoltaic array area detection. In this step, thresholding and image morphological algorithms are applied. Finally, panel areas are refined with the geometry of the surrounding panels. The accuracy of the results is evaluated quantitatively by manually digitized data, and a mean completeness of 95.0%, a mean correctness of 96.9%, and mean quality of 92.1 percent are obtained with the proposed algorithm.

특징점 추출기법을 이용한 접근불능지역의 위성영상 GCP 칩 자동추출 (GCP Chip Automatic Extraction of Satellite Imagery Using Interest Point in North Korea)

  • 이계동;윤종성
    • 한국측량학회지
    • /
    • 제37권4호
    • /
    • pp.211-218
    • /
    • 2019
  • 국토교통부에서는 2019년과 2020년에 차세대 중형위성 1호 및 2호 기를 발사하여, 지구환경 모니터링 및 접근불능지역에 대한 수치지도 제작에 활용하고자 하고 있다. 차세대 중형 위성을 통해 수집된 위성영상정보는 지구환경 모니터링, 지형도 제작, 재난재해 예방을 위한 분석 등 다양한 분야에 활용이 가능하다. 이와 같이 다양한 분야에 활용하기 위해서는 위성영상의 위치정확도 확보가 중요하며, 위성영상의 정밀기하수립을 위해 지표상의 정확한 지상기준점(GCP: Ground Control Point)을 사용하여 정밀 센서 모델을 수립하는 과정이 필요하다. 또한, 다양한 분야의 활용을 위해 정사영상 구축을 위한 단계별 자동화가 필요하며, 이를 위해 위성영상 GCP 칩의 DB (Data Base)가 체계적으로 구축되어야 한다. 따라서 본 연구에서는 위성영상의 정밀기하수립을 위하여 GCP를 자동 추출하는 다양한 기법들을 분석하여 최적의 방법을 도출하고자 한다.