• Title/Summary/Keyword: Automatic Data Extraction

검색결과 309건 처리시간 0.021초

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

SYSTEM ANALYSIS OF PIPELINE SOFTWARE - A CASE STUDY OF THE IMAGING SURVEY AT ESO

  • Kim, Young-Soo
    • Journal of Astronomy and Space Sciences
    • /
    • 제20권4호
    • /
    • pp.403-416
    • /
    • 2003
  • There are common features, in both imaging surveys and image processing, between astronomical observations and remote sensing. Handling large amounts of data, in an easy and fast way, has become a common issue. Implementing pipeline software can be a solution to the problem, one which allows the processing of various kinds of data automatically. As a case study, the development of pipeline software for the EIS (European Southern Observatory Imaging Survey) is introduced. The EIS team has been conducting a sky survey to provide candidate targets to the 250 VLTs (Very Large Telescopes) observations. The survey data have been processed in a sequence of five major data corrections and reductions, i.e. preprocessing, flat fielding, photometric and astrometric corrections, source extraction, and coaddition. The processed data are eventually distributed to the users. In order to provide automatic processing of the vast volume of observed data, pipeline software has been developed. Because of the complexity of objects and different characteristic of each process, it was necessary to analyze the whole works of the EIS survey program. The overall tasks of the EIS are identified, and the scheme of the EIS pipeline software is defined. The system structure and the processes are presented, and in-depth flow charts are analyzed. During the analyses, it was revealed that handling the data flow and managing the database are important for the data processing. These analyses may also be applied to many other fields which require image processing.

LiDAR 데이터를 이용한 수치지도의 건물 및 등고선 레이어 생성 (Generation of Building and Contour Layers for Digital Mapping Using LiDAR Data)

  • 이동천;염재홍
    • 한국측량학회지
    • /
    • 제23권3호
    • /
    • pp.313-322
    • /
    • 2005
  • 급속한 기술의 발전과 인간 생활 및 문화 활동의 범위가 변하고 확장됨에 따라 지표면에 빠른 변화가 발생하고 있으므로 지도와 지형공간 데이터베이스의 갱신주기는 짧아져야 한다. 이를 만족시키기 위하여 최근에 지형공간정보 분야에서는 지도제작 과정의 자동화와 데이터 처리속도의 단축을 위한 연구가 진행되고 있으며, 이 결과 수치사진측량 워크스테이션, GPS/INS 기술, 위성영상의 활용기술, 자동 정보추출 및 LiDAR 시스템이 개발되었다. 항공 LiDAR 데이터로부터 자동으로 건물을 추출하고 등고선을 생성할 수 있는 가능성에 많은 관심이 집중되고 있다. 그러나 숙련된 작업자에 의해 수동으로 건물을 도화하는 기존의 사진측량 방법에 의한 결과와 비교하면, 정확도와 효율성에 대한 좀더 심도 깊은 연구가 수행되어야 한다. 반면에, LiDAR 데이터로부터 등고선을 생성한 결과, 품질 및 정회성에 있어서 효율적이고 경제적이었다. 본 연구에서는 수치지도 제작에 필요한 건물을 추출하고 등고선을 생성하기 위하여 LiDAR 데이터의 전처리 과정과 단계별 처리과정에 관련되는 다양한 조건의 영향 및 정확도에 관하여 평가하였다.

영상에서 객체와 배경의 색상 특징을 이용한 자동 객체 추출 기법 (An Automatic Object Extraction Method Using Color Features Of Object And Background In Image)

  • 이승갑;박영수;이강성;이종용;이상훈
    • 디지털융복합연구
    • /
    • 제11권12호
    • /
    • pp.459-465
    • /
    • 2013
  • 본 논문은 영상 속 객체와 배경의 컬러 특징을 이용한 주요 객체의 자동 추출 방법에 관한 연구이다. 인간이 객체를 판단할 때에는 배경과 객체의 색상 차이를 이용하는데 이러한 요소를 객체 추출 방법에 적용시키기 위해서는 배경과 객체의 색차를 강조하여야 한다. 따라서 본 논문에서는 원 RGB 영상을 인간의 시각 시스템과 유사한 HSV 색 공간으로 변환하고 각기 다른 분포도의 메디안 필터를 적용한 두 개의 영상을 생성한 뒤 두 개의 메디안 필터가 적용된 영상들을 합산하였고 데이터 군집화 방법인 Mean Shift 알고리즘을 적용하여 색상 특징을 그룹화 하였다. 마지막으로 이진화 작업을 위하여 영상의 채널 수를 3 채널에서 1 채널로 정규화 한 뒤 영상 내 픽셀들의 평균값을 임계값으로 이용하는 이진화 방법으로 객체 지도 영상을 생성하였고 주요 객체를 추출하였다.

Development of a Software Program for the Automatic Calculation of the Pulp/Tooth Volume Ratio on the Cone-Beam Computed Tomography

  • Lee, Hoon-Ki;Lee, Jeong-Yun
    • Journal of Oral Medicine and Pain
    • /
    • 제41권3호
    • /
    • pp.85-90
    • /
    • 2016
  • Purpose: The aim of this study was to develop an automated software to extract tooth and pulpal area from sectional cone-beam computed tomography (CBCT) images, which can guarantee more reproducible, objective and time-saving way to measure pulp/tooth volume ratio. Methods: The software program was developed using MATLAB (MathWorks). To determine the optimal threshold for the region of interest (ROI) extraction, user interface to adjust the threshold for extraction algorithm was added. Default threshold was determined after several trials to make the outline of extracted ROI fitting to the tooth and pulpal outlines. To test the effect of starting point location selected initially in the pulpal area on the final result, pulp/tooth volume ratio was calculated 5 times with different 5 starting points. Results: Navigation interface is composed of image loading, zoom-in, zoom-out, and move tool. ROI extraction process can be shown by check in the option box. Default threshold is adjusted for the extracted tooth area to cover whole tooth including dentin, cementum, and enamel. Of course, the result can be corrected, if necessary, by the examiner as well as by changing the threshold of density of hard tissue. Extracted tooth and pulp area are reconstructed three-dimensional (3D) and pulp/tooth volume ratio is calculated by voxel counting on reconstructed model. The difference between the pulp/tooth volume ratio results from the 5 different extraction starting points was not significant. Conclusions: In further studies based on a large-scale sample, the most proper threshold to present the most significant relationship between age and pulp/tooth volume ratio and the tooth correlated with age the most will be explored. If the software can be improved to use whole CBCT data set rather than just sectional images and to detect pulp canal in the original 3D images generated by CBCT software itself, it will be more promising in practical uses.

도로정보의 자동추출을 위한 수치사진측량기법의 적용 (Application of Digital Photogrammetry for The Automatic Extraction of Road Information)

  • 유환희
    • 한국측량학회지
    • /
    • 제12권1호
    • /
    • pp.89-94
    • /
    • 1994
  • 최근 많은 연구가 실시간 지도제작시스템의 개발에 초점이 맞춰지고 있으며, 일반적으로 자동차나 비행기로부터 지형에 관련된 수치형태의 정보를 얻고 있다. 본 연구는 미국 오하이오 주립대학의 지도 제작센터에서 개발한 일명 "GPS-Van"이라고 하는 관측장비를 이용하여 얻어진 수치영상으로부터 도로정보를 자동추출하고 수치자료의 효과적인 저장과 관리를 위한 방법을 제시하는데 목적을 두고 있다. 도로의 경계선 검출은 수치사진측량기법을 적용하므로써 수치영상에서 자동추출할 수 있으며 실시간 3차원위치 결정도 가능했다. 또한 자료저장단계를 레스터자료단계, 객체지향자료단계, 벡터자료단계로 구성되는 3단계 자료 저장방법과 자료관리 측면에서 효과적인 자료압축과 검색을 위해 사지수형자료구조를 제안하였다.구조를 제안하였다.

  • PDF

모델기반 컴포넌트 개발방법론의 지원을 위한 추상컴포넌트 자동 추출기법 (Automatic Extraction of Abstract Components for supporting Model-driven Development of Components)

  • 윤상권;박민규;최윤자
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권8호
    • /
    • pp.543-554
    • /
    • 2013
  • 모델 중심 개발 방법론은 시스템 개발의 추상화 수준을 높임으로써 구현 세부 사항과는 독립적으로 중요한 요구사항과 설계 문제 등을 개발 단계 초기에 점검할 수 있도록 해준다. 그러나 현재까지 많은 소프트웨어가 코드중심, 상향식 개발방식을 통해 개발되어 왔고, 따라서 적절한 도구의 지원 없이는 이러한 모델 중심 개발 방법을 도입하는 것이 쉽지 않다. 현재 코드 중심으로 개발된 시스템에 모델 중심 개발 방법론을 도입할 수 있도록 코드로부터 모델을 생성하는 역공학적인 접근방법이 연구되고 있으나 대부분 코드에서 일차적인 모델을 추출하는 데 그치고 있다. 하지만 추상컴포넌트 개념을 이용하면 이러한 모델을 일차적으로 추출에 그치지 않고, 추출된 일차 모델을 상위수준의 추상화 단계로 연속적으로 추출할 수 있다. 본 연구에서는 이러한 추상컴포넌트의 연속적인 추출 과정 중 첫 번째 단계인 코드로부터 최하위 기반(base) 추상컴포넌트를 추출하는 과정을 자동화할 수 있는 기법을 제안하고, 실제 도구 구현을 통해 그 기법의 타당성을 평가한다. 실험 대상으로 선택된 코드는 무선센서 네트워크 운영체제인 TinyOS의 소스 코드이며, 해당 소스 코드는 nesC 언어로 작성되었다.

항공 라이다 데이터를 이용한 건물 모델링의 자동화 (Automation of Building Extraction and Modeling Using Airborne LiDAR Data)

  • 임새봄;김정현;이동천
    • 한국측량학회지
    • /
    • 제27권5호
    • /
    • pp.619-628
    • /
    • 2009
  • LiDAR는 광범위한 지역의 지형 지물 및 지표면에 대한 3차원 좌표를 신속하게 획득할 수 있는 장비로 고정밀의 3차원 공간데이터를 제공하는 장점이 있다. 그러나 LiDAR 데이터는 불규칙한 3차원 점 데이터로 구성되어 있으므로, 의미적이고 시각적인 정보를 제공하지 않으며, LiDAR 데이터만을 사용하여 정보를 추출하는 것은 어렵다. 본 연구에서는 항공 LiDAR 데이터로부터 건물의 외곽선 자동 추출 및 3차원 상세 모델링을 위한 방법을 제안하였다. 전처리 과정으로 반복적 평면 fiitting을 통하여 노이즈 및 불필요한 데이터를 제거하고, 히스토그램 분석을 수행하여 지면과 비지면 데이터를 효과적으로 분리하였다. 건물 외곽선을 추출하기 위해서 객체추적 기법을 이용하여 건물의 외곽에 해당하는 LiDAR 점들을 분류하였으며, 선행과정을 통해 LiDAR 데이터로부터 최종적으로 건물의 외곽선을 추출하였다. 정확도 검증을 위해 추출된 건물의 외곽선을 1:1,000 수치지도와 비교한 결과, 실험지역의 평면 RMSE가 약 0.56m였다. 또한, 건물의 상부구조물의 형태를 재현하기 위한 특성정보 추출 방법을 제안하였다. 지붕면을 세부적으로 분할하고 모델링하기 위하여 통계적 및 기하적 특성정보를 이용하였으며, 각각의 상부구조물에 적합한 수학적 함수를 최소제곱법에 의해 결정함으로써 3차원 모델링이 가능하도록 하였다. 상부구조물 모델링 결과 각 형태에 따른 RMSE가 사각형 상부구조물은 0.91m, 삼각형 상부구조물은 1.43m, 아치형 상부구조물은 1.85m, 돔형 상부구조물이 1.97m였다. 이는 원시 LiDAR 데이터로부터 지붕면 분할 및 3차원 자동 모델링이 효과적으로 수행되었음을 보여주고 있다.

2D 칼라 얼굴 영상에서 반복적인 PCA 재구성을 이용한 자동적인 잡음 제거 (Automatic Denoising in 2D Color Face Images Using Recursive PCA Reconstruction)

  • 박현;문영식
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1157-1160
    • /
    • 2005
  • The denoising and reconstruction of color images are increasingly studied in the field of computer vision and image processing. Especially, the denoising and reconstruction of color face images are more difficult than those of natural images because of the structural characteristics of human faces as well as the subtleties of color interactions. In this paper, we propose a denoising method based on PCA reconstruction for removing complex color noises on human faces, which is not easy to remove by using vectorial color filters. The proposed method is composed of the following five steps; training of canonical eigenface space using PCA, automatic extracting of face features using active appearance model, relighing of reconstructed color image using bilateral filter, extraction of noise regions using the variance of training data, and reconstruction using partial information of input images (except the noise regions) and blending of the reconstructed image with the original image. Experimental results show that the proposed denosing method efficiently removes complex color noises on input face images.

  • PDF

XRML 기반 비교쇼핑몰의 구조와 배송비 산정에 관한 실증분석 (Architecture of XRML-based Comparison Shopping Mall and Its Performance on Delivery Cost Estimation)

  • 이재규;강주영
    • 한국경영과학회지
    • /
    • 제30권2호
    • /
    • pp.185-199
    • /
    • 2005
  • With the growth of internet shopping malls, there is increasing interest in comparison shopping mall. However most comparison sites compare only book prices by collecting simple XML data and do not provide .the exact comparison Including precise shipping costs. Shipping costs vary depending on each customer's address, the delivery method, and the category of selected goods, so rule based system is required in order to calculate exact shipping costs. Therefore, we designed and implemented comparison shopping mall which compares not only book prices but also shipping costs using rule based inference. By adopting the extensible Rule Markup language (XRML) approach, we proposed the methodology of extracting delivery rules from Web pages of each shopping mall. The XRML approach can facilitate nearly automatic rule extraction from Web pages and consistency maintenance between Web pages and rule base. We developed a ConsiderD system which applies our rule acquisition methodology based on XRML. The objective of the ConsiderD system is to compare the exact total cost of books including the delivery cost over Amazon.com, BarnesandNoble.com, and Powells.com. With this prototype, we conducted an experiment to show the potential of automatic rule acquisition from Web pages and illustrate the effect of delivery cost.