• 제목/요약/키워드: unsupervised analysis

검색결과 311건 처리시간 0.033초

국가재난관리 시스템과 민간 방재IT기술의 지능정보기술 적용 사례고찰을 통한 상호 연계에 관한 연구 (A Study on the Interconnection between National Disaster Management System and Private Disaster Prevention IT Technology through Application)

  • 김재표;김승천
    • 한국융합학회논문지
    • /
    • 제11권8호
    • /
    • pp.15-22
    • /
    • 2020
  • 재난예방단계와 사회재난분야의 관리강화를 위해 지능정보기술(ICBMA, IoT, Cloud, Big Data, Mobile, AI) 활용하여 상호 연계한 To-Be 재난관리시스템 제안을 고찰하고자 한다. 민간Moble, IoT등에서 생성되는 재난발생 전후시기에 재난징후의 Big Data와 분석 결과로 초지능 인프라를 구축함으로써 현재 재난관리 시스템을 고도화할 수가 있다. 재난징후의 Big Data를 AI의 지도, 비지도 강화훈련 학습으로 사용자에게 적시에 맞춤식 제공이 가능하고 장기적으로 재난대처 능력이 향상될 뿐 만 아니라 예방단계 중심의 관리 능력이 높아질 것으로 예상된다.

의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상 (Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity)

  • 윤희근;최수정;박성배
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.653-661
    • /
    • 2016
  • 기존의 패턴기반 트리플 생성 시스템은 distant supervision의 가정으로 인해 오류 패턴을 생성하여 트리플 생성 시스템의 성능을 저하시키는 문제점이 있다. 이 문제점을 해결하기 위해 본 논문에서는 패턴과 프로퍼티 사이의 의미 유사도 기반의 패턴 신뢰도를 측정하여 오류 패턴을 제거하는 방법을 제안한다. 의미 유사도 측정은 비지도 학습 방법인 워드임베딩과 워드넷 기반의 어휘 의미 유사도 측정 방법을 결합하여 사용한다. 또한 한국어 패턴과 영어 프로퍼티 사이의 언어 및 어휘 불일치 문제를 해결하기 위해 정준 상관 분석과 사전 기반의 번역을 사용한다. 실험 결과에 따르면 제안한 의미 유사도 기반의 패턴 신뢰도 측정 방법이 기존의 방법보다 10% 높은 정확률의 트리플 집합을 생성하여, 트리플 생성 성능 향상을 증명하였다.

CUDA 및 분할-정복 기반의 효율적인 다차원 척도법 (An Efficient Multidimensional Scaling Method based on CUDA and Divide-and-Conquer)

  • 박성인;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.427-431
    • /
    • 2010
  • 다차원 척도법(multidimensional scaling)은 고차원의 데이터를 낮은 차원의 공간에 매핑(mapping)하여 데이터 간의 유사성을 표현하는 방법이다. 이는 주로 자질 선정 및 데이터를 시각화하는 데 이용된다. 그러한 다차원 척도법 중, 전통 다차원 척도법(classical multidimensional scaling)은 긴 수행 시간과 큰 공간을 필요로 하기 때문에 객체의 수가 많은 경우에 대해 적용하기 어렵다. 이는 유클리드 거리(Euclidean distance)에 기반한 $n{\times}n$ 상이도 행렬(dissimilarity matrix)에 대해 고유쌍 문제(eigenpair problem)를 풀어야 하기 때문이다(단, n은 객체의 개수). 따라서, n이 커질수록 수행 시간이 길어지며, 메모리 사용량 증가로 인해 적용할 수 있는 데이터 크기에 한계가 있다. 본 논문에서는 이러한 문제를 완화하기 위해 GPGPU 기술 중 하나인 CUDA와 분할-정복(divide-and-conquer)기법을 활용한 효율적인 다차원 척도법을 제안하며, 다양한 실험을 통해 제안하는 기법이 객체의 개수가 많은 경우에 매우 효율적일 수 있음을 보인다.

AIS 데이터 분석을 통한 이상 거동 선박의 식별에 관한 연구 (Detection of Ship Movement Anomaly using AIS Data: A Study)

  • 오재용;김혜진;박세길
    • 한국항해항만학회지
    • /
    • 제42권4호
    • /
    • pp.277-282
    • /
    • 2018
  • 최근 해상교통량이 증가하고 선박교통 관제구역이 확대됨에 따라 관제사의 업무 부하가 증가하고 있으며, 이로 인해 교통량이 급증하는 경우 관제사가 위험을 인지하지 못하는 상황도 발생하게 된다. 이러한 배경에서 본 논문에서는 관제 업무의 지원을 위해 이상 거동 선박을 자동으로 식별하는 방법을 제안한다. 본 방법은 누적된 AIS 데이터를 이용하여 관제구역 내의 통항 패턴을 학습하고, 학습된 모델과의 비교를 통해 이상치를 계산하여 이상 거동 선박을 식별한다. 특히, 선박의 거동 상태에 대한 분류 정보가 없더라도 비지도 학습법을 기반으로 항적 데이터를 자동으로 분류하여 통항 패턴을 학습할 수 있으며, 항적의 군집화와 분류 과정을 통해 이상 거동 선박을 실시간으로 식별할 수 있는 특징을 가진다. 또한, 본 논문에서는 선박운항 시뮬레이터 및 실제 AIS 항적 데이터를 이용한 식별 실험을 수행하였으며, 이를 통해 선박교통관제 시스템에의 활용 가능성을 고찰하였다.

MODIS 자료를 이용한 한반도 지면피복 분류 (Classification of Land Cover over the Korean Peninsula using MODIS Data)

  • 강전호;서명석;곽종흠
    • 대기
    • /
    • 제19권2호
    • /
    • pp.169-182
    • /
    • 2009
  • To improve the performance of climate and numerical models, concerns on the land-atmosphere schemes are steadily increased in recent years. For the realistic calculation of land-atmosphere interaction, a land surface information of high quality is strongly required. In this study, a new land cover map over the Korean peninsula was developed using MODIS (MODerate resolution Imaging Spectroradiometer) data. The seven phenological data set (maximum, minimum, amplitude, average, growing period, growing and shedding rate) derived from 15-day normalized difference vegetation index (NDVI) were used as a basic input data. The ISOData (Iterative Self-Organizing Data Analysis), a kind of unsupervised non-hierarchical clustering method, was applied to the seven phenological data set. After the clustering, assignment of land cover type to the each cluster was performed according to the phenological characteristics of each land cover defined by USGS (US. Geological Survey). Most of the Korean peninsula are occupied by deciduous broadleaf forest (46.5%), mixed forest (15.6%), and dryland crop (13%). Whereas, the dominant land cover types are very diverse in South-Korea: evergreen needleleaf forest (29.9%), mixed forest (26.6%), deciduous broadleaf forest (16.2%), irrigated crop (12.6%), and dryland crop (10.7%). The 38 in-situ observation data-base over South-Korea, Environment Geographic Information System and Google-earth are used in the validation of the new land cover map. In general, the new land cover map over the Korean peninsula seems to be better classified compared to the USGS land cover map, especially for the Savanna in the USGS land cover map.

지식 기반 시스템에서 GIS 자료를 활용하기 위한 기계 학습 기법에 관한 연구 - Landsat ETM+ 영상의 토지 피복 분류를 사례로 (A Machine learning Approach for Knowledge Base Construction Incorporating GIS Data for land Cover Classification of Landsat ETM+ Image)

  • 김화환;구자용
    • 대한지리학회지
    • /
    • 제43권5호
    • /
    • pp.761-774
    • /
    • 2008
  • 원격탐사에서 위성 영상의 디지털 처리 기술이 발달하면서 GIS 자료와 지식 기반 전문가 시스템과의 통합에 대한 관심이 증가하고 있다. 본 연구에서는 위성영상을 토지피복 분류하는 과정에서 GIS 자료를 통합하기 위하여 기계 학습 기법과 규칙 기반 분류 기법을 적용하였다. 사례 지역을 대상으로 Landsat ETM+ 영상과 고도, 경사, 향, 수역과의 거리, 도로와의 거리, 인구밀도 등의 GIS 자료를 함께 활용하였다. C5.0 추론 기계 학습 알고리듬을 이용하여 350개의 표본점으로부터 결정 트리와 분류 규칙을 생성하였다. 본 연구에서 도출된 규칙을 이용하여 분류한 결과, 고독 수역과의 거리, 인구밀도 등의 GIS 자료가 규칙 기반 분류에 효과적인 것으로 나타났다. 본 연구에서 제안한 기계 학습과 지식 기반 분류 기법을 이용하면 다양한 GIS 자료들을 통합하여 위성영상을 보다 효과적으로 분류할 수 있다.

Assessing the Extent and Rate of Deforestation in the Mountainous Tropical Forest

  • Pujiono, Eko;Lee, Woo-Kyun;Kwak, Doo-Ahn;Lee, Jong-Yeol
    • 대한원격탐사학회지
    • /
    • 제27권3호
    • /
    • pp.315-328
    • /
    • 2011
  • Landsat data incorporated with additional bands-normalized difference vegetation index (NDVI) and band ratios were used to assess the extent and rate of deforestation in the Gunung Mutis Nature Reserve (GMNR), a mountainous tropical forest in Eastern of Indonesia. Hybrid classification was chosen as the classification approach. In this approach, the unsupervised classification-iterative self-organizing data analysis (ISODATA) was used to create signature files and training data set. A statistical separability measurement-transformed divergence (TD) was used to identify the combination of bands that showed the highest distinction between the land cover classes in training data set. Supervised classification-maximum likelihood classification (MLC) was performed using selected bands and the training data set. Post-classification smoothing and accuracy assessment were applied to classified image. Post-classification comparison was used to assess the extent of deforestation, of which the rate of deforestation was calculated by the formula suggested by Food Agriculture Organization (FAO). The results of two periods of deforestation assessment showed that the extent of deforestation during 1989-1999 was 720.72 ha, 0.80% of annual rate of deforestation, and its extent of deforestation during 1999-2009 was 1,059.12 ha, 1.31% of annual rate of deforestation. Such results are important for the GMNR authority to establish strategies, plans and actions for combating deforestation.

낮은 피사계 심도의 동영상에서 포커스 된 비디오 객체의 자동 검출 (Automatic Extraction of Focused Video Object from Low Depth-of-Field Image Sequences)

  • 박정우;김창익
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권10호
    • /
    • pp.851-861
    • /
    • 2006
  • 영상을 낮은 피사계 심도로 찍는 카메라 기법은 전통적으로 널리 이용되는 영상 취득 기술이다. 이 방법을 사용하면 사진사가 사진이나 동영상을 찍을 때 영상의 관심 영역에만 포커스를 두어 선명하게 표현하고 나머지는 흐릿하게 함으로써 자신의 의도를 보는 이에게의 분명하게 전달 할 수 있다. 본 논문은 이러한 피사계 심도가 낮은 동영상 입력에 대하여 사용자의 도움 없이 포커스 된 비디오 객체를 추출하는 새로운 방법을 제안한다. 본 연구에서 제안하는 방법은 크게 두 모듈로 나뉜다. 첫 번째 모듈에서는 동영상의 첫 번째 프레임에 대해서 포커스 된 영역과 그렇지 않은 흐릿한 부분을 자동으로 구분하여 관심 물체만을 추출한다. 두 번째 모듈에서는 첫 번째 모듈에서 구한 관심 물체의 모델을 바탕으로 동영상 프레임에서의 관심 물체만을 실시간이나 실시간에 가깝게 추출한다. 본 논문에서 제안하는 방법은 가상현실(VR)이나 실감 방송, 비디오 인덱싱 시스템과 같은 여러 응용 분야에 효과적으로 적용될 수 있고, 이러한 유용성은 실험 결과를 통해 보였다.

Comparison between Possibilistic c-Means (PCM) and Artificial Neural Network (ANN) Classification Algorithms in Land use/ Land cover Classification

  • Ganbold, Ganchimeg;Chasia, Stanley
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제7권1호
    • /
    • pp.57-78
    • /
    • 2017
  • There are several statistical classification algorithms available for land use/land cover classification. However, each has a certain bias or compromise. Some methods like the parallel piped approach in supervised classification, cannot classify continuous regions within a feature. On the other hand, while unsupervised classification method takes maximum advantage of spectral variability in an image, the maximally separable clusters in spectral space may not do much for our perception of important classes in a given study area. In this research, the output of an ANN algorithm was compared with the Possibilistic c-Means an improvement of the fuzzy c-Means on both moderate resolutions Landsat8 and a high resolution Formosat 2 images. The Formosat 2 image comes with an 8m spectral resolution on the multispectral data. This multispectral image data was resampled to 10m in order to maintain a uniform ratio of 1:3 against Landsat 8 image. Six classes were chosen for analysis including: Dense forest, eucalyptus, water, grassland, wheat and riverine sand. Using a standard false color composite (FCC), the six features reflected differently in the infrared region with wheat producing the brightest pixel values. Signature collection per class was therefore easily obtained for all classifications. The output of both ANN and FCM, were analyzed separately for accuracy and an error matrix generated to assess the quality and accuracy of the classification algorithms. When you compare the results of the two methods on a per-class-basis, ANN had a crisper output compared to PCM which yielded clusters with pixels especially on the moderate resolution Landsat 8 imagery.

빠른 클러스터 개수 선정을 통한 효율적인 데이터 클러스터링 방법 (Efficient Data Clustering using Fast Choice for Number of Clusters)

  • 김성수;강범수
    • 산업경영시스템학회지
    • /
    • 제41권2호
    • /
    • pp.1-8
    • /
    • 2018
  • K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, this method has the limitation to be used with fixed number of clusters because of only considering the intra-cluster distance to evaluate the data clustering solutions. Silhouette is useful and stable valid index to decide the data clustering solution with number of clusters to consider the intra and inter cluster distance for unsupervised data. However, this valid index has high computational burden because of considering quality measure for each data object. The objective of this paper is to propose the fast and simple speed-up method to overcome this limitation to use silhouette for the effective large-scale data clustering. In the first step, the proposed method calculates and saves the distance for each data once. In the second step, this distance matrix is used to calculate the relative distance rate ($V_j$) of each data j and this rate is used to choose the suitable number of clusters without much computation time. In the third step, the proposed efficient heuristic algorithm (Group search optimization, GSO, in this paper) can search the global optimum with saving computational capacity with good initial solutions using $V_j$ probabilistically for the data clustering. The performance of our proposed method is validated to save significantly computation time against the original silhouette only using Ruspini, Iris, Wine and Breast cancer in UCI machine learning repository datasets by experiment and analysis. Especially, the performance of our proposed method is much better than previous method for the larger size of data.