• 제목/요약/키워드: data set

검색결과 11,095건 처리시간 0.041초

On inference of multivariate means under ranked set sampling

  • Rochani, Haresh;Linder, Daniel F.;Samawi, Hani;Panchal, Viral
    • Communications for Statistical Applications and Methods
    • /
    • 제25권1호
    • /
    • pp.1-13
    • /
    • 2018
  • In many studies, a researcher attempts to describe a population where units are measured for multiple outcomes, or responses. In this paper, we present an efficient procedure based on ranked set sampling to estimate and perform hypothesis testing on a multivariate mean. The method is based on ranking on an auxiliary covariate, which is assumed to be correlated with the multivariate response, in order to improve the efficiency of the estimation. We showed that the proposed estimators developed under this sampling scheme are unbiased, have smaller variance in the multivariate sense, and are asymptotically Gaussian. We also demonstrated that the efficiency of multivariate regression estimator can be improved by using Ranked set sampling. A bootstrap routine is developed in the statistical software R to perform inference when the sample size is small. We use a simulation study to investigate the performance of the method under known conditions and apply the method to the biomarker data collected in China Health and Nutrition Survey (CHNS 2009) data.

Nearest Neighbor Based Prototype Classification Preserving Class Regions

  • Hwang, Doosung;Kim, Daewon
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1345-1357
    • /
    • 2017
  • A prototype selection method chooses a small set of training points from a whole set of class data. As the data size increases, the selected prototypes play a significant role in covering class regions and learning a discriminate rule. This paper discusses the methods for selecting prototypes in a classification framework. We formulate a prototype selection problem into a set covering optimization problem in which the sets are composed with distance metric and predefined classes. The formulation of our problem makes us draw attention only to prototypes per class, not considering the other class points. A training point becomes a prototype by checking the number of neighbors and whether it is preselected. In this setting, we propose a greedy algorithm which chooses the most relevant points for preserving the class dominant regions. The proposed method is simple to implement, does not have parameters to adapt, and achieves better or comparable results on both artificial and real-world problems.

러프 집합을 이용한 코스피 200 주가지수옵션 시장에서의 박스스프레드 전략 실증분석 및 거래 전략 (Using rough set to support arbitrage box spread strategies in KOSPI 200 option markets)

  • 김민식;오경주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권1호
    • /
    • pp.37-47
    • /
    • 2011
  • 주가지수 옵션시장에는 많은 투자전략이 개발되어 있다. 그중 차익거래 전략은 시장이 효율성 유지측면에서 매우 중요한 역할을 하고 있다. 본 연구는 이러한 차익거래 전략 중 박스스프레드 전략을 적용하여 과거 옵션 데이터를 통해 사후 검증하고 러프 집합을 이용해 수익성을 향상시키고자 한다. 옵션 데이터는 2002년 1월부터 2006년 12월까지 실제 증권거래소에서 거래되었던 틱 데이터를 기반으로 하고 있으며 비주얼 베이직을 이용해 9시부터 오후 3시까지의 1분 마다의 종가인 1분봉으로 변형하여 분석을 하였다. 박스스프레드 전략은 낮은 위험, 낮은 이익 구조를 가지고 있다. 기존의 전략을 과거 데이터를 기반으로 백 테스팅 해보고 러프 집합을 이용하여 거래 진입 시점을 제한함으로써, 동일 위험 대비 좀 더 높은 수익구조를 만들어 낼 수 있는 전략을 구사한다면 낮은 위험으로 안정적 수익을 취할 수 있다.

Surface Water Mapping of Remote Sensing Data Using Pre-Trained Fully Convolutional Network

  • Song, Ah Ram;Jung, Min Young;Kim, Yong Il
    • 한국측량학회지
    • /
    • 제36권5호
    • /
    • pp.423-432
    • /
    • 2018
  • Surface water mapping has been widely used in various remote sensing applications. Water indices have been commonly used to distinguish water bodies from land; however, determining the optimal threshold and discriminating water bodies from similar objects such as shadows and snow is difficult. Deep learning algorithms have greatly advanced image segmentation and classification. In particular, FCN (Fully Convolutional Network) is state-of-the-art in per-pixel image segmentation and are used in most benchmarks such as PASCAL VOC2012 and Microsoft COCO (Common Objects in Context). However, these data sets are designed for daily scenarios and a few studies have conducted on applications of FCN using large scale remotely sensed data set. This paper aims to fine-tune the pre-trained FCN network using the CRMS (Coastwide Reference Monitoring System) data set for surface water mapping. The CRMS provides color infrared aerial photos and ground truth maps for the monitoring and restoration of wetlands in Louisiana, USA. To effectively learn the characteristics of surface water, we used pre-trained the DeepWaterMap network, which classifies water, land, snow, ice, clouds, and shadows using Landsat satellite images. Furthermore, the DeepWaterMap network was fine-tuned for the CRMS data set using two classes: water and land. The fine-tuned network finally classifies surface water without any additional learning process. The experimental results show that the proposed method enables high-quality surface mapping from CRMS data set and show the suitability of pre-trained FCN networks using remote sensing data for surface water mapping.

Variability of measured modal frequencies of a cable-stayed bridge under different wind conditions

  • Ni, Y.Q.;Ko, J.M.;Hua, X.G.;Zhou, H.F.
    • Smart Structures and Systems
    • /
    • 제3권3호
    • /
    • pp.341-356
    • /
    • 2007
  • A good understanding of normal modal variability of civil structures due to varying environmental conditions such as temperature and wind is important for reliable performance of vibration-based damage detection methods. This paper addresses the quantification of wind-induced modal variability of a cable-stayed bridge making use of one-year monitoring data. In order to discriminate the wind-induced modal variability from the temperature-induced modal variability, the one-year monitoring data are divided into two sets: the first set includes the data obtained under weak wind conditions (hourly-average wind speed less than 2 m/s) during all four seasons, and the second set includes the data obtained under both weak and strong (typhoon) wind conditions during the summer only. The measured modal frequencies and temperatures of the bridge obtained from the first set of data are used to formulate temperature-frequency correlation models by means of artificial neural network technique. Before the second set of data is utilized to quantify the wind-induced modal variability, the effect of temperature on the measured modal frequencies is first eliminated by normalizing these modal frequencies to a reference temperature with the use of the temperature-frequency correlation models. Then the wind-induced modal variability is quantitatively evaluated by correlating the normalized modal frequencies for each mode with the wind speed measurement data. It is revealed that in contrast to the dependence of modal frequencies on temperature, there is no explicit correlation between the modal frequencies and wind intensity. For most of the measured modes, the modal frequencies exhibit a slightly increasing trend with the increase of wind speed in statistical sense. The relative variation of the modal frequencies arising from wind effect (with the maximum hourly-average wind speed up to 17.6 m/s) is estimated to range from 1.61% to 7.87% for the measured 8 modes of the bridge, being notably less than the modal variability caused by temperature effect.

중.고등학생들의 측정에 대한 추론 유형 분석 (A Study on Secondary School Students' Reasoning Types about Measurement)

  • 이은미;김범기
    • 한국과학교육학회지
    • /
    • 제32권2호
    • /
    • pp.293-305
    • /
    • 2012
  • 이 연구는 중 고등학생들의 측정 인식에 나타난 추론 유형을 분석하여 과학 교육의 시사점을 얻는 데 있다. 연구 대상은 중학생 197명과 고등학생 200명으로 하였다. 측정에 대한 인식 조사를 위하여 검사지 PMQ1을 사용하였고, 검사지의 문항별 응답 내용은 부호화된 분석틀을 기준으로 점 추론과 집합 추론 유형으로 분석하였다. 분석한 추론 유형을 자료 수집, 자료 처리, 자료 비교로 나누어 측정 단계별 추론 유형 분포 및 학년별 집합 추론 유형 분포 차이를 분석하였다. 또한 측정의 불확실성에 대한 추론 유형 분석을 통해 각 측정 단계별 나타난 추론 유형과 비교 분석하였다. 측정 단계별 추론 유형 분포에서 집합 추론 유형은, 자료 처리에서 높게 나타났고, 자료 수집과 자료 비교에서 낮게 나타났다. 측정 단계별 학년에 따른 집합 추론 유형 분포는 자료 비교 단계에서 중학생들과 고등학생들 사이에 유의미한 차이가 있었다. 측정의 불확실성에 대한 인식은 집합 추론 유형이 높게 나타났으나 학년에 따라 유의미한 차이는 없었다. 측정을 통해 신뢰할 수 있는 결과를 얻기 위해서는 각 측정 단계에서 측정의 불확실성에 대한 인식이 일관성 있게 작용해야 하며 이는 학생들에게 측정에 대한 직접적인 교수 학습이 필요함을 시사한다.

발성변화에 강인한 화자 인식에 관한 연구 (Safety Robust Speaker Recognition Against Utterance Variationsed)

  • 이기용
    • 인터넷정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.69-73
    • /
    • 2004
  • 화자인식 시스템에서 화자 모델은 여러 세션동안 수집된 많은 양의 데이터 집합으로 등록한다. 많은 양의 데이터 집합은 많은 양의 메모리와 계산을 필요로 할 뿐 아니라, 게다가 사용자가 음성 등록을 위하여 여러 번에 걸쳐서 발성해야 하는 문제점이 있다. 최근, 이러한 문제를 보완하기 위해서 많은 적응 방법들이 제안되었다. 그러나, 여러 세션동안 모아진 데이터 집합은 불규칙한 발성 변화와 잡음 같은 이상치에 취약하고, 그것은 부정확한 화자 모델을 만든다. 본 논문에서는, GMM에 기초를 둔 화자 모델에 이상치들의 영향을 최소화하기 위한 적응 방법을 제안하였다. 강인한 적응은 M-추정의 점진적인 방법으로부터 얻어진다. 화자 모델은 초기에 적은 양의 데이터로 등록되어지고, 각각의 세션에서 얻어진 데이터로 반복적으로 적응시킨다. 실험 결과는 7개월에 걸쳐서 수집된 데이터 집합으로부터 제안된 방법이 이상치에 강인하다는 것을 보여준다.

  • PDF

교사 자료의 분광 특징 분리에 의한 감독 분류 성능 향상 (Enhancing Classification Performance by Separating Spectral Signature of Training Data Set)

  • 김광은
    • 대한원격탐사학회지
    • /
    • 제18권6호
    • /
    • pp.369-376
    • /
    • 2002
  • 본 연구에서는 공간 영상 자료의 감독 분류에 있어, 분석자에 의하여 선정된 분류 항목별 교사 자료를 분광 특징별로 다수의 군집으로 분리하고, 각각의 군집을 새로운 분류 항목의 교사 자료로서 설정함으로써 분류 성능을 향상시킬 수 있는 기법을 제안하고자 한다 특징 분리를 통하여 생성된 교사 자료는 비교적 작은 값의 밴드별 분산값을 가질 뿐 아니라 정규분포 형태의 자료 분포를 보이게 되어 통계적 감독 분류 기법의 적용에 적합한 교사 자료로서의 성격을 가지게 된다. 제안된 기법은 부산 지역에 대한 Landsat TM 영상 자료를 이용하여 그 적용성이 시험되었으며, 기존의 통계적 분류 기법들에 의한 결과와 그 성능이 정성적으로 비교되었다. 시험 적용 결과, 본 기법은 분석자가 선정한 교사 자료의 분광적인 분포 형태에 관계없이 우수한 분류 성능을 나타내는 것으로 판단되며, 따라서 분류 항목의 설정 및 항목별 교사 자료의 선정에 있어 교사 자료의 분광적 특징에 대한 동일성을 유지하기 위한 노력을 줄여줄 것으로 기대된다.

네트워크 비정상 탐지를 위한 속성 축소를 반영한 의사결정나무 기술 (Decision Tree Techniques with Feature Reduction for Network Anomaly Detection)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제29권4호
    • /
    • pp.795-805
    • /
    • 2019
  • 최근 알려지지 않은 공격에 대처하기 위한 네트워크 비정상(anomaly) 탐지 기술에 대한 관심이 한층 높아지고 있다. 이러한 기술 개발을 위해 데이터 마이닝(data mining), 기계학습(machine learning), 그리고 딥러닝(deep learning)등을 활용한 다양한 연구가 진행되고 있다. 본 논문에서는 분류(classification) 문제를 다루는 데이터 마이닝 기술 중 가장 전통적인 방법 중 하나인 의사결정나무(decision tree)를 이용하여 NSL-KDD 데이터 셋을 대상으로 네트워크 비정상 탐지 가능성을 보여준다. 의사결정나무의 과대적합(over-fitting) 단점을 해소하기 위해 카이-제곱(chi-square) 테스트를 통해 최적의 속성 선택(feature selection)을 수행하고, 선택된 13개의 속성을 사용한 의사결정나무 모델 환경에서 NSL-KDD 시험 데이터 셋 KDDTest+에 대해 84% 그리고 KDDTest-21에 대해 70%의 네트워크 비정상 검출 정확도를 보였다. 제시된 정확도는 기존 의사결정나무 모델 적용 시 이들 시험 데이터 셋을 대상으로 알려진 정확도 81% 그리고 64% 수준과 비교해 약 3% 그리고 6% 각각 향상된 결과다.

Correlation-based Feature Selection 기법과 Random Forest 알고리즘을 이용한 한강유역 지류의 TDI 예측 연구 (A Study on Predicting TDI(Trophic Diatom Index) in tributaries of Han river basin using Correlation-based Feature Selection technique and Random Forest algorithm)

  • 김민규;윤춘경;이한필;황순진;이상우
    • 한국물환경학회지
    • /
    • 제35권5호
    • /
    • pp.432-438
    • /
    • 2019
  • The purpose of this study is to predict Trophic Diatom Index (TDI) in tributaries of the Han River watershed using the random forest algorithm. The one year (2017) and supplied aquatic ecology health data were used. The data includes water quality(BOD, T-N, $NH_3-N$, T-P, $PO_4-P$, water temperature, DO, pH, conductivity, turbidity), hydraulic factors(water width, average water depth, average velocity of water), and TDI score. Seven factors including water temperature, BOD, T-N, $NH_3-N$, T-P, $PO_4-P$, and average water depth are selected by the Correlation Feature Selection. A TDI prediction model was generated by random forest using the seven factors. To evaluate this model, 2017 data set was used first. As a result of the evaluation, $R^2$, % Difference, NSE(Nash-Sutcliffe Efficiency), RMSE(Root Mean Square Error) and accuracy rate show that this model is compatible with predicting TDI. To be more concrete, $R^2$ is 0.93, % Difference is -0.37, NSE is 0.89, RMSE is 8.22 and accuracy rate is 70.4%. Also, additional evaluation using data set more than 17 times the measured point was performed. The results were similar when the 2017 data set were used. The Wilcoxon Signed Ranks Test shows there was no statistically significant difference between actual and predicted data for the 2017 data set. These results can specify the elements which probably affect aquatic ecology health. Also, these will provide direction relative to water quality management for a watershed that must be continuously preserved.