• 제목/요약/키워드: Crossvalidation

검색결과 10건 처리시간 0.035초

통계적 지반 공간 정보 기법을 이용한 지층구조 분석 (Application of Statistical Geo-Spatial Information Technology to Soil Stratification)

  • 김한샘;김현기;신시열;정충기
    • 한국지반공학회논문집
    • /
    • 제27권7호
    • /
    • pp.59-68
    • /
    • 2011
  • 지반조사 결과 자료는 지반의 불균질성과 낮은 신뢰성을 갖는 일부 자료로 인해 불확실성을 갖게 된다. 이에 따라 지반조사 결과 자료를 활용하여 지반 특성을 해석할 경우 합리적인 공학적 판단을 위해 적절한 통계분석이 요구된다. 본 연구에서는 이상치 분석기법과 교차검증기법을 접목한 통계적 지반 공간 정보 분석 기법을 이용하여 대상지역 지반조사 자료 중 경향성을 상회하는 지반조사 지점을 선별하는 전문가시스템을 개발하였다. 개발 시스템을 이용하여 서울시 여의도 지역의 시추조사 자료를 바탕으로 지층구조 분석을 수행하였다. 그 결과 신뢰도가 낮은 것으로 판단되는 시추조사 자료를 결정하고, 본 지점을 제외한 여의도 지역의 기반암 섬도 분포를 확인하였다.

cDNA Microarray Normalization에 대한 연구

  • 김종영;이재원
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.331-334
    • /
    • 2003
  • 마이크로 어레이(microarray)실험에서 표준화(normalization)는 유전자의 발현수준에 영향을 미치는 여러 기술적인 변인을 제거하는 과정이다. cDNA microarray normalization에 있어 여러 방법이 제안되었지만, 이중 print-tip 효과가 존재할 때 사용되는 방법으로 print-tip lowess normalization이 대표적으로 사용된다. normalization에 사용되는 lowess 함수는 데이터의 특성에 따라 window width를 정해야만 연구의 목적에 맞는 결과를 도출할 수 있다. 본 논문에서는 각각의 tip에서 최적의 window width를 계산하는 절차를 논의하였다. 또한 이의 결과와 기존의 같은 window width를 사용하는 print-tip lowess normalization 결과와 비교 평가하여 normalization의 기본 원칙에 대한 타당성을 확인하였다.

  • PDF

QSPR Study of the Absorption Maxima of Azobenzene Dyes

  • Xu, Jie;Wang, Lei;Liu, Li;Bai, Zikui;Wang, Luoxin
    • Bulletin of the Korean Chemical Society
    • /
    • 제32권11호
    • /
    • pp.3865-3872
    • /
    • 2011
  • A quantitative structure-property relationship (QSPR) study was performed for the prediction of the absorption maxima of azobenzene dyes. The entire set of 191 azobenzenes was divided into a training set of 150 azobenzenes and a test set of 41 azobenzenes according to Kennard and Stones algorithm. A seven-descriptor model, with squared correlation coefficient ($R^2$) of 0.8755 and standard error of estimation (s) of 14.476, was developed by applying stepwise multiple linear regression (MLR) analysis on the training set. The reliability of the proposed model was further illustrated using various evaluation techniques: leave-many-out crossvalidation procedure, randomization tests, and validation through the test set.

의사결정트리의 분류 정확도 향상 (Classification Accuracy Improvement for Decision Tree)

  • 메하리 마르타 레제네;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.787-790
    • /
    • 2017
  • Data quality is the main issue in the classification problems; generally, the presence of noisy instances in the training dataset will not lead to robust classification performance. Such instances may cause the generated decision tree to suffer from over-fitting and its accuracy may decrease. Decision trees are useful, efficient, and commonly used for solving various real world classification problems in data mining. In this paper, we introduce a preprocessing technique to improve the classification accuracy rates of the C4.5 decision tree algorithm. In the proposed preprocessing method, we applied the naive Bayes classifier to remove the noisy instances from the training dataset. We applied our proposed method to a real e-commerce sales dataset to test the performance of the proposed algorithm against the existing C4.5 decision tree classifier. As the experimental results, the proposed method improved the classification accuracy by 8.5% and 14.32% using training dataset and 10-fold crossvalidation, respectively.

Semiparametric Regression Splines in Matched Case-Control Studies

  • Kim, In-Young;Carroll, Raymond J.;Cohen, Noah
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.167-170
    • /
    • 2003
  • We develop semiparametric methods for matched case-control studies using regression splines. Three methods are developed: an approximate crossvalidation scheme to estimate the smoothing parameter inherent in regression splines, as well as Monte Carlo Expectation Maximization (MCEM) and Bayesian methods to fit the regression spline model. We compare the approximate cross-validation approach, MCEM and Bayesian approaches using simulation, showing that they appear approximately equally efficient, with the approximate cross-validation method being computationally the most convenient. An example from equine epidemiology that motivated the work is used to demonstrate our approaches.

  • PDF

Comparison of QSAR Methods (CoMFA, CoMSIA, HQSAR) of Anticancer 1-N-Substituted Imidazoquinoline-4,9-dione Derivatives

  • Suh, Myung-Eun;Park, So-Young;Lee, Hyun-Jung
    • Bulletin of the Korean Chemical Society
    • /
    • 제23권3호
    • /
    • pp.417-422
    • /
    • 2002
  • Comparison studies of the Quantitative Structure Activity Relationship (QSAR) methods with new imidazo-quinolinedione derivatives were conducted using Comparative Molecular Field Analysis (CoMFA), Comparative Molecular Similarity Indices Analysis (CoMSIA), and the Hologram Quantitative Structure Activity Relationship (HQSAR). When the CoMFA crossvalidation value, q2, was 0.625, the Pearson correlation coefficient, r2, was 0.973. In CoMSIA, q2 was 0.52 and r2 was 0.979. In the HQSAR, q2 was 0.501 and r2 was 0.924. The best result was obtained using the CoMSIA method according to a comparison of the calculated values with the real in vitro cytotoxic activities against human ovarian cancer cell lines.

Application of artificial neural network to differential diagnosis of lung lesion: Preliminary results

  • Lee, Hae-Jun;Lee, Yu-Kyung;Hwang, Kyung-Hoon
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1614-1615
    • /
    • 2011
  • It is difficult to differentially diagnose between lung cancer and benign inflammatory lung lesion due to high false positive rate on F-18 FDG-PET. We investigated whether application of artificial neural network to this diagnosis may be helpful. We reviewed the medical records and F-18 FDG PET images of 12 patients, selecting clinical and PET variables such as SUV. For selected variables and confirm, multilayer neural perceptron was applied in crossvalidation method and compared to visual interpretation. Neural network correctly classified the lung lesions in 83%, and reduced greately the false positive rate. However, false negative rate was not influenced. Application of neural network to the differential diagnosis between lung cancer and benigh inflammatory lesion may be helpful. Further studies with more patients are warranted.

토마토 역병균 항균 활성 데이터의 이분번 근사모델링 (Two Class Approximation of TLB (Tomato Late Blight) Activity Data)

  • 한호규;;조승주
    • 농약과학회지
    • /
    • 제9권2호
    • /
    • pp.140-145
    • /
    • 2005
  • 정량적 구조 활성관계 모델링은 물리적인 성질과 생물학적 활성이 관계 있다는 것을 전제로 한다. 그러나, 퍼센트 활성과 같은 데이터들은 모델링에 많이 활용되지 않았다. 이것의 중요한 이유중의 하나는 이러한 값들이 정량적이 아니고 정성적인 데에 있다. 본 연구에서는 분자모델링에 퍼센트활성 데이터를 활용하기 위하여 데이터 값들을 2개의 계층으로 분류하고 CoMFA(비교분자장)를 판별함수로 활용하였다. 즉, 베타-케토아세트아닐라이드 유도체들의 토마토 역병균에 대한 항균력 시험의 퍼센트 활성 데이터를, 한 계층은 활성이 있는 것, 다른 계층은 활성이 없는 것으로 나누었다. 특히, CoMFA를 활용함으로써 화학적인 이해에 중요한 3차원적인 정보를 얻을 수 있었다. 이 모델은 주어진 데이타를 98%의 정확도로 설명하였으며, LOO 검증을 해본 결과 예측력은 약 69% 정도였다 이 결과는 활성 데이터를 근사적으로 2개의 계급으로 나누고 CoMFA를 활용하는 방식이 구조활성관계를 이해하고 화합물 유도체를 합성하는데 활용될 수 있음을 보여준다.

Prediction accuracy of incisal points in determining occlusal plane of digital complete dentures

  • Kenta Kashiwazaki;Yuriko Komagamine;Sahaprom Namano;Ji-Man Park;Maiko Iwaki;Shunsuke Minakuchi;Manabu, Kanazawa
    • The Journal of Advanced Prosthodontics
    • /
    • 제15권6호
    • /
    • pp.281-289
    • /
    • 2023
  • PURPOSE. This study aimed to predict the positional coordinates of incisor points from the scan data of conventional complete dentures and verify their accuracy. MATERIALS AND METHODS. The standard triangulated language (STL) data of the scanned 100 pairs of complete upper and lower dentures were imported into the computer-aided design software from which the position coordinates of the points corresponding to each landmark of the jaw were obtained. The x, y, and z coordinates of the incisor point (XP, YP, and ZP) were obtained from the maxillary and mandibular landmark coordinates using regression or calculation formulas, and the accuracy was verified to determine the deviation between the measured and predicted coordinate values. YP was obtained in two ways using the hamularincisive-papilla plane (HIP) and facial measurements. Multiple regression analysis was used to predict ZP. The root mean squared error (RMSE) values were used to verify the accuracy of the XP and YP. The RMSE value was obtained after crossvalidation using the remaining 30 cases of denture STL data to verify the accuracy of ZP. RESULTS. The RMSE was 2.22 for predicting XP. When predicting YP, the RMSE of the method using the HIP plane and facial measurements was 3.18 and 0.73, respectively. Cross-validation revealed the RMSE to be 1.53. CONCLUSION. YP and ZP could be predicted from anatomical landmarks of the maxillary and mandibular edentulous jaw, suggesting that YP could be predicted with better accuracy with the addition of the position of the lower border of the upper lip.

온도와 강수를 이용하여 일별 일사량을 추정하기 위한 심층 신경망 모델 개발 (Development of a deep neural network model to estimate solar radiation using temperature and precipitation)

  • 강대균;현신우;김광수
    • 한국농림기상학회지
    • /
    • 제21권2호
    • /
    • pp.85-96
    • /
    • 2019
  • 일사량은 자연 생태계와 농업 생태계에서 에너지 수지와 물 순환을 추정하는데 중요한 변수이다. 일별 일사량을 추정하기 위해 심층 신경망(DNN) 모델이 개발되었다. 일조시간 등의 변수보다 기상 관측소에서의 가용성이 더 높은 온도와 강수량이 심층 신경망 모델의 입력 자료로 사용되었다. five-fold crossvalidation 을 사용하여 심층 신경망을 훈련시키고 검증하였다. 국내 15 개의 기상 관측소에서 30 년 이상 장기간의 기상 자료가 수집되었다. Cross-validation을 통해 얻어진 심층 신경망 모델은 수원 지역 기상 관측소의 일별 일사량 추정치에 대해 비교적 작은 RMSE($3.75MJ\;m^{-2}\;d^{-1}$) 값을 가졌다. 심층 신경망 모델은 수원 지역 기상 관측소의 일사량의 변위의 약 68%를 설명했다. 1985 년과 1998 년의 일사량 관측값은 일조시간에 비해 상당히 낮은 값이 관측되었다. 이는 후속 연구에서 일사량 관측 데이터의 품질 평가가 필요할 것임을 시사했다. 해당 연도의 데이터를 분석에서 제외했을 때, 심층 신경망 모델의 추정값은 통계적 수치가 약간 높게 나타났다. 예를 들어, $R^2$ 와 RMSE 의 값은 각각 0.72 와 $3.55MJ\;m^{-2}\;d^{-1}$ 이었다. 심층 신경망 모델은 기온과 강수량을 통해 일사량을 추정하는데 유용하며, 이는 미래 기후 시나리오 자료에 대해서 활용할 수 있을 것이다. 따라서, 공간에 대한 제약이 완화된 심층 신경망 모델은 작물 모델의 입력 자료로 일사량이 필요한 작물 생산성에 대한 기후 변화 영향 평가에 유용하게 활용될 수 있을 것이다.