• 제목/요약/키워드: cross-validation method

검색결과 498건 처리시간 0.038초

이미지 감성분류를 위한 CNN과 K-means RGB Cluster 이-단계 학습 방안 (A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images)

  • 김정태;박은비;한기웅;이정현;이홍주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.139-156
    • /
    • 2021
  • 이미지 분류에서 딥러닝 모형을 사용하는 가장 큰 이유는 이미지의 전체적인 정보에서 각 지역 특징을 추출하여 서로의 관계를 고려할 수 있기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않을 수 있다. 이러한 감정 이미지 분류의 어려움을 해결하기 위하여 매년 많은 연구자들이 감정 이미지에 적합한 CNN기반 아키텍처를 제시하고 있다. 색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된다는 결과들이 도출되었다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하는 연구들이 있어왔으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분류 정확도를 더 높일 수 있었다. 본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도를 향상시키는 방안을 제안한다. 이미지의 RGB 값에 K 평균 군집화 방안을 적용하여 이미지를 대표하는 색을 추출하여, 각 감성 클래스 별 해당 색깔이 나올 확률을 가중치 식으로 변형 후 CNN 모델의 최종 Layer에 적용하는 이-단계 학습방안을 구현하였다. 이미지 데이터는 6가지 감정으로 분류되는 Emotion6와 8가지 감정으로 분류되는 Artphoto를 사용하였다. 학습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19를 사용하였으며, 성능 평가는 5겹 교차검증으로 CNN 모델에 이-단계 학습 방안을 적용하여 전후 성과를 비교하였다. CNN 아키텍처만을 활용한 경우보다 색 속성에서 추출한 정보를 함께 사용하였을 때 더 좋은 분류 정확도를 보였다.

가바렙정 (가바펜틴 800 mg)의 생물학적 동등성 평가 (Bioequivqlence of Gabarep Tablet to Neurotin Tablet (Gabapentin 800 mg))

  • 서영환;정주철;이재용;이정일;윤형종;손의동;방준석;김호현;정지훈
    • Journal of Pharmaceutical Investigation
    • /
    • 제38권4호
    • /
    • pp.261-267
    • /
    • 2008
  • The aim of the present study was to evaluate the bioequivalence of two gabapentin preparations. We used Neurontin tablet 800 mg (Pfizer Korea Inc.) as a reference drug for bioequivalence of Gabalep tablet 800 mg (Chong Kun Dang Pharmaceutical Co., Korea), and performed this whole study according to the guidelines of Korea Food and Drug Administration (KFDA). Twenty five healthy male volunteers were administered with each drug in a randomized $2{\times}2$ cross-over study with one week washout interval. After drug administration, blood was taken at predetermined time intervals ($0{\sim}24$ hours) and the concentrations of gabapentin in serum were determined using an high performance liquid chromatography-tandem mass spectrometer (LC-MS/MS) employing electrospray ionization technique and operating in multiple reaction mornitoring (MRM). The analytical method was validated in specificity, accuracy, precision and linearity. The phar-macokinetic parameters such as AUCt and Cmax were calculated and ANOVA test was utilized for the statistical analysis of the parameters using logarithmically transformed AUCt and Cmax. $Mean{\pm}SD$. of AUCt and Cmax value for reference drug and test drug were $29.94{\pm}9.23\;({\mu}g/mL{\cdot}hr)$ and $3.12{\pm}1.11\;({\mu}g/mL{\cdot}hr)$, and $31.48{\pm}9.77\;({\mu}g/mL{\cdot}hr)$ and $3.15{\pm}1.03\;({\mu}g/mL)$, respectively. The 90% confidence intervals using logarithmically transformed data were within the acceptance range of log(0.8) to log(1.25) for AUCt and Cmax, respectively. These results indicate that Gabalep tablet 800 mg is bioequivalent to Neurontin tablet 800 mg.

의사결정나무를 이용한 토양유기탄소 추정 모델 제작 (Building a Model for Estimate the Soil Organic Carbon Using Decision Tree Algorithm)

  • 유수홍;허준;정재훈;한수희
    • 대한공간정보학회지
    • /
    • 제18권3호
    • /
    • pp.29-35
    • /
    • 2010
  • 토양유기탄소는 산림의 형성에 도움을 주며, 대기 중의 이산화탄소양을 조절함으로써 지구 온난화에 영향을 미치는 중요한 인자 중 하나이다. 토양에 존재하는 인자의 분포를 정확히 파악하려면 모든 지역에 대해 샘플링을 수행 해야하나 이는 매우 비현실적인 방법이다. 따라서 알맞은 모델을 제작하여 토양유기탄소의 분포를 추정할 수 있다면 그 활용도가 높을 것으로 판단된다. 본 연구에서는 의사결정나무 알고리즘을 이용해 경사 데이터, 경사향 데이터, Digital Elevation Model (DEM), 식생의 형태 데이터로부터 토양유기탄소를 상대적으로 다량 함유하고 있는 환경 인자를 파악할 수 있는 모델을 제작했으며, 정확도 검증은 10 집단 교차 검정을 통해 수행하였다. 이를 위하여 See 5와 Weka 소프트웨어를 이용하였다. See5 소프트웨어의 경우, 토양유기탄소 표층에 대해 식생의 형태에 의해 토양유기탄소량이 결정되는 것으로 나타났으며, 중간층에 대해서는 DEM에 의해 토양유기탄소량이 달라진다는 결론이 도출됐다. 생성된 모델의 정확도는 표층에 대해 70.8%, 중간층에 대해 64.7%인 것으로 나타났다. Weka 소프트웨어의 경우, 토양유기탄소 샘플의 표층에 대해 See5와 동일한 결과가 도출되었지만, 중간층에 대해서는 DEM이나 식생의 형태뿐만 아니라 경사향도 영향을 미친다는 결론이 도출되었다. 생성된 모델의 정확도는 표층에 대해 68.98%, 중간층에 대해 60.65%인 것으로 나타났다. 본 연구는 토양유기탄소량의 파악 및 토양유기탄소 지도 제작에 활용될 수 있을 것으로 사료된다.

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.

한의 체중 조절 프로그램에 참여한 과체중, 비만 환자에서의 머신러닝 기법을 적용한 체중 감량 예측 연구 (Application of Machine Learning to Predict Weight Loss in Overweight, and Obese Patients on Korean Medicine Weight Management Program)

  • 김은주;박영배;최가혜;임영우;옥지명;노은영;송태민;강지훈;이향숙;김서영
    • 대한한의학회지
    • /
    • 제41권2호
    • /
    • pp.58-79
    • /
    • 2020
  • Objectives: The purpose of this study is to predict the weight loss by applying machine learning using real-world clinical data from overweight and obese adults on weight loss program in 4 Korean Medicine obesity clinics. Methods: From January, 2017 to May, 2019, we collected data from overweight and obese adults (BMI≥23 kg/m2) who registered for a 3-month Gamitaeeumjowi-tang prescription program. Predictive analysis was conducted at the time of three prescriptions, and the expected reduced rate and reduced weight at the next order of prescription were predicted as binary classification (classification benchmark: highest quartile, median, lowest quartile). For the median, further analysis was conducted after using the variable selection method. The data set for each analysis was 25,988 in the first, 6,304 in the second, and 833 in the third. 5-fold cross validation was used to prevent overfitting. Results: Prediction accuracy was increased from 1st to 2nd and 3rd analysis. After selecting the variables based on the median, artificial neural network showed the highest accuracy in 1st (54.69%), 2nd (73.52%), and 3rd (81.88%) prediction analysis based on reduced rate. The prediction performance was additionally confirmed through AUC, Random Forest showed the highest in 1st (0.640), 2nd (0.816), and 3rd (0.939) prediction analysis based on reduced weight. Conclusions: The prediction of weight loss by applying machine learning showed that the accuracy was improved by using the initial weight loss information. There is a possibility that it can be used to screen patients who need intensive intervention when expected weight loss is low.

근적외선 분광분석법을 이용한 낙엽송 목분의 함수율 예측 모델 개발 (Development of Moisture Content Prediction Model for Larix kaempferi Sawdust Using Near Infrared Spectroscopy)

  • 장윤성;양상윤;정현우;강규영;최준원;최인규;여환명
    • Journal of the Korean Wood Science and Technology
    • /
    • 제43권3호
    • /
    • pp.304-310
    • /
    • 2015
  • 저장 또는 운송단계에서 목분에 포함된 수분의 부적절한 조절은 생물학적 열화로 인한 품질하락 및 손실을 야기할 수 있기 때문에 목분의 함수율은 정확하게 측정되어야 하고 적절하게 조절되어야 한다. 본 연구에서는 근적외선(파장 대역: 1000-2400 nm) 분광분석법을 적용하여 낙엽송(Larix kaempferi) 목분의 함수율을 측정하고자 하였다. 각 상대습도($25^{\circ}C$, RH 30~99%) 단계별로 조습된 목분의 근적외선 반사스펙트럼을 측정하고, 적정 수학적 전처리(smoothing, standard normal variate)와 부분최소자승법을 적용하여 예측모델을 개발하였다. 도출된 함수율 예측모델은 높은 신뢰도를 보였다($R^2$ = 0.94, RMSEP = 1.544). 본 연구에서 개발된 근적외선 분광분석법을 통하여 비파괴적이면서 정확하고 신속한 목분 함수율의 측정과 효율적인 목재이용을 견인할 수 있으리라 기대된다.

우리나라에서 일최심신적설의 추정을 위한 인공신경망모형의 활용 (Application of Artificial Neural Network for estimation of daily maximum snow depth in Korea)

  • 이건;이동률;김동균
    • 한국수자원학회논문집
    • /
    • 제50권10호
    • /
    • pp.681-690
    • /
    • 2017
  • 본 연구에서는 우리나라 전역에 대하여 인공신경망 기법을 사용하여 일최심신적설을 추정하였다. 인공신경망 모형 구조를 시행 착오법을 이용하여 설계한 결과, 입력자료는 일 최저 기온, 일 평균 기온, 강수량으로 정하였고, 은닉층과 노드의 수는 각각 1층, 10개로 정하였다. 관측값을 인공신경망의 입력자료로 활용하는 경우, 교차검증 상관계수는 0.87로 Ordinary Kriging기법을 활용하여 일최신심적설을 공간보간한 경우의 교차검증상관계수인 0.40보다 크게 높았다. 미계측 지역의 일최심신적설을 추정하는 경우의 인공신경망 모형의 성능을 알아보기 위하여 인공신경망 모형의 입력자료들을 Ordinary Kriging으로 공간보간하여 일최심신적설을 추정하였다. 이 경우 교차검증 상관계수는 0.49였다. 또한 해발 고도 200 m 이상의 산지에서의 인공신경망의 성능은 나머지 지역인 평지에서의 성능보다 다소 떨어짐을 확인하였다. 본 연구의 이러한 결과는 우리나라 전역에 걸친 정확한 적설량의 즉각적인 산정에 인공신경망 모형이 효과적으로 활용될 수 있음을 의미한다.

인공 신경망 기반의 고시간 해상도를 갖는 전력수요 예측기법 (An Electric Load Forecasting Scheme with High Time Resolution Based on Artificial Neural Network)

  • 박진웅;문지훈;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.527-536
    • /
    • 2017
  • 최근 스마트 그리드 산업의 발달과 더불어 효과적인 에너지 관리 시스템의 필요성이 커지고 있다. 특히, 전기 부하 및 에너지 요금 감소를 위해서는 정확한 전력수요 예측과 그에 따른 효과적인 스마트 그리드 운영 전략이 필요하다. 본 논문에서는 보다 정확한 전력수요 예측을 위하여, 수요 시한 기준으로 수집된 전력 사용 데이터를 고시간 해상도로 분할하고, 이에 적합한 인공 신경망 기반의 전력수요 예측 모델을 구축하고자 한다. 예측 모델의 정확도를 향상시키기 위하여 우선, 수열 형태의 시계열 데이터가 가지는 주기성을 제대로 반영하지 못하는 기계 학습 모델의 문제점을 해결하고자, 시계열 데이터를 2차원 공간의 연속적인 데이터로 변환한다. 더욱이, 고시간 해상도에 따른 온도나 습도 등 외부 요인들의 보다 정확한 반영을 위해 이들에 대해서도 선형 보간법을 사용하여 세분화된 시점에서의 값을 추정하여 반영한다. 마지막으로, 구성된 특성 벡터에 대해 주성분 분석 수행을 통하여 불필요한 외부 요인을 제거한다. 예측 모델의 성능을 평가하기 위해서 5겹 교차 검증을 수행하였다. 실험 결과 모든 고시간 해상도에서 성능 향상을 보였으며, 특히 3분 해상도의 경우 3.71%의 가장 낮은 오차율을 보였다.

유기물의 인화점 예측을 위한 부분최소자승법과 SVM의 비교 (Comparison of Partial Least Squares and Support Vector Machine for the Flash Point Prediction of Organic Compounds)

  • 이창준;고재욱;이기백
    • Korean Chemical Engineering Research
    • /
    • 제48권6호
    • /
    • pp.717-724
    • /
    • 2010
  • 액체의 화재 및 폭발위험을 나타내는 가장 중요한 물성의 하나인 인화점의 실험 데이터는 그 필요에도 불구하고 실제로 데이터를 확보하는 것이 가능하지 않은 경우가 많다. 이 연구에서는 DIPPR 801에서 얻은 893개 유기물의 인화점 실험데이터로부터 인화점을 예측하는 부분최소자승법(PLS) 및 support vector machine(SVM) 모델을 만들고 비교하였다. 분자를 구성하는 각 구성요소들이 분자의 물성에 일정한 기여를 한다는 가정을 이용하여 분자의 물성을 예측하는 방법인 그룹기여법을 이용하여 65개 작용기가 이 예측모델의 독립변수가 되었고 분자량의 로그값이 추가되었다. 두 모델에서 결정해야 할 매개변수는 교차검증에서 계산된 오차를 이용하여 결정되었는데, SVM모델은 그 매개변수가 많아 particle swarm optimization을 이용한 최적화를 이용하였다. 훈련데이터의 선택이 예측성능에 영향을 줄 수 있어 임의로 100개의 데이터 세트를 생성하여 테스트하였다. 전체 데이터에 대해 계산된 평균절대오차는 PLS가 13.86~14.55였고, SVM이 7.44~10.26여서 SVM이 PLS에 비해 매우 우수한 예측성능을 보였다.

확장 베이지안망을 적용한 고위험성 HRCT 영상 분류 (Classification of Very High Concerns HRCT Images using Extended Bayesian Networks)

  • 임채균;정용규
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.7-12
    • /
    • 2012
  • 최근 의료분야에서는 방대한 양의 정보를 효과적으로 처리하기 위하여 의사결정트리, 신경망, 베이지안망 등을 비롯한 각종 데이터마이닝 기법의 적용 방안을 연구하고 있다. 또한 환자의 기본적인 신상정보나 과거력, 가족력과 같은 정보 이외에도 MRI, HRCT 등의 영상정보를 추가적으로 수집하고 진단에 활용함으로써 질병진단의 정확도 향상을 도모하는 것이 일반적인 현황이다. 하지만 실제 상황에서는 결과에 영향을 미치는 다량의 변수가 존재하므로 특정 데이터마이닝 기법을 통하여 얻을 수 있는 정보가 상당히 제한적이라고 볼 수 있다. 그뿐만 아니라 촬영된 의료영상도 부수적으로 진단에 긍정적인 영향을 줄 수는 있지만, 주관적인 판단 비중이 높아 자동화된 시스템으로 처리하기가 난해한 문제이다. 이에 따라 현실의 복잡한 상황에서 상대적으로 대처가 유리하고 다변량 확률적인 모델을 기반으로 하는 베이지안망에서 K2나 TAN 등으로 탐색 알고리즘을 개선한 확장 모델이 제안되었다. 이 때, 적용되는 탐색 알고리즘의 종류에 따라 그 성능이 크게 좌우되는 확장 베이지안망의 특성상, 각 기법에 대한 성능과 적합성의 사실적인 평가가 요구된다. 따라서 본 논문에서는 확장 베이지안망에서 질병 진단에 대한 동일한 데이터를 이용하여 실험을 수행하였으며, K2, TAN과 같은 탐색 알고리즘에 변화를 주며 분류 정확도를 측정하였다. 실험에서는 10-fold 교차검증을 수행한 결과분석을 기반으로 성능을 비교평가하고, 발병 위험성이 높은 환자에 대한 HRCT 영상을 분류하여 고위험성의 데이터를 식별 가능하도록 하였다.