• 제목/요약/키워드: Cross - Validation

검색결과 999건 처리시간 0.032초

Non Destructive Fast Determination of Fatty Acid Composition by Near Infrared Reflectance Spectroscopy in Sesame

  • Kang, Churl-Whan;Kim, Dong-Hwi;Lee, Sung-Woo;Kim, Ki-Jong;Cho, Kyu-Chae;Shim, Kang-Bo
    • 한국작물학회지
    • /
    • 제51권spc1호
    • /
    • pp.283-291
    • /
    • 2006
  • To investigate seed non destructive and fast determination technique utilizing near infrared reflectance spectroscopy (NIRs) for screening ultra high oleic (C18:1) and linoleic (C18:2) fatty acid content sesame varieties among genetic resources and lines of pedigree generations of cross and mutation breeding were carried out in National Institute of Crop Science (NICS). 150 among 378 landraces and introduced cultivars were released to analyse fatty acids by NIRs and gas chromatography (GC). Average content of each fatty acid was 9.64% in palmitic acid (C16:0), 4.73% in stearic acid (C18:0), 42.26% in oleic acid and 43.38% in linoleic acid by GC. The content range of each fatty acid was from 7.29 to 12.27% in palmitic, 6.49% from 2.39 to 8.88% in stearic, 12.59% of wider range compared to that of stearic and palmitic from 37.36 to 49.95% in oleic and of the widest from 30.60 to 47.40% in linoleic acid. Spectrums analyzed by NIRs were distributed from 400 to 2,500 nm wavelengths and varietal distribution of fatty acids were appeared as regular distribution. Varietal differences of oleic acid content good for food processing and human health by NIRs was 14.08% of which 1.49% wider range than that of GC from 38.31 to 52.39%. Varietal differences of linoleic acid content by NIRs was 16.41% of which 0.39% narrower range than that of GC from 30.60 to 47.01%. Varietal differences of oleic and linoleic acid content in NIRs analysis were appeared relatively similar inclination compared with those of GC. Partial least square regression (PLSR) among multiple variant regression (MVR) in NIRs calibration statistics was carried out in spectrum characteristics on the wavelength from 700 to 2,500 nm with oleic and linoleic acids. Correlation coefficient of root square (RSQ) in oleic acid content was 0.724 of which 72.4 percent of sample varieties among all distributed in the range of 0.570 percent of standard error when calibrated (SEC) which were considerably acceptable in statistic confidence significantly for analysis between NIRs and GC. Standard error of cross validation (SECV) of oleic acid was 0.725 of which distributed in the range of 0.725 percent standard error among the samples of mother population between analyzed value by NIRs analysis and analyzed value by GC. RSQ of linoleic acid content was 0.735 of which 73.5 percent of sample varieties among all distributed in the range of 0.643 percent of SEC. SECV of linoleic acid was 0.711 of which distributed in the range of 0.711 percent standard error among the samples of mother population between NIRs analysis and GC analysis. Consequently, adoption NIR analysis for fatty acids of oleic and linoleic instead that of GC was recognized statistically significant between NIRs and GC analysis through not only majority of samples distributed in the range of negligible SEC but also SECV. For enlarging and increasing statistic significance of NIRs analysis, wider range of fatty acids contented sesame germplasm should be kept on releasing additionally for increasing correlation coefficient of RSQ and reducing SEC and SECV in the future.

한국남녀의 관계적 자아의 특성: 다원적 구성요인 탐색 및 타당성 분석 (Exploration of the Multiple Structure of Relational Self and Construct Validation among Korean Adults)

  • 김지경;김명소
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제9권2호
    • /
    • pp.41-59
    • /
    • 2003
  • 본 연구는 최근 관심의 대상이 되고 있는 관계적 자아(relational self)에 대한 연구로서 두 가지 목적에서 출발하였다. 첫째는 한국인이 중요하게 생각하는 관계적 자아의 의미와 구성요인들을 탐색하고, 남녀가 과연 관계적 자아해석의 내용에 있어 차이가 있는가를 알아보는 것이다. 두 번째는 관계적 자아의 구성요인들에 대한 구성개념 타당도를 검증하기 위해 관계적 자아 척도를 구성하고 남녀차이분석과 함께 관계적 자아와 관련된 척도(상호의존적 자아해석척도와 성역할정체감 척도)와의 관계성을 검증하는 것이다. 이를 위해 설문과 FGI(Focused Group Interview)를 실시하여 관계적 자아의 특성들을 파악하고 그 유사성에 따라 내용분석을 한 결과, 관계적 자아를 구성하는 하위요인이 크게 두 가지 차원, 즉, 도구성와 표현성이며 남성의 경우 도구성이, 여성의 경우 표현성이 강조되고 있음을 밝혀내었다. 설문과 FGI 내용을 바탕으로 각 차원을 측정하는 문항들을 구성하였으며, 이 척도를 조사기관에 의뢰하여 전국을 대표하는 표본 1503명에게 실시하였다. 각 척도에 대한 요인분석을 실시한 결과, 도구성은 실리성, 독자성, 주도성, 유능성, 주체성과 같은 요인들로 구성되었고, 표현성은 공감성, 의존성, 배려, 수동성 요인으로 구성되었다. 도구성과 표현성에 대한 남녀 차이를 분석한 결과, 예측한대로 각각의 요인별로 남녀차이가 유의미하게 나타나 대체적으로 도구성 차원에서는 남성이 높았고, 표현성 차원에서는 여성이 더 높은 점수를 보였다. 한편, 기존의 연구에서 관계적 자아척도로 자주 사용되어온 Cross(2000)의 상호의존적 자아해석 척도에서는 남녀차이가 나타나지 않아 집합주의 문화의 특성이 강한 우리 사회는 남녀 모두에게 타인과의 관계성이 중요한 자아구성 요인임을 짐작하게 하였다. 위와 같은 두 연구 결과는 관계가 남녀 모두에게 중요하지만 관계성의 의미나 관계성에 대한 기대, 유지 방식 등에 있어 남녀가 다름을 보여주고 있다. 또 Cross의 상호의존적 자아해석 척도는 본 연구에서 개발된 도구성과 표현성 척도 중 표현성 차원과 관련이 높았고 도구성 요인들 중에서는 유능성과 상관이 높게 나타났다. 성역할 정체감 척도와의 관계를 살펴보면, 기대한 바와 같이 여성성 점수와 표현성간에 그리고 남성성 점수와 도구성간에 높은 상관이 나타나 남성과 여성이 보이는 관계적 자아의 차이가 성역할 사회화와 관련이 높다는 것을 알 수 있었다. 이 외에 연구의 제한점과 시사점에 대해 논의하였다.

  • PDF

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용 (Optimization of Multiclass Support Vector Machine using Genetic Algorithm: Application to the Prediction of Corporate Credit Rating)

  • 안현철
    • 경영정보학연구
    • /
    • 제16권3호
    • /
    • pp.161-177
    • /
    • 2014
  • 기업신용등급은 금융시장의 신뢰를 구축하고 거래를 활성화하는데 있어 매우 중요한 요소로서, 오래 전부터 학계에서는 보다 정확한 기업신용등급 예측을 가능케 하는 다양한 모형들을 연구해 왔다. 구체적으로 다중판별분석(Multiple Discriminant Analysis, MDA)이나 다항 로지스틱 회귀분석(multinomial logistic regression analysis, MLOGIT)과 같은 통계기법을 비롯해, 인공신경망(Artificial Neural Networks, ANN), 사례기반추론(Case-based Reasoning, CBR), 그리고 다분류 문제해결을 위해 확장된 다분류 Support Vector Machines(Multiclass SVM)에 이르기까지 다양한 기법들이 학자들에 의해 적용되었는데, 최근의 연구결과들에 따르면 이 중에서도 다분류 SVM이 가장 우수한 예측성과를 보이고 있는 것으로 보고되고 있다. 본 연구에서는 이러한 다분류 SVM의 성능을 한 단계 더 개선하기 위한 대안으로 유전자 알고리즘(GA, Genetic Algorithm)을 활용한 최적화 모형을 제안한다. 구체적으로 본 연구의 제안모형은 유전자 알고리즘을 활용해 다분류 SVM에 적용되어야 할 최적의 커널 함수 파라미터값들과 최적의 입력변수 집합(feature subset)을 탐색하도록 설계되었다. 실제 데이터셋을 활용해 제안모형을 적용해 본 결과, MDA나 MLOGIT, CBR, ANN과 같은 기존 인공지능/데이터마이닝 기법들은 물론 지금까지 가장 우수한 예측성과를 보이는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안모형이 더 우수한 예측성과를 보임을 확인할 수 있었다.

전자파표면유속계의 측정 각도에 따른 평수기 유속 측정 정확도 분석 (Accuracy evaluation of microwave water surface current meter for measurement angles in middle flow condition)

  • 손근수;김동수;김경동;김종민
    • 한국수자원학회논문집
    • /
    • 제53권1호
    • /
    • pp.15-27
    • /
    • 2020
  • 하천 유량관측은 수자원의 관리를 위해 활용되는 기초적이고 대표적인 자료로 하천에서 정확한 유량을 관측하는 것은 중요하다. 따라서 최근에는 다양한 첨단 장비들이 개발되어 전통적인 하천의 유량관측을 대체하거나 보완하고 있다. 여러 최신 장비들 중 전자파표면유속계는 홍수기와 같이 하천에 접근하여 직접유량계측이 위험하고 정확도 확보가 어려울 경우전자파를 이용하여 비접촉식으로 유량을 계측하는 장비로 홍수기 및 평갈수기에도 하천 유량계측에 활용되기 시작하였다. 전자파표면유속계는 사용법이 간단하고 간접적으로 유속을 측정하기 때문에 기존의 직접측정 방법에 비해 안전한 장점이 있어 현재 국내에서는 홍수기 또는 접근이 어려운 하천의 유속 측정을 위해 사용되고 있다. 국내에서는 1993년 유량측정 장치 개발을 위해 전자파표면유속계(MWSCM; Microwave Water Surface Current Meter)를 개발을 연구를 수행하였고, 최근에는 국내에서 개발된 전자파표면유속계을 활용하여 유량측정을 위해 사용되고 있다. 하지만 국내에서 개발된 전자파표면유속계가 실제 하천에서 유속측정의 정확도에 대한 연구는 부족한 실정이다. 전자파표면유속계는 기기로부터 전자파를 이용해 유속을 측정하기 때문에 수직각과 편각과 같은 각도 변화에 따라 측정정확도가 바뀔 수 있고, 전자파표면유속계 본체에서 발사되는 전자파의 측정영역에 따라 유속측정에 오차가 발생할 수 있다. 본 연구에서는 국내에서 개발 전자파표면유속계의 측정정확도를 분석하기 위해서 실제하천과 유사한 실규모 하천수로에서 수직각과 편각을 변화시키며 측정을 수행하여 수직각과 편각에 변화에 따른 유속측정 정확도를 분석하였다. 그리고 전자파표면유속계의 측정영역의 고려를 통해서 측정영역에 따른 유속측정결과를 분석하였다. 유속측정 결과를 통해서 수직각 15° 이하에서는 유속측정의 오차가 커지게 되는 것으로 나타났고, 편각이 커질수록 유속측정의 결과의 변동계수가 커지는 것으로 나타났다. 그리고 편각에 따른 오차의 영향은 전자파표면유속계의 측정영역에 따라 결과가 달라지는 것으로 나타났다.

빅데이터 기반 추천시스템 구현을 위한 다중 프로파일 앙상블 기법 (A Multimodal Profile Ensemble Approach to Development of Recommender Systems Using Big Data)

  • 김민정;조윤호
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.93-110
    • /
    • 2015
  • 기존의 협업필터링 추천시스템 연구는 상품에 대한 고객의 평점(rating)이나 구매 여부 데이터로부터 하나의 프로파일을 생성하고 이를 기반으로 추천 성능을 향상시킬 수 있는 새로운 알고리즘을 개발하는 위주로 진행되어 왔다. 그러나 빅데이터 환경이 도래하면서 기업이 수집할 수 있는 고객 데이터가 풍부해지고 다양해짐에 따라, 보다 정확하게 고객의 선호도나 행태를 파악하는 것이 가능하게 되었고 이러한 데이터, 즉 퍼스널 빅데이터(personal big data)를 추천시스템에 활용하는 연구의 필요성이 대두되고 있다. 본 연구에서는 마케팅의 시장세분화 이론에 근거하여 퍼스널 빅데이터로부터 고객의 선호도나 행태를 다양한 관점에서 표현할 수 있는 5종의 다중 프로파일(multimodal profile)을 개발하고, 이를 활용하여 협업필터링 추천시스템의 성능을 개선하고자 한다. 제안하는 5종의 다중 프로파일은 프로파일 통합 유사도, 개별 프로파일 유사도 평균, 개별 프로파일 유사도 가중 평균이라는 세 가지 앙상블 기법을 통해 협업필터링의 이웃(neighborhood) 탐색과정에 적용된다. 실제 퍼스널 빅데이터에 본 연구에서 제안하는 방법론을 적용한 결과, 단일 프로파일을 사용하는 협업필터링 알고리즘보다 추천 성능이 상당히 개선되었으며 앙상블 방법 중에서는 개별 프로파일 유사도 가중 평균 기법이 가장 높은 추천 성능을 보여주었다. 본 연구는 빅데이터 환경에서 추천시스템을 개발하고자 할 때, 어떠한 성격의 데이터로부터 고객의 특성을 규명하는 프로파일을 만들고 이를 어떻게 결합하여 사용하는 것이 효과적인 지 처음으로 제안하였다는 점에서 그 의의가 있다.

뉴트리아(Myocastor coypus) 분포밀도 및 잠재적 서식가능지역 예측에 따른 관리방향 (A Management Plan According to the Estimation of Nutria (Myocastorcoypus) Distribution Density and Potential Suitable Habitat)

  • 김아름;김영채;이도훈
    • 환경영향평가
    • /
    • 제27권2호
    • /
    • pp.203-214
    • /
    • 2018
  • 본 연구는 국내에 서식하는 뉴트리아의 집중분포지역과 잠재적인 서식가능지역을 예측하여 효과적인 관리방향 설정에 유용한 자료를 제공하고자 하였다. 뉴트리아의 전국 분포 자료를 토대로 CVh(가능도 교차타당성)값을 띠폭(bandwidth)에 적용하여 분포밀도를 분석한 결과, 부산광역시, 대구광역시, 경상남도 소재 11개 시 군, 경상북도 소재 1개 군 등 낙동강수계에 위치한 14개 행정구역 내에서 우선적인 제거가 필요한 집중분포지역이 확인되었다. MaxEnt 모델을 이용한 잠재적인 서식가능지역 예측에서는 낙동강 중 하류 일대와 섬진강 하류, 가화천 일대에서 출현 가능성이 나타났다. 모형의 변수별 기여도는 고도, 건조한 달의 강수량, 가장 추운달의 최저온도, 수계로부터의 거리 순으로 높은 기여도를 보였으며, 출현확률과의 관계를 살펴보면, 고도 34m 이하의 저지대, 가장 추운달의 최저온도가 $-5.7^{\circ}C$이상 $-0.6^{\circ}C$ 이하인 지역, 가장 건조한 달의 강수량이 15-30mm, 수계로부터 1,373m 이하인 지역에서 임계값보다 높은 출현확률을 보였다. 뉴트리아의 생태적 특성과 본 연구결과를 종합하면, 고도, 물과의 접근성 및 이용성, 겨울철 낮은 기온이 뉴트리아의 정착과 확산에 영향을 주는 주요 요인으로 판단되므로 향후 서식가능지역의 검출과 확산 예측 모델링에 있어 중요한 변수로 검토될 수 있다. 뉴트리아와 같은 침입외래생물의 집중분포지역과 관리대상지역을 구분하고 그에 적합한 관리전략을 수립하여 관리현장에 적용하는 것은 영구적인 제어 목적의 관리에 있어 필수적인 사항이다. 본 연구에서 제시된 결과는 우선관리대상지역의 신속한 관리와 확산가능지역에 대한 사전 예방적 관리 등 전략적인 관리의 실행에 있어 유용한 자료로 활용될 수 있다.

RCP 기후변화시나리오를 이용한 미래 북한지역의 수문순환 변화 영향 평가 II. 압록강유역의 미래 수문순환 변화 영향 평가 (Impacts assessment of Climate changes in North Korea based on RCP climate change scenarios II. Impacts assessment of hydrologic cycle changes in Yalu River)

  • 정세진;강동호;김병식
    • 한국습지학회지
    • /
    • 제21권spc호
    • /
    • pp.39-50
    • /
    • 2019
  • 본 논문의 목적은 기후변화가 북한지역에서 유역규모의 수문순환에 미치는 영향을 평가하는데 있다. 먼저, CMIP5(Coupled Model Intercomparison Project Phase 5)의 모형인 MRI-CGCM3모델을 선택하였으며, 추계학적 축소기법의 하나인 SDQDM(Spatial Disaggregation-Quantile Delta Mapping)기법을 이용하여 기후변화시나리오 자료를 편의보정 하였다. 또한 관측치와 SDQDM 기법의 적용 전·후의 비교를 통해 SDQDM기법의 타당성을 검토하였다. 또한 기후변화에 따른 극한기후가 북한의 유역규모 수문순환과 유출에 미치는 영향을 평가하고자 한다. 일반적으로 기후변화에 따른 수문순환을 전망하기에 앞서 분석에 사용되는 유출모형의 매개변수 최적화가 우선적으로 수행되어야 하지만 북한지역은 정치적 이유로 인해 미계측 유역으로 분류되어 있어 관측 유출량 자료를 확보하기 어렵다. 따라서 본 논문에서는 양질의 유출량자료가 있는 남한의 16개 유역을 대상으로 M-RAT모형의 최적 매개변수를 산정하였다. 또한 유역특성변수 간 상관분석을 통해 다중공선성을 고려하였고, 단계적 회귀분석을 통해 미계측 유역에 적용 할 수 있는 매개변수 추정식을 산정하였다. 매개변수 추정식의 검증을 위해 남한의 오십천, 남대천, 용담댐, 영강 유역을 미계측 유역이라고 가정하고 교차검증을 수행한 결과 4개 유역 모두 효율계수 NSE가 0.8이상으로 높은 효율성을 확인하였다. 본 논문에서는 기후변화시나리오와 추정된 유출모형의 매개변수를 이용하여 북한의 압록강 유역의 기후변화에 따른 유역규모의 수문순환과정의 변화를 평가하였다. 분석 결과, 기후변화시 강수량이 증가하였고, 기온상승으로 인해 증발산량의 증가되는 것으로 전망되었고, 유역 내 유역 저류량은 감소하는 것을 확인하였다. 유황 분석결과 Future 1, 2 기간에 풍수량은 증가하고, 갈수량이 감소하고 Future 3 기간에 풍수량과 갈수량이 증가하는 것으로 전망되었다.

옵티컬 플로우 방법으로 계산된 초기 바람 추정치에 따른 대기운동벡터 알고리즘 개선 연구 (Improvements for Atmospheric Motion Vectors Algorithm Using First Guess by Optical Flow Method)

  • 오유림;박형민;김재환;김소명
    • 대한원격탐사학회지
    • /
    • 제36권5_1호
    • /
    • pp.763-774
    • /
    • 2020
  • 수치예보모델의 예측 바람장은 대기운동벡터 알고리즘의 표적 추적 과정에서 추적 정확도 향상이나 계산 시간 단축을 위해 초기 추정치로 사용된다. 대기운동벡터는 수치예보모델의 자료동화 시 활용가치가 높다고 알려졌으나, 초기 추정치로 사용된 수치예보모델 바람장이 대기운동벡터의 검증 과정에 참 값으로 사용된다는 모순이 있다. 이를 해결하기 위해서는 수치예보모델로부터 독립적인 초기 추정치가 필요하다. 본 연구에서는 Lucas and Kanade 옵티컬 플로우 방법을 적용하여 바람장을 도출한 후 이를 초기 추정치로 사용함으로써 표적 추적과정에서의 모델 의존성을 제거하고 계산 속도를 향상시키고자 하였다. 대기운동벡터 산출에는 2015년 8월 18일 ~ 9월 5일 00, 06, 12, 18시 동안의 정지궤도 위성 Himawari-8/AHI의 14번 채널 Level 1B 자료를 사용하였다. 옵티컬 플로우 방법이 대기운동벡터 산출에 미치는 영향을 평가하기 위하여 다음과 같은 세가지 방법으로 교차 검증을 수행 하였다. (1) 초기 추정치 없이, (2) KMA/UM 예보바람장을 초기 추정치로 사용하여, 그리고 (3) 옵티컬 플로우 방법으로 계산된 바람장을 초기 추정치로 사용하여 대기운동벡터를 산출하고 ECMWF ERA-Interim 재분석장과 비교 검증한 결과, 옵티컬 플로우 기반 바람장을 초기 추정치로 사용한 경우에 가장 높은 정밀도를 보였다(RMSVD: 5.296-5.804 ms-1). 계산 속도는 초기 추정치를 사용하지 않은 경우에 가장 느렸고, 나머지 테스트는 유사한 속도를 보였다. 그러므로 대기운동벡터 알고리즘의 표적 추적 과정에 옵티컬 플로우 방법을 적용하면, 모델 의존성 없는 고품질 바람벡터의 산출이 가능할 것으로 사료된다.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.