• 제목/요약/키워드: multivariate normal distribution

검색결과 103건 처리시간 0.021초

조건부 상호정보를 이용한 분류분석에서의 변수선택 (Efficient variable selection method using conditional mutual information)

  • 안치경;김동욱
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1079-1094
    • /
    • 2014
  • 상호정보 (mutual information)를 이용한 변수 선택법은 반응변수와 설명변수간의 선형적인 연관성뿐만 아니라 비선형적인 연관성을 감지하며, 설명변수 사이의 연관성도 고려하는 좋은 변수선택 방법이다. 하지만 고차원 자료에서 상호정보를 추정하기가 쉽지 않아 이에 대한 연구가 필요하다. Cai 등 (2009)은 조건부 상호정보를 이용한 전진선택법과 가지치기법을 이용하여 이러한 문제를 해결하였으며, 마이크로어레이 자료와 같은 고차원 자료에서 조건부 상호정보를 이용한 변수 선택법으로 선택된 변수들로 구성된 SVM의 분류 성능이 SVM-RFE 및 기존의 필터링 방법으로 선택된 변수들로 구성된 SVM의 분류 성능보다 뛰어남을 보였다. 하지만 조건부 상호정보를 추정할 때 사용된 Parzen window 방법은 변수의 수가 많아질수록 변수 선택 시간이 길어지는 단점으로 인해 이에 대한 보완이 필요하다. 본 논문에서는 조건부 상호정보 계산 시 필요한 설명변수의 분포를 다변량 정규분포로 가정함으로써 변수선택을 위한 계산시간을 단축시키며 동시에 변수선택의 성능을 향상시키고자 한다. 반면, 설명변수의 분포를 다변량 정규분포로 가정한다는 것은 강한 제약이 될 수 있으므로 이를 완화시킨 Edgeworth 근사를 이용한 조건부 상호정보 기반의 변수 선택법을 제안한다. 실증분석을 통해 본 논문에서 제안한 방법의 효율성을 살펴보았으며, 기존의 조건부 상호정보 기반 변수 선택법에 비해 계산 속도나 분류 성능 면에서 우수함을 보였다.

표본조사에서 크론바흐알파값을 사용한 신뢰성 (Reliability using Cronbach alpha in sample survey)

  • 박현아
    • 응용통계연구
    • /
    • 제34권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 사회조사에서 추상적 개념은 타당성과 신뢰성이 보장된 측정도구를 사용하여야 한다. 그와 같은 측정도구에 의해 도출된 관측점수는 타당한 관측점수와 편향된 관측점수와 오차로 나눌 수 있으며 편향된 값의 유무가 타당성과 연관되어 있으며 오차값의 유무가 신뢰성과 연관되어 있다. 측정도구가 타당도 및 신뢰도를 만족하는 지를 보기 위한 기법들이 많이 존재한다. 예를 들면 요인분석을 통한 구성타당도, 크론바흐 알파 값에 의한 내적일치도 등을 들 수 있다. 본 연구에서 크론바흐알파값의 계산은 표본을 통해서 도출되는 데 복잡한 표본설계와 무응답이 발생했을 때 크론바흐알파값의 추정법에 대해 살펴본다. 제안된 기법에 대한 모의실험으로 다변량정규분포를 사용하여 기존의 여러 다른 크론바흐알파값의 추정기법과 비교분석한다.

북동태평양 적도 Thermocline Ridge 해역에서 영양염(질소, 인, 규소)과 유기탄소(용존 및 입자)의 분포 특성 및 연간 변화 (Distribution and Inter-annual Variation of Nutrients (N, P, Si) and Organic Carbon (DOC, POC) in the Equatorial Thermocline Ridge, Northeast Pacific)

  • 손주원;김경홍;김미진;손승규;지상범
    • Ocean and Polar Research
    • /
    • 제33권1호
    • /
    • pp.55-68
    • /
    • 2011
  • The distribution and inter-annual variation of nutrients (N, P, Si) and dissolved/particulate organic carbon were investigated in the equatorial thermocline ridge ($7^{\circ}{\sim}11.5^{\circ}N$, $131.5^{\circ}W$) of the northeast Pacific. From the Oceanic Nino Index and Multivariate ENSO Index provided by NOAA, normal condition was observed in July 2003 and August 2005 on the aspect of global climate/ocean change. However, La Ni$\~{n}$a and El Ni$\~{n}$o episodes occurred in July 2007 and August 2009, respectively. Thermocline ridge in the study area was located at $9^{\circ}N$ in July 2003, $8^{\circ}N$ in August 2005, $10^{\circ}N$ in July 2007, and $10.5^{\circ}N$ in August 2009 under the influence of global climate/ocean change and surface current system (North Equatorial Counter Current and North Equatorial Current) of the northeast Pacific. Maximum depth integrated values (DIV) of nutrients in the upper layer (0~100 m depth range) were shown in July 2007 (mean 21.12 gN/$m^2$, 4.27 gP/$m^2$, 33.72 gSi/$m^2$) and higher variability of DIV in the equatorial thermocline ridge was observed at $10^{\circ}N$ during the study periods. Also, maximum concentration of dissolved organic carbon (DOC) in the upper 50 m depth layer was observed in July 2007 (mean $107.48{\pm}14.58\;{\mu}M$), and particulate organic carbon (POC, mean $9.42{\pm}3.02\;{\mu}M$) was similar to that of DOC. Nutrient concentration in the surface layer increased with effect of upwelling phenomenon in the equatorial thermocline ridge and La Ni$\~{n}$a episode, which had formed in the central Pacific. This process also resulted in the increasing of organic carbon concentration (DOC and POC) in the surface layer. From these results, it is suggested that spatial and temporal variation of chemical and biological factors were generated by physical processes in the equatorial thermocline ridge.

기능성 소화불량증 환자의 심리특성에 관한 연구 (An Investigation of Psychological Factors in Patients with Functional Dyspepsia)

  • 김진성;배대석;이광헌;서정일
    • Journal of Yeungnam Medical Science
    • /
    • 제16권2호
    • /
    • pp.244-254
    • /
    • 1999
  • 1998년 1월 1일부터 12월 31일까지 영남대학교와 동국대학교 의과대학 부속병원을 내원한 기능성 소화불량증 환자 90명의 심리적 특성을 알아보기 위하여, 정신과 외래 환자 64명을 대조군으로 하여 다면적 인성검사와 질병행동 설문지 조사를 실시하였으며, 그 결과는 다음과 같다. 다면적 인성검사를 통한 비교에서, 기능성 소화불량증 환자군과 정신과 외래환자군 사이에 유의한 차이가 없이 유사한 성적분포를 보였다. 양군에서 건강염려증, 우울증, 히스테리 척도에서 상대적으로 높은 점수를 보였다. 질병행동 설문지를 통한 비교에서 기능성 소화불량증 환자군이 정신과 외래환자군보다 질병집착심과 정서적 혼란 소척도에서 성적이 낮게 나왔으며, 다른 소척도들은 비슷한 성적분포를 보였다. 다면적 인성검사 성적을 이용하여 기능성 소화불량증 환자를 중다변인 군집분석한 결과, 정신과 외래의 신경증환자와 같은 집단<집단 1>, 정상인과 같은 집단<집단 2>, 신경증적 경향이 심한 집단<집단 3>으로 나눌 수 있었다. 분류된 집단들 간의 다면적 인성검사 성적 비교에서, 신경증적 경향이 심한 집단<집단 3>은, 건강염려증, 우울증, 히스테리, 강박증, 정신분열증 등의 소척도 점수가 높게 나왔다(P<.05). 신경증적인 경향이 심한 집단<집단 3>의 질병행동 설문지 결과를 보면 다른 집단들과 정서적 억압척도를 제외한 모든 척도 즉, 건강염려증, 질병집착심, 심리적 대 신체적 관심, 정서적 혼란, 부정, 자극과민성 등의 척도에서 유의하게 차이가 있는 것으로 나타났다(P<.05). <집단 3>처럼 심한 신경증적인 질병행동을 보이는 군은 정신의학적 접근이 도움을 줄 수 있는 집단이다.

  • PDF

데이터 구조에 강건한 K 관리도의 관리 모수 결정 (Robust determination of control parameters in K chart with respect to data structures)

  • 박잉근;이성임
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1353-1366
    • /
    • 2015
  • 공정의 안정성을 평가하기 위해 사용되는 Shewhart 관리도 기법은 최근 다양한 분야에서 널리 응용되고 있지만, 품질 특성치에 대한 엄격한 확률분포를 가정한다. 하지만 현업에서 수집되고 있는 데이터의 확률분포는 알려진 경우가 많지 않으며, 다변량 데이터로 확장될수록 확률분포를 결정하는데 더 큰 어려움이 따른다. 이러한 문제점을 해결하기 위해 다양한 비모수 관리도 기법이 연구되었는데, 최근 연구되고 있는 비모수 관리도 기법 중 하나인 RBF (Radial Basis Function) 커널 기반의 SVDD (Support Vector Data Description) 관리도는 관리상태 하의 데이터 영역에 대한 경계를 결정함으로써 공정의 이상상태를 탐지하는 기법으로 K 관리도로 불리우며, 다양한 분야에서 적용되고 있다. 그런데 K 관리도를 적용하기 위해서는 관리도의 성능을 결정짓는 커널모수 등의 선택이 중요하며, 관리도를 작성하기 전에 미리 결정되어야 한다. 이를 위해 기존의 연구들은 격자 탐색법 등을 활용하여 모수를 결정하고 있지만, 선택 가능한 범위에 대한 반복적인 계산으로 최적값을 선택하고 있어 계산 비용이 커지고 또 시간 등의 문제로 실제 문제에 적용하기 어려운 점이 있다. 따라서 본 연구에서는 데이터의 구조에 따라 모의실험을 통해 선택 가능한 영역에서의 효율성을 비교 검토하고, 이를 바탕으로 쉽게 적용할 수 있는 새로운 모수 선택 방법을 제안하고자 한다. 이를 통해 데이터 구조에 대해 강건함을 보이는 모수의 선택과 K 관리도의 구성을 논의하고 실제 자료에 적용해 보았다.

내연산 망개나무 임분의 군집구조와 생태적 특성 (Community Structure and Ecological Characteristics of Berchemia berchemiaefolia Stands at Mt. Naeyon)

  • 홍용식;윤이슬;진동필;김찬범;김학구;이진우;강신구
    • 한국산림과학회지
    • /
    • 제111권4호
    • /
    • pp.538-547
    • /
    • 2022
  • 본 연구는 경상북도 내연산 소재 희귀식물인 망개나무림을 대상으로 개체군과 군집 구조를 정량화하고, 다변량통계기법을 활용하여 군집유형과 입지환경요인과의 상관관계를 분석하여 향후 망개나무 자생지의 보전 및 복원을 위한 기초자료를 제시하고자 하였다. 망개나무는 총 164개체가 출현하였으며, 평균흉고직경 24.5 cm의 정규분포형의 분포를 보였지만 하층식생인 수고 3 m 이하에 거의 출현하지 않았으며, 맹아발생 개체비율은 37.1%이었다. 망개나무 임분은 망개나무졸참나무군집(그룹 I)과 망개나무-서어나무군집(그룹 II)의 2개의 그룹으로 분류되었으며, 수관틈과 토양의 화학적 특성인 유기물함량(OM), 치환성 Ca 그리고 양이온치환능(CEC)이 임분들의 분포패턴에 영향을 주는 주요 입지조건이었다. 현재 내연산의 망개나무 임분들은 망개나무가 우점하고 있었으나 분포지의 입지조건에 따라 음수인 서어나무 또는 까치박달로의 미소천이가 일어나고 있었다.

국내 식물 형태 연구에 사용된 다변량분석 논문에 대한 재고 (A Review of Multivariate Analysis Studies Applied for Plant Morphology in Korea)

  • 장계선;오하나;김휘;이흥수;장진성
    • 한국산림과학회지
    • /
    • 제98권3호
    • /
    • pp.215-224
    • /
    • 2009
  • 최근 10여년간(1997-2008년) 국내 식물 형태관련 연구논문중 주요 3개 학회지(한국임학회지, 한국식물분류학회지, 한국육종학회지)와 기타학회지(한국자원식물학회지, 생명과학학회지, 약용작물학회지, 한국양봉학회지, 원예과학기술지, 원예학회지) 등에 발표된 다변량 분석 54개 논문을 재검토하였다. 이들 논문에서 주성분 분석(PCA), 유집분석(CA)이 가장 많이 사용되었는데 본 연구는 이와 관련된 분석방법과 기초 통계 분석의 문제점을 검토하였다. 주성분 분석의 문제점은 기존 표본에 추출과 자료의 정규분포성에 대한 가설을 무시하는 것으로서 분산과 공분산을 구할 수 없는 정성형질을 섞어 사용하여 주성분 분석의 결과를 왜곡하여 분석하는 것이었다. 또한, 유집분석은 분석방법론에 따라 상당한 차이를 보여 정량적 형질 보다는 정성적 형질로 계수화하여 분석함을 권장하지만 대부분 정량적 형질로 분석하여 실제 상호 분석 대상군 간의 관계가 형성되지 않는 계단상 모양을 보였다. 또한, 일부 연구논문에서는 통계적 가설을 무시하고 임의로 자료를 해석하는 것도 자주 발견되는 문제점 중 하나였다. 주성분분석에서 주의해야 할 점은 주로 정량적 형질 사용이 권장되며, 이외 일정 수 이상의 변량(20여개 이상)과 적절한 개체수(40-50개 이상)가 필요하다는 것이다. 유집분석(혹은 군집분석)은 분석 대상을 강제로 유집시키는 성향이 있어 통계적 검증 방법을 사용하지 않고 단순히 거리 계산법 혹은 알고리즘 분석 방법에 의해 결과에 상당한 차이를 보이기 때문에 정량적 형질만을 근간으로 한 유집분석은 자제할 필요가 있다. 모든 자료를 쉽게 분석하기 위해서 단순히 통계적 방법론에 의존하기 보다는 연구목적과 일치한 분석 방법론을 적용하고자 하는 노력이 필수적이다.

다변량 프로빗 모형을 이용한 가전제품 구매의 상관관계 분석 (Correlation among Ownership of Home Appliances Using Multivariate Probit Model)

  • 김창섭;신정우;이미숙;이종수
    • 마케팅과학연구
    • /
    • 제19권2호
    • /
    • pp.17-26
    • /
    • 2009
  • As the lifestyle of consumers changes and the need for various products increases, new products are being developed in the market. Each household owns various home appliances which are purchased through the choice of a decision maker. These appliances include not only large-sized products such as TV, refrigerator, and washing machine, but also small-sized products such as microwave oven and air cleaner. There exists latent correlation among possession of home appliances, even though they are purchased independently. The purpose of this research is to analyze the effect of demographic factors on the purchase and possession of each home appliances, and to derive some relationships among various appliances. To achieve this purpose, the present status on the possession of each home appliances are investigated through consumer survey data on the electric and energy product. And a multivariate probit(MVP) model is applied for the empirical analysis. From the estimation results, some appliances show a substitutive or complementary pattern as expected, while others which look apparently unrelated have correlation by co-incidence. This research has several advantages compared to previous literatures on home appliances. First, this research focuses on the various products which are purchased by each household, while previous researches such as Matsukawa and Ito(1998) and Yoon(2007) focus just on a particular product. Second, the methodology of this research can consider a choice process of each product and correlation among products simultaneously. Lastly, this research can analyze not only a substitutive or complementary relationship in the same category, but also the correlation among products in the different categories. As the data on the possession of home appliances in each household has a characteristic of multiple choice, not a single choice, a MVP model are used for the empirical analysis. A MVP model is derived from a random utility model, and has an advantage compared to a multinomial logit model in that correlation among error terms can be derive(Manchanda et al., 1999; Edwards and Allenby, 2003). It is assumed that the error term has a normal distribution with zero mean and variance-covariance matrix ${\Omega}$. Hence, the sign and value of correlation coefficients means the relationship between two alternatives(Manchanda et al., 1999). This research uses the data of 'TEMEP Household ICT/Energy Survey (THIES) 2008' which is conducted by Technology Management, Economics and Policy Program in Seoul National University. The empirical analysis of this research is accomplished in two steps. First, a MVP model with demographic variables is estimated to analyze the effect of the characteristics of household on the purchase of each home appliances. In this research, some variables such as education level, region, size of family, average income, type of house are considered. Second, a MVP model excluding demographic variables is estimated to analyze the correlation among each home appliances. According to the estimation results of variance-covariance matrix, each households tend to own some appliances such as washing machine-refrigerator-cleaner-microwave oven, and air conditioner-dish washer-washing machine and so on. On the other hand, several products such as analog braun tube TV-digital braun tube TV and desktop PC-portable PC show a substitutive pattern. Lastly, the correlation map of home appliances are derived using multi-dimensional scaling(MDS) method based on the result of variance-covariance matrix. This research can provide significant implications for the firm's marketing strategies such as bundling, pricing, display and so on. In addition, this research can provide significant information for the development of convergence products and related technologies. A convergence product can decrease its market uncertainty, if two products which consumers tend to purchase together are integrated into it. The results of this research are more meaningful because it is based on the possession status of each household through the survey data.

  • PDF

한우의 도체중, 배장근단면적 및 근내지방도의 유전모수 추정방법 (Methods for Genetic Parameter Estimations of Carcass Weight, Longissimus Muscle Area and Marbling Score in Korean Cattle)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 한우 종모우 선발을 위한 유전능력 평가에서 고려되는 형질들 중 이산형 형태로 조사되는 근내지방도의 유전변이가 추정방법에 따라 어느 정도 차이가 있는지 알아보기 위한 모의실험을 실시하였다. 모의실험 자료는 연속변량으로 간주되는 도체중 및 배장근단면적과 근내지방도의 잠재변수를 다변량 정규분포함수에서 생성하였고 근내지방도의 잠재변수를 이용하여 특정 임계값을 중심으로 순서화된 근내지방도 점수로 변화 하였따. 근내지방도의 점수 부여방법으로써 비거세우에서 조사된 근내지방도의 점수 1${\sim}$5점 사이에 정규분포에서 크게 어긋나는 분포특성을 갖도록 자료(DSI)를 생성하였고 또한 한우 거세우에서 현재 조사되고 있는 점수 1${\sim}$7점 사이에 정규 분포에 좀더 접근한 분포특성을 갖는 모의 자료(DS2)를 생성하였다. 분석방법간에 유전변이 추정의 정확도를 알아보기 위하여 1) 생성된 이들 자료를 선형으로 간주하고 다형질 혼합 선형 개체모형에서 REML 분석방법으로 유전변이를 추정하였고 2) 특정 임계치를 중심으로 잠재변수가 존재한다는 가정하에 다형질 임계 개체 혼합모형을 설정하여 Gibbs sampling 방법으로 유전변이를 추정하였다. 여기서 추정된 유전변이(유전력, 유전상관 및 잔차상관)에 대하여 모수와의 차이를 검정함으로써 편의되는 정도를 알아보았다. 모의실험은 각 자료에 대하여 10회 실시하였다. 분석결과, 근내지방도의 유전력 추정치는 DS1에서는 다형질 임계개체혼합모형을 설정하여 Gibbs sampling 방법으로 모수에 대한 사후분포의 평균으로 계산한 결과 참값과 유의적인 차이가 없는 것으로 분석되었다. 반면에 근내지방도를 선형으로 간주하고 다형질 선형 개체혼합모형에 의한 유전력 추정치는 모수보다 매우 낮은 유전력을 보였다(0.500 vs 0.315). 유전상관 추정치는 선형모형에서의 REML 방법 또는 임계모형에서의Gibbs sampling 방법에서 모두 모수와 유의적인 차이가 없는 것으로 분석되었으나 근내지방도의 잔차상관에 있어서 REML 방법으로 분석하였을 경우에 모수보다 낮게 추정되었다. 반면에 범주형 모형에서는 모수와 추정치 간에 유의적인 차이가 없는 것으로 분석되었다. 또한 7개의 범주형으로 조사된 자료(DS2)에서 이들 추정치는 DS1에서와 동일한 경향을 보였는데 그 편의 정도는 다소 적어지는 경향을 보였다. 따라서 이산형으로 조사되는 근내지방도에 대한 유전변이를 추정하기 위해서는 범주형 임계모형이 선형모형 보다 사소 정확한 추정을 할 수 있을 것으로 판단 되었다.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.