• 제목/요약/키워드: 공선성

검색결과 158건 처리시간 0.026초

특허기반의 기술수준평가 모형의 다중 공선성을 제거한 기술수준 평가모형 제안 (A Study on Technology Level Evaluation based on Patent without Multicollinearity)

  • 조일구;오종학
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.461-462
    • /
    • 2014
  • 기존 전문가 델파이 평가를 대체하는 특허기반 기술수준 평가모형들의 독립변수로 활용되는 특허활동도, 특허집중도, 특허시장력, 특허경쟁력 및 특허영향력의 다중공선성이 존재하여 이를 제거함으로써 보다 신뢰성이 높은 기술수준 평가모형을 실증하여 제안하고자 한다.

  • PDF

주성분회귀분석에서 주성분선정을 위한 새로운 방법 (Procedure for the Selection of Principal Components in Principal Components Regression)

  • 김부용;신명희
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.967-975
    • /
    • 2010
  • 데이터마이닝 분야에서의 회귀모형에는 연관성이 높은 설명변수들이 포함되어 다중공선성을 유발하는 경우가 많은데, 다중공선성이 야기하는 문제를 해결하기 위하여 주성분회귀분석을 적용할 수 있다. 이 분석에서는 적절한 주성분을 선정하는 과정이 핵심인데, 기존의 선정방법들은 다중공선성을 잘 해결하지 못하거나 모형의 적합성을 저하시킨다는 지적을 받고 있다. 따라서 본 논문에서는 다중공선성 문제와 적합성 저하 현상을 동시에 해결할 수 있는 새로운 선정방법을 제안하였다. 다중공선성에 의해 최소제곱추정량의 분산이 팽창되는 문제를 주성분회귀에 의해 해결할 수 있지만, 주성분의 일부를 선정함에 따라 발생하는 편의도 동시에 통제해야 한다. 따라서 주성분회귀추정량의 평균제곱오차를 최소가 되게 하는 상태지수를 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준 모형을 구축하였다. 선정기준의 상한과 하한을 설정하고, 상태지수가 상한을 초과하면 해당 주성분을 제외시키고, 하한에 미달하면 해당 주성분을 포함시킨다. 그리고 상한과 하한 사이의 상태지수에 대응하는 주성분들에 대해서는 일반화선형검정을 순차적으로 적용하여 주성분을 선정하는 방법이다.

주성분 회귀모형을 이용한 과학기술 지식생산함수 추정 (Estimation of S&T Knowledge Production Function Using Principal Component Regression Model)

  • 박수동;성웅현
    • 기술혁신학회지
    • /
    • 제13권2호
    • /
    • pp.231-251
    • /
    • 2010
  • 과학기술 R&D 활동의 대표적 성과인 SCI 논문과 특허의 생산에 영향을 미치는 요인은 연구비, 연구원수, 지식스톡(R&D스톡, 논문스톡, 특허스톡 등), 연구환경, 개방화 정도, 인적자본, GDP 등 다양하다. 일반적인 회귀모형을 이용하여 논문 또는 특허의 생산에 영향을 미치는 요인을 추정하면 생산요인들 간에 다중공선성 문제가 발생하여 추정의 오류가 발생한다. 본 논문에서는 과학기술 지식생산에 영향을 미치는 요인들 간의 다중공선성 문제를 해결하기 위해 주성분 회귀모형을 이용하였다. SCI 논문을 산출로 가정한 과학생산성과와 특허를 산출로 가정한 기술생산성과에 영향을 미치는 요인을 회귀모형과 주성분 회귀모형을 이용하여 3가지 사례를 대상으로 비교 분석하였다. 일반 회귀모형을 이용하여 SCI 논문과 특허의 생산에 영향을 미치는 요인들을 분석한 결과, 요인들간에 다중공선성이 매우 높게 나타났고, 그 결과 회귀계수와 추정과 검정에 오류가 발생되었다. 반면 주성분 회귀모형을 이용하여 분석한 결과 다중공선성문제가 해결되어, 개별 생산요인에 대한 효과를 적절하게 추정할 수 있었다. 본 논문에서 제안한 주성분 회귀모형을 이용한 과학기술 지식생산함수 추정방법은 다중공선성이 강한 소수의 생산요소를 포함한 회귀분석에서 유용하게 적용될 수 있을 것이다.

  • PDF

홍수 인자를 활용한 태화강 유역 홍수 취약성 평가 (Evaluation of Flood Vulnerability in Taehwa River Basin Using Flood Factors)

  • 김민국;설명수;박준수;이재영;이충대
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.390-390
    • /
    • 2020
  • 자연재해 중 홍수의 경우 단기간에 발생하며, 큰 인명 및 금전적 피해를 가져오는 재해이다. 1970년~2017년 국내 홍수 피해 분석결과 사상자(총 8,152명)는 점차 줄어드는 추세를 보이지만, 반대로 피해액(총 17조5,000억원)은 증가하는 것으로 나타났다(wamis, 국가수자원관리종합정보시스템). 이러한 국내 홍수 피해를 최소화하기 위해서는 각 유역 또는 지역별 특성을 고려한 홍수 취약성 평가가 필요하다. 홍수 취약성은 대상 지역의 기상, 지형, 인문학적 상황에 따라 상이하게 나타나며, 홍수 취약성을 평가하는 인자의 선정 또한 매우 중요하다. 따라서 본 연구에서는 홍수 피해 자료와 홍수 인자간의 인과관계를 분석하여 홍수 취약성 지표 선정 및 취약성 평가를 실시하였다. 홍수 취약성 평가를 위해 홍수 피해 자료와 대상 인자간의 상관성 분석을 통해 상관계수 값이 상대적으로 높게 나온 인자를 선정하였다. 대상 인자는 크게 기상학적 인자, 지형학적 인자, 사회·인문학적 인자로 구분하였다 선정된 인자 간 서로 높은 상관성을 보일 시 공선성이 존재함을 의미하며, 이러한 공선성을 방지하기 위해 VIF (Variance Inflation Factor, 분산팽창계수)를 통한 공선성 검토를 적용하였다. 또한 각 인자 간 에는 서로 다른 단위 및 범위를 가진다. 이러한 경우 특정 인자들의 증감을 취약성 평가에 반영하기에 어려움이 있으며, 유역별 평가 시 신뢰성이 낮아진다. 따라서 Re-scaling 방법을 통해 각 인자의 단위 및 범위를 표준화 후 동일가중치 법을 적용하였다. 본 연구에서는 전체 유역 중 홍수피해가 가장 크게 발생하는 낙동강 태화강 유역을 연구 대상 지역으로 선정하였다. 태화강은 도심지의 중심부를 흐르는 하천이며, 산지의 고도가 높은 지형적 특성을 가지고 있어 홍수에 대한 취약성이 높은 것으로 나타났다(wamis, 국가수자원관리종합정보시스템). 태화강 유역 홍수 취약성 평가결과 유역별 기상, 지형, 인문학적 특성에 따라 홍수 취약성이 높게 나타나는 결과를 보였다. 이와 같은 결과는 유역 내 도심지 비율, 인구밀도, 토지피복 특성에 의한 것으로 주로 지형학적 인자로 인해 취약성이 높게 나타났다. 본 연구에서 활용한 홍수 취약성 평가 방법은 향후 홍수피해 대책 수립에 사용될 수 있을 것으로 판단된다.

  • PDF

은행과 저축은행 관련 재정 지표 분석: 생물 정보학 분석 기법의 응용 (Analyzing Financial Data from Banks and Savings Banks: Application of Bioinformatical Methods)

  • 박노진
    • 응용통계연구
    • /
    • 제27권4호
    • /
    • pp.577-588
    • /
    • 2014
  • 자료의 수집과 저장이 수월해 지면서 대용량의 자료들이 존재하고 특히 개체 보다 변수가 더 많은 자료들이 생산되고 있다. 변수들이 증가하면서 다중공선성 같은 문제들이 발생하여 분석의 어려움에 봉착하게 된다. 이러한 문제를 해결하는 방법들이 많이 연구되었지만 다소간의 정보의 손실을 감내하고 연속형 자료를 범주형 자료로 변환하면 나름 유용한 분석이 가능하다고 본다. 대용량 범주형 자료의 대표적인 사례로 유전자 염기 서열 자료가 있고 이를 분석하기 위한 많은 기술들이 발달되어 있다. 본 논문에서는 국내 은행들이 생산해 낸 다양한 지표들을 분석하기 위해 유전자 염기 서열 분석 기법을 적용하여 분석하였고 나름 유용한 정보를 얻을 수 있음을 보였다. 본 논문에서 사용한 자료는 11개의 은행과 5개의 저축은행과 관련된 78개 재정 지표를 갖는 자료로서 심각한 다중 공선성이 존재하여 자료를 범주화하고 분석한 결과 몇 가지 유용한 결과를 도출하였다.

로짓모형에 있어서 다중공선성의 영향에 관한 연구 (Effects of Multicollinearity in Logit Model)

  • 류시균
    • 대한교통학회지
    • /
    • 제26권1호
    • /
    • pp.113-126
    • /
    • 2008
  • 비확률변수간 선형관계로 정의되는 다중공선성은 설명변수간 선형방정식으로 표현되는 회귀모형의 신뢰도를 저하시키기 때문에 회귀모형의 구축과정에서는 세심한 검토와 대응이 이루어진다. 본 연구에서는 구조화된 수치실험을 통해서 로짓모형에 대한 다중공선성의 영향을 규명하였다. 효용함수를 구성하는 설명변수들간 상관관계의 정도에 따라서 추정된 모형의 적합도 지표와 계수의 신뢰도 지표가 어떻게 변동하는 지를 추적함으로써 다음과 같은 시사점을 확인할 수 있었다. 첫째, 설명변수의 추가를 통해서 모델의 적합도 개선이 가능한 회귀모형과 달리, 로짓모형에서는 효용함수에 설명변수를 추가하는 경우 로짓모형의 적합도가 개선될 수도, 역으로 저하될 수도 있음이 확인되었다. 둘째, 공통의 계수를 갖도록 모델을 구성하면 제네릭 변수간 상관관계가 높아짐에 따라 모델의 적합도가 저하됨을 확인하였다. 셋째, 설명 변수간 상관관계가 높은 경우 선택행동에 대한 설명변수의 기여도가 과대평가될 가능성을 확인하였다. 넷째, 설명변수간 상관관계가 높으면 추정된 계수의 신뢰도가 저하됨을 확인하였다. 결론적으로 본 연구를 통해서 그동안 로짓모형의 구축과정에서는 주목받지 못했던 다중공선성이 실제로는 세심한 배려와 적절한 대응을 통해서 제어되어야 함이 규명되었다.

로지스틱모형에서의 주성분회귀 (Principal Components Regression in Logistic Model)

  • 김부용;강명욱
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.571-580
    • /
    • 2008
  • 로지스틱회귀분석은 고객관계관리나 신용위험관리 등의 분야에서 많이 사용되는 기법인데, 이러한 분야에서의 로지스틱회귀모형에는 연관성이 높은 설명변수들이 다수 포함되어 다중공선성의 문제를 유발하는 경우가 있다. 다중공선성이 존재하는 상황에서 최우추정량은 심각한 결함을 갖는다는 사실은 잘 알려졌다. 이 문제를 해결하기 위하여 로지스틱주성분회귀를 연구하되, 분석상의 주요 과정인 주성분 선정을 위한 방법을 새롭게 제안하였다. 추정량의 분산을 최소가 되게 하는 상태지수 값을 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준을 결정하는 모형을 구축하였다. 제안된 방법은 다중공선성 문제를 적절히 해결하면서도 모형의 적합성을 향상시킨다는 사실이 모의실험을 통하여 확인되었다.

급경사지 붕괴 예측을 위한 모형 개발 (Development of model for prediction of land sliding at steep slopes)

  • 박기병;주용성;박덕근
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.691-699
    • /
    • 2011
  • 현재까지 우리나라뿐만 아니라 세계적으로 급경사지 붕괴는 대표적인 자연재해로 알려져 있다. 급경사지 붕괴 피해를 방지하기 위해 행해진 많은 선행 연구를 바탕으로 일부 국내기관에서는 급경사지 평가표를 만들어 붕괴 예측에 활용하고 있다. 하지만, 대부분의 기존 연구는 비통계전문가들에 의해 행해졌기 때문에 평가표 구성의 통계적 타당성을 제시하지 못했다. 본 연구는 전국 지역을 대상으로 급경사지 (암반사면, 토사사면) 붕괴에 영향을 미칠 것으로 예상되는 인자들의 자료를 수집하고 그 인자들의 가중치를 판정하기 위하여 로지스틱 회귀분석 방법을 사용하였다. 선행연구들 중에 로지스틱 회귀분석을 이용한 기존의 연구들이 있었지만 다중공선성을 전혀 고려하지 않았기 때문에 결과가 신뢰할 만하지 못하다. 본 연구에서는 다중공선성을 제거된 급경사지 붕괴 예측모형을 제시하였다.

로버스트주성분회귀에서 최적의 주성분선정을 위한 기준 (A Criterion for the Selection of Principal Components in the Robust Principal Component Regression)

  • 김부용
    • Communications for Statistical Applications and Methods
    • /
    • 제18권6호
    • /
    • pp.761-770
    • /
    • 2011
  • 회귀모형에 연관성이 높은 설명변수들이 포함되면 다중공선성의 문제가 야기되며, 동시에 자료에 회귀 이상점들이 포함되면 최소자승추정량에 바탕을 둔 제반 통계적 추론은 심각한 결함을 갖게 된다. 이러한 현상들은 데이터마이닝 분야에서 많이 볼 수 있는데, 본 논문에서는 두 가지 문제를 동시에 해결하기 위한 방안으로서 로버스트주성분회귀를 제안하였다. 특히 최적의 주성분을 선정하기 위한 새로운 기준을 개발하였는데, 설명변수들의 표본공분산 대신에 MVE-추정량을 기반으로 하였으며, 고유치가 아니라 상태지수의 크기에 바탕을 둔 선정기준을 제안하였다. 그리고 주성분모형에서의 추정을 위하여 회귀이상점에 대해 로버스트한 LTS-추정을 도입하였다. 제안된 선정기준이 기존의 기준들보다 다중공선성과 이상점이 유발하는 문제들을 잘 해결할 수 있음을 모의실험을 통하여 확인하였다.