• 제목/요약/키워드: 조율 모수

검색결과 7건 처리시간 0.02초

MDPDE의 조율모수 선택에 관한 연구 (A study on tuning parameter selection for MDPDE)

  • 유동현;김병수
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권3호
    • /
    • pp.549-559
    • /
    • 2015
  • MDPDE는 이상치에 강건한 성질을 가진 추정량으로써 최대우도추정량의 대안으로 많은 연구자들에 의해 연구되어 왔다. MDPDE는 조율모수에 따라 성질이 변하게 되는데, 로버스트성과 점근효율성이 서로 상충하는 현상으로 인해 최적의 조율모수를 선택하는 것은 쉽지 않다. 본 연구에서는 MDPDE의 최적의 조율모수를 선택하는 방법으로 Fujisawa와 Eguchi (2006)가 제시한 방법과 Warwick (2006)이 제시한 방법을 소개하고, 모의실험을 통해 비교분석하였다. 연구 결과 Warwick (2006)의 방법은 특정한 경우 매우 작은 조율모수를 선택하게 될 수도 있다는 사실을 알 수 있었는데, 같은 경우에 Fujisawa와 Eguchi (2006)의 방법은 이러한 현상을 보이지 않았다. 따라서, Fujisawa와 Eguchi (2006)의 방법이 범용적으로 사용하기에 적절하다고 판단된다.

M-추정에 기반을 둔 로버스트 스펙트럴 추정량: 주택 가격 지수에 대한 응용 (Robust spectral estimator from M-estimation point of view: application to the Korean housing price index)

  • 박노진
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.463-470
    • /
    • 2016
  • 주파수 영역에서 시계열 자료를 분석함에 있어 스펙트럴 추정량은 매우 유용한 도구이다. 기존의 스펙트럴 추정량은 이상치에 영향을 받을 수밖에 없는 구조로 되어있어서 M-추정법을 활용하여 로버스트 스펙트럴 추정량이 제안되었다. M-추정을 위해서는 조율모수를 적절하게 선택해 주어야 하는데 Pak (2001)이 제안한 방법을 사용할 때의 효과를 연구하였다. 모의실험과 주택가격지수에의 적용을 통하여 효과가 있음을 확인하였다.

그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신 (Hierarchically penalized support vector machine for the classication of imbalanced data with grouped variables)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.961-975
    • /
    • 2016
  • H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다. 이러한 문제점들을 보완하기 위해 본 논문에서는 적응적 조율모수를 사용하여 변수선택의 성능을 개선하고 집단별 오분류 비용을 차등적으로 부여하는 WAH-SVM을 제안하였다. 또한, 모의실험과 실제자료 분석을 통하여 제안한 모형과 기존 방법론들의 성능 비교하였으며, 제안한 모형의 유용성과 활용 가능성 확인하였다.

거대 인용 자료를 이용한 문서 추천 방법 (Documents recommendation using large citation data)

  • 채민우;강민수;김용대
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.999-1011
    • /
    • 2013
  • 본 연구에서는 논문이나 특허 등의 문서들의 인용 정보를 활용하여 연관성이 높고 중요한 특허를 추천하는 방법을 제안한다. 문서 간의 연관성 지표인 공통피인용횟수와 중요도 지표인 HITS를 적절한 형태로 결합한 뉴먼 커널로부터 두 정보의 반영 정도를 조율하는 것이 핵심이다. 제안하는 방법은 미래의 인용에 대한 예측 오차를 최소화하는 것으로 이를 통해 뉴먼 커널의 조율모수 ${\gamma}$를 적절하게 선택할 수 있다. 또한, 거대 인용 자료를 분석하기 위해 필요한 계산 기술에 대해서 자세히 논의한다. 마지막으로, 미국 등록 특허 400만 건에 대한 실증적 자료 분석을 시행한다.

이상치를 감안한 확률강우분포의 매개변수 추정방법의 적용성 검토

  • 권유정;서용원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.319-319
    • /
    • 2018
  • 최근 전 세계적으로 극한수문사상의 증가로 인한 피해의 규모와 빈도가 잦아지고 있다. 기후변화에 관한 정부 간 협의체(IPCC)5차 보고서에 따르면 우리나라는 모든 시나리오 하에서 평균 강수량이 증가하는 지역으로 분류되었다. 특히 강우와 태풍피해가 잦은 7월에서 9월의 강우량이 급격히 증가하는 것으로 나타나며 이는 현재보다 극한수문사상이 더욱 빈번하게 일어날 것이라 예상할 수 있다. 하지만 기존의 매개변수 추정방법은 이상치 산정기준을 넘어서는 극치를 제외하고 확률강우량을 산정하고 있는 실정이다. 따라서 본 연구에서는 이러한 기존의 매개변수 추정방법 보다 극한값에 강건한 MDPDE(minimum density power divergence estimator)를 이용한 매개변수 추정을 사용하여 우리나라 60개 강우관측소의 과거 강우관측자료에 대한 최적조율모수에 대한 빈도별 확률강우량을 추정하여 기존의 방법으로 산정한 확률강우량과 비교하였다. 이상치로 분류할 수 있는 극한수문사상이 발생한 우리나라 31개소에 대하여 MDPDE의 적용성을 검토한 결과 기존의 매개변수 추정방법에 비해 이상치를 포함한 100년 빈도 확률강우량이 약13.3% 감소하는 것으로 나타났다.

  • PDF

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지 (Wafer bin map failure pattern recognition using hierarchical clustering)

  • 정주원;정윤서
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.407-419
    • /
    • 2022
  • 반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴탐지는 불량의 재현율이 96.31%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.