Abstract
The composite lognormal-GPD models (LN-GPD) enjoys both merits from log-normality for the body of distribution and GPD for the thick tailedness of the observation. However, in the estimation perspective, LN-GPD model performs poorly due to numerical instability. Therefore, a two-stage procedure, that estimates threshold first then estimates other parameters later, is a natural method to consider. This paper considers five nonparametric threshold estimation methods widely used in extreme value theory and compares their performance in LN-GPD parameter estimation. A simulation study reveals that simultaneous maximum likelihood estimation performs good in threshold estimation, but very poor in tail index estimation. However, the nonparametric method performs good in tail index estimation, but introduced bias in threshold estimation. Our method is illustrated to the service time of an Israel bank call center and shows that the LN-GPD model fits better than LN or GPD model alone.
LN-GPD 합성 분포는 몸통부분은 로그-정규분포를 두터운 꼬리에 대해서는 GPD분포를 따르도록 합성한 분포로 두터운 몸통과 꼬리를 동시에 가지는 자료를 절삭없이 효율적으로 다룰 수 있는 분포이다. 하지만 임계점을 포함하고 있기에 최대우도추정량은 매우 불안정함이 잘 알려져 있어 본 논문이서는 이를 극복하기 위해서 임계점을 먼저 추정하고 나머지 모수들에 대해서 따로 추정하는 2단계 추정 방법들에 대해서 살펴보고 그 성능을 비교해 보았다. 그 결과 동시 추정하는 최대우도추정량의 경우 불안정한 추정이 GPD 분포의 꼬리 지수에서 두드러 졌으며 임계점에 대해서는 비교적 잘 추정함을 알 수 있었다. 이와 반대로 여러 비모수적인 방법들은 꼬리 지수는 만족스럽게 잘 추정하였으나 임계점의 경우 편의가 있음을 관찰할 수 있었다. 실증자료 분석을 위해 2단계 추정법을 이스라엘 은행의 콜센터에서 수집한 서비스 시간에 대한 자료에 적합해 보았으며 그 결과 LN-GPD 합성 분포를 사용하는 것이 로그-정규분포 혹은 GPD 분포 단독으로 사용하는 것보다 자료의 손실도 없이 더 좋은 적합도를 보임을 알 수 있었다.