초록
이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하고자 한다. 모의실험 기법은 피면 접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정한다. 다시 말해 심사자의 전문성이 커지면 개인의 참값 점수에 가까운 심사자의 점수가 관측되고, 심사자의 전문성이 작아지면 참값 점수 대신에 잡음 변수에 더 가까운 심사자의 점수가 관측된다. 여기에 심사자의 성향편의가 더해져 심사자의 최종 평가점수가 관측된다고 가정한다. 이 모의실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다. 그 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스 분포이면 전체면접에서는 z-점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다. 절사평균은 일반적으로 성능이 가장 낮게 나타났다.
In this study, we perform a simulation study to compare frequently used standardization methods for interview scores based on trimmed mean, rank mean, and z-score mean. In this simulation study we assume that interviewer's score is influenced by a weighted average of true interviewee's true score and independent noise whose weight is determined by the professionality of the interviewer. In other words, as interviewer's professionality increases, the observed score becomes closer to the true score and if interviewer's professionality decreases, the observed score becomes closer to the noise instead of the true score. By adding interviewer's tendency bias to the weighed average, final interviewee's score is assumed to be observed. In this simulation, the interviewers's cores for each method are computed and then the method is considered best whose rank correlation between the method's scores and the true scores is highest. Simulation results show that when the true score is from normal distributions, z-score mean is best in general and when the true score is from Laplace distributions, z-score mean is better than rank mean in full interview system, where all interviewers meet all interviewees, and rank mean is better than z-score mean in half split interview system, where the interviewers meet only half of the interviewees. Trimmed mean is worst in general.