초록
이 연구는 관찰 추천 수학영재선발 시 사용되는 자기소개서와 교사추천서 평가에서 발생하는 오차요인들의 상대적인 영향력을 살펴보고, 교사추천서와 자기소개서를 총체적 채점과 분석적 채점으로 실시했을 때 채점 방법에 따른 일반화가능도계수의 최적화 측정 조건을 탐색하고, 이를 전통적인 신뢰도 추정방법과 비교하였다. 2011학년도 수도권에 소재하고 있는 대학부설 과학영재교육원에서 관찰-추천 영재 선발에 지원한 90명의 자기소개서와 교사추천서에 대해 총체적 채점과 분석적 채점으로 2명의 교사가 각각 점수를 부여하였다. 연구결과는 다음과 같다. 첫째, 교사추천서와 자기소개서의 평가에 있어 채점방법에 따른 공통점은 피험자 관련 분산이 크게 나타났으며, 차이점은 총체적 채점이 분석적 채점보다 채점자의 영향이 더 큰 것으로 나타났다. 둘째, 적정수준의 일반화가능도계수를 얻기 위해서 채점자를 2명으로 고정하는 경우 교사추천서와 자기소개서에서 총체적 채점은 각각 내용영역이 5개, 10개 이상이 요구되어졌으며, 분석적 채점은 각각 내용영역을 4개로 고정한 경우 문항이 3개 이상, 내용영역을 6개로 고정한 경우 문항이 8개 이상이 요구되어졌다. 셋째, 교사추천서와 자기소개서 모두 채점 방법과 상관없이 문항만을 오차요인으로 보는 Cronbach ${\alpha}$가 신뢰도를 과대 추정하는 것으로 나타났다. 따라서 적정수준의 신뢰도를 확보하기 위해서는 채점자, 내용영역, 문항수와 같이 다양한 오차요인을 반영하는 일반화가능도 계수를 고려하는 것이 바람직할 것이다.
The purpose of this study is: 1) to determine error sources and the effects of each error source, 2) to investigate optimal measuring conditions from holistic and analytic scoring methods, and 3) to compare the value of reliability between Cronbach's alpha and the generalizability coefficient in self-introduction letter and teacher's recommendation letter based on the generalizability theory in identification of mathematical gifted students by observations and nominations. Data of this study were collected from the science education institute for the gifted attached to the university located within in a capital city for the 2011 academic year. Scores form two raters using holistic and analytic scoring methods in both assessment types were used. The results of this study were as follows. First, as to both assessment types, error sources for people were relatively large regardless of scoring methods. However, error sources for raters in holistic scoring methods had a more significant impact than those of analytic scoring methods. Second, to set optimal measuring conditions in the self-introduction letter and teacher's recommendation letter, if we fixed the number of raters into 2 based on holistic scoring methods, at least 5 and 10 content domains were needed, respectively. In addition, the number of items in teacher's recommendation letter should be more than 3 when we fixed the number of content domains into 4, and the number of items in self-introduction letter should be more than 8 when we fixed the number of content domains into 6 using analytic scoring methods. Third, Cronbach's alpha having only a single source of errors was higher than the generalizability coefficient regardless of assessment types and scoring methods. Hence we recommend that generalizability coefficient based on various error sources such as raters, content domains, and items should be considered to keep a satisfactory level of reliability in both assessment types.