DOI QR코드

DOI QR Code

신뢰도 연구에서 급내상관계수와 관련한 표본수 결정 방법 비교

A Comparison of Sample Size Requirements for Intraclass Correlation Coefficient(ICC)

  • 한수연 (연세대학교 의학통계학과) ;
  • 남정모 (연세대학교 의학통계학과) ;
  • 명성민 (중원대학교 의료정보학과) ;
  • 송기준 (연세대학교 의학통계학과)
  • Han, Soo-Yeon (Department of Biostatistics, Yonsei University College of Medicine) ;
  • Nam, Jung-Mo (Department of Biostatistics, Yonsei University College of Medicine) ;
  • Myoung, Sung-Min (Department of Medical Informatics, Jungwon University) ;
  • Song, Ki-Jun (Department of Biostatistics, Yonsei University College of Medicine)
  • 투고 : 20100100
  • 심사 : 20100300
  • 발행 : 2010.06.30

초록

신뢰도 연구는 한 명의 평가자가 연구 대상을 반복 측정하거나 여러 명의 평가자가 한 대상을 평가할 때 평가자 내, 평가자 간 일치도를 알아보는 연구로 임상 의학 분야에서 빈번하게 쓰이고 있다. 이 같은 신뢰도 연구에서 적절한 표본수, 평가자수 및 반복수를 결정하는 것은 비용과 시간 측면에서 보다 더 효율적인 연구를 할 수 있게 해주는 중요한 요인이다. 본 연구의 목적은 신뢰도 연구에서 측정치가 정량적일 때 쓰이는 신뢰도 계수인 급내상관계수(ICC)와 관련한 기존의 표본수 산출 방법들을 비교분석하여 적절한 표본수나 반복수를 결정할 때 그 지침을 제공하는데 있다. 기존 논문에서 제시한 Walter 등 (1998), Giraudeau와 Mary (2001), Saito 등 (2006) 그리고 Bonett (2002)의 방법들을 비교하였다. 임의효과 일원배치 모형일 때 같은 조건에서 가장 적은 양의 정보를 필요로 하는 방법을 찾는 목적으로 요인을 변화시켜 가면서 표본수, 반복수, 신뢰구간 폭을 비교한다. 비교해 본 결과, 가장 작은 수의 표본을 필요로 하는 방법은 Giraudeau의 방법, 가장 작은 수의 반복을 필요로 하는 방법은 Saito의 방법으로 나타났다. 가장 많은 수의 표본과 반복을 필요로 한 방법은 Bonett의 방법이었다. 정도는 Giraudeau의 방법이 가장 높았고 Walter, Saito, Bonett 순으로 정도가 떨어졌다.

In medical practice and research, the problem of assessing reliability between two or more quantitative measures is quite common. Intraclass correlation coefficient(ICC) is commonly used to scale of reliability. Some methods were developed to calculate the required number of subjects, raters or replicates in one-way or two-way random ANOVA models. This paper, studies and compares the performance of four methods such as Walter et al. (1998), Giraudeau and Mary (2001), Saito et al. (2006) and Bonett (2002). In order to compare the efficiency of methods we compare the number of subjects, replicates and the width of confidence interval of ICC needed for some specific ICC values. In the case of subject size, Giraudeau's method is the best. In case of the number of replicates, Saito's method was superior to others. The width of confidence interval of ICC was narrower for Giraudeau's method than any others.

키워드

참고문헌

  1. Bonett, D. G. (2002). Sample size requirements for estimating intraclass correlations with desired precision, Statistics in Medicine, 21, 1331-1335. https://doi.org/10.1002/sim.1108
  2. Donner, A. and Eliasziw, M. (1987). Sample size requirements for reliability studies, Statistics in Medicine, 6, 441-448. https://doi.org/10.1002/sim.4780060404
  3. Donner, A. and Koval, J. J. (1983). A note on the accuracy of Fisher's approximation to the large sample variance of an intraclass correlation, Communications in Statistics-Computation and Simulation, 12, 443-449. https://doi.org/10.1080/03610918308812330
  4. Fisher, R. A. (1954). Statistical Methods for Research Workers, 12th ed. Hafner, New York.
  5. Giraudeau, B. and Mary, J. Y. (2001). Planning a reproducibility study, how many subjects and how many replicates per subject for an expected width of the 95 per cent confidence interval of the intraclass correlation coeffcient, Statistics in Medicine, 20, 3205-3214. https://doi.org/10.1002/sim.935
  6. Johnson, N. L. and Kotz, S. (1970). Distributions in Statistics, Continuous Univariate Distrubution 2, John Wiley & Sons, Inc.
  7. Landis, J. R. and Koch, G. G. (1977). The measurement of observer agreement for categorical data, Biometrics, 33, 159-174. https://doi.org/10.2307/2529310
  8. Saito, Y., Sozu, T., Hamada, C. and Yoshimura, I. (2006). Effective number of subjects and number of raters for inter-rater reliability studies, Statistics in Medicine, 25, 1547-1560. https://doi.org/10.1002/sim.2294
  9. Shrout, P. E. and Fleiss, J. L. (1979). Intraclass Correlation, uses in assessing rater reliability, Psychological Bulletin, 86, 420-428. https://doi.org/10.1037/0033-2909.86.2.420
  10. Rosner, B. (2005). Fundamentals of Biostatistics, 6th ed. Thomson Brooks/Cole.
  11. Walter, S. D., Eliasziw, M. and Donner, A. (1998). Sample size and optimal designs for reliability studies, Statistics in Medicine, 17, 101-110. https://doi.org/10.1002/(SICI)1097-0258(19980115)17:1<101::AID-SIM727>3.0.CO;2-E
  12. White, S. A. and Broek, N. R. (2004). Methods for assessing reliability and validity for a measurement tool, a case study and critique using the WHO Haemoglobin Colour Scale, Statistics in Medicine, 23, 1603-1619. https://doi.org/10.1002/sim.1804