• 제목/요약/키워드: Generalizability

검색결과 117건 처리시간 0.023초

강의평가의 타당성과 신뢰성에 관한 연구 전주대학교 강의평가 결과를 중심으로 (A study on validity and reliability of students' evaluation)

  • 이기훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.87-98
    • /
    • 2010
  • 본 논문은 강의평가의 타당성과 신뢰성을 측정하는 방법을 소개하고 실제자료를 이용하여 타당성과 신뢰성을 평가하였다. 기존의 강의평가 관련논문이 강의평가에 미치는 외생적인 영향을 통제하는 데 주력한 데 반해, 교원의 신분에 직접적인 영향을 미칠 수 있는 중대한 강의평가가 과연 믿을 만한 평가인가에 관한 근원적인 질문에 답하려 하였다. 전주대학교의 강의평가 결과를 실증 분석한 결과 타당성과 신뢰성 면에서 어느 정도 만족할 만한 수준임을 확인할 수 있었다. 본 논문에서는 기존에 간편하게 사용되던 신뢰성 측도가 아닌 일반화가능도 계수를 이용하여 신뢰성을 평가하는 방법을 자세히 소개하고 그 장점을 설명하였다.

예비수학교사의 교직 적성·인성 검사에서 분할점수 변화에 따른 다양한 신뢰도 탐색 (Investigation of Various Reliability Indices of Pre-service Mathematics Teachers' Teaching Aptitude and Personality Test based on Setting Cut Scores)

  • 김성연
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제57권1호
    • /
    • pp.55-74
    • /
    • 2018
  • The purpose of this study is first to examine the relative influence of each error source and to investigate the optimal measurement conditions to ensure satisfactory multiple reliability coefficients based on the teaching aptitude and personality test for pre-service teachers. Participants were 33 students enrolled in mathematics education in a graduate school of education located in the Seoul metropolitan area from 2013 to 2017. The main results were as follows. First, the estimated variance due to residual was highest, followed by nesting of items within domains, graduate students, interactions of graduate students with domains, and domains. Second, total 96 items, with 12 domains containing 8 items in each domain, with cut score of 598, and original 210 items, with 14 domains containing 15 items in each domain, with cut scores of 615 or 716 were optimal measurement conditions to reach acceptable reliability levels based on the joint consideration of dependability coefficients, cut score dependability coefficients, adjusted dependability coefficients, and standard errors of measurement. Third, larger deviations between the arithmetic mean and the cut score indicated higher reliability coefficients of the test results. Finally, this study suggests ways for practitioners to consider how to apply generalizability theory for criterion-referenced tests and how to develop future research based on limitations.

태권도 품새 경기의 주관적 평가결과의 오차원 분석: 일반화가능도 이론 적용 (Analysis of error source in subjective evaluation results on Taekwondo Poomsae: Application of generalizability theory)

  • 조은형
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.395-407
    • /
    • 2016
  • 본 연구는 G-Theory를 적용하여 태권도 품새 평가항목에 대한 채점자 간 평가점수의 신뢰도를 추정하기 위해 G-연구로 경기일 수, 채점자 수를 다중오차원으로 선정하고 이들 변인간의 상호작용으로 인한 오차변량의 상대적 크기에 의해 오차원을 분석하고, G-연구의 결과를 토대로 D-연구를 수행하여 최적의 측정조건을 결정하는 데 목적이 있다. 결과를 요약하면 다음과 같다. G-Theory를 적용하여 태권도 품새 평가항목 중 정확성에 대해 분산성분 추정치를 추정한 결과, 오차의 영향력은 채점자국면에서 가장 크게 나타났으며, 각 설계에 따른 상호효과 (피험자 내), 피험자 간 순서였으며, 표현성 평가항목에 대한 분산성분 추정치 오차의 영향력은 상호효과 (피험자 내)국면에서 가장 크게 나타났으며, 각 설계에 따른 피험자 간, 채점자 국면 순으로 나타났다. 마지막으로 D-연구를 통하여 일반화가능도계수를 추정한 결과, 채점자 수에 따른 최적수준의 측정조건은 정확성 평가항목에서 8명의 채점자일 때 안정적인 신뢰도를 얻을 수 있으며, 표현성 평가항목에서는 7명의 채점자일 때 안정적인 신뢰도를 얻었다.

수학적 창의성 태도 검사에서 수학영재와 일반학생의 다집단 일반화가능도 분석 (Multigroup Generalizability Analysis of Creative Attitude Scale-Korea for Mathematically Gifted and General Students in Middle Schools)

  • 김성연
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제31권1호
    • /
    • pp.49-70
    • /
    • 2017
  • 본 연구의 목적은 측정학적 이론을 바탕으로 수학영재 집단과 일반학생 집단에서 수학적 창의성 태도 검사 점수에 영향을 미치는 오차 요인들의 상대적인 영향력과 적정 수준의 신뢰도에 도달하는 효율적인 측정 조건을 탐색하는 데 있다. 이를 위해 109명의 중등 수학영재와 125명의 일반 중학생을 대상으로 실시한 수학적 창의성 태도 검사 결과에 다변량 일반화가능도 분석을 수행하였다. 주요 분석 결과는 다음과 같다. 첫째, 수학적 창의성 태도 검사는 신뢰도를 기준으로는 일반학생 집단에서, 조건부 측정 오차를 기준으로는 수학영재 집단에서 좀 더 적합한 것으로 나타났지만, 두 집단에서 모두 시행할 수 있는 신뢰로운 측정도구인 것으로 나타났다. 둘째, 수학적 창의성 태도 검사에서 신뢰도를 높이기 위해서는 수학영재 집단의 경우 수렴적 태도를 높게. 반면에 일반학생 집단의 경우 발산적 태도와 문제해결 태도를 높게 반영하여야 하는 것으로 나타났다. 셋째, 수학영재 집단의 경우 발산적 태도, 문제해결 태도, 수렴적 태도의 다차원적인 요소를 반영하는 경우, 그리고 일반학생 집단의 경우 발산적 태도만으로도 적정 수준의 신뢰도에 도달하는 것으로 나타났다. 마지막으로 이러한 연구결과들을 바탕으로 수학적 창의성 태도 검사 활용 방안 및 향후 연구 방향을 제시하였다.

다변량일반화가능도 이론을 적용한 자동문항생성 기반 평가에서의 신뢰도 탐색 (Exploring the Reliability of an Assessment based on Automatic Item Generation Using the Multivariate Generalizability Theory)

  • 정진민;김성연
    • 과학교육연구지
    • /
    • 제47권2호
    • /
    • pp.211-224
    • /
    • 2023
  • 본 연구의 목적은 예시 자료를 활용하여 자동문항생성을 기반으로 생성된 평가도구의 신뢰도를 산출하는 방안을 제시하는 데 있다. 이를 위해 학생들마다 다른 문항에 응답하는 설계와 평가 점수에 다중 오차요인을 반영할 수 있는 다변량일반화가능도이론을 예시 자료에 적용하여 분석하였다. G-연구분석 결과, 대부분의 설계에서 잔차 효과 다음으로 고전검사이론의 진점수에 해당하는 학생 효과가 크게 나타났다. 또한 문항 내용 영역을 고정한 설계에서 학생들의 상대적 순위는 문항 유형이나 문항에 따라 변하지 않았으며, 문항 유형을 고정한 설계에서 내용 영역에 따라 난이도는 거의 변화가 없는 것으로 나타났다. D-연구 분석 결과, 원자료는 적정수준 이상의 신뢰도를 확보하였으며, 수와 연산, 기하, 확률 및 통계 영역의 문항 수를 줄이거나 문자와 식과 함수 영역의 가중치를 높게 반영함으로써 원자료보다 높은 신뢰도를 산출할 수 있는 것으로 나타났다. 본 연구에서 제시한 효율적인 측정 조건은 예시 평가 자료에 제한되지만 본 연구에서 활용한 방법은 자동문항생성 기반의 다양한 평가 상황에서 측정학적 특성을 바탕으로 신뢰도를 산출하고, 효율적인 측정 조건을 탐색하는 데 적용 가능하다.

키워드 분석에 대한 최신 접근법 비교 연구: 성경 코퍼스를 중심으로 (A Comparative Study of a New Approach to Keyword Analysis: Focusing on NBC)

  • 하명호
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.33-39
    • /
    • 2021
  • 본 연구는 구약 성경 코퍼스와 신약 성경 코퍼스, 그리고 구약과 신약 성경을 통합한 코퍼스에서 추출된 키워드 목록의 어휘적 특징을 분석하고, 또 사용빈도 기반의 키워드 분석보다 분포도 기반 키워드 분석이 더 우수한 분석 방식임을 밝히고자 하였다. 이를 위해 Bible Hub의 NLT 웹사이트에서 성경 파일을 다운받아 약 57만 어절의 구약 성경 코퍼스와 약 20만 어절의 신약 성경 코퍼스를 구축하였다. 목표 코퍼스와 참조 코퍼스의 비교를 통한 키워드 목록을 추출하기 위해서 Scott(2020)의 WordSmith 8.0 프로그램을 사용하였다. 그 결과, 분포도 기반 키워드 분석이 사용빈도 기반의 키워드 분석보다 키워드 목록의 어휘적 특징을 보다 더 잘 나타낼 수 있었고, 또 코퍼스 내용의 대표성과 변별성을 충분히 충족시킬 수 있는 최적의 키워드 목록을 추출하기 위해서는 분포도 기반 키워드 분석이 더 우수한 방식임을 밝혔다.

코로나-19 백신 수용의도에 관한 연구: 정서 중심적 대처와 문제 중심적 대처 관점을 중심으로 (Understanding COVID-19 Vaccine Acceptance Intention: An Emotion-focused and Problem-focused Coping Perspective)

  • 유준우;박희준
    • 품질경영학회지
    • /
    • 제51권4호
    • /
    • pp.643-662
    • /
    • 2023
  • Purpose: The purpose of this study was to understand an individuals' COVID-19 vaccine acceptance intention during the peak of the pandemic by utilizing the coping theory and technology threat avoidance theory (TTAT) as a framework. Specifically, we focused on understanding how inward and outward emotion-focused coping (EFC), such as psychological distancing and emotional support seeking, affect problem-focused behavior (PFC), which is vaccine acceptance. Furthermore, we investigate how the individuals' cognitive appraisal to- ward COVID-19, consisted of perceived threat and perceived avoidability act as an antecedent of EFC. Methods: A PLS-SEM analysis was conducted to find the causal relation between the variables. An online survey was conducted targeting vaccination recipients on April, 2021. Participants were asked about their perception toward the virus, their coping strategy, and vaccine acceptance intention. A total of 186 valid samples were collected and used for the analysis. Furthermore, to analyze the out-of-sample predictive power of the research model and ensure the generalizability of the results, a PLSpredict analysis was conducted. Results: The results of the PLS-SEM analysis show that perceived threat toward COVID-19 significantly affect an individuals' EFC strategy. Furthermore, both types of inward EFC (psychological distancing, wishful thinking) negatively affected vaccine acceptance intention. On the other hand, emotional support seeking, which is a type of outward EFC, positively affected vaccine acceptance. The result of the PLSpredict analysis confirms the generalizability of the PLS-SEM result. Conclusion: The results of our study could be utilized to decrease vaccine hesitancy and prevent global pandemics by accelerating and increasing vaccination. Our study provides several meaningful implications to researchers and practitioners regarding vaccine acceptance and threat coping behavior.

Key Principles of Clinical Validation, Device Approval, and Insurance Coverage Decisions of Artificial Intelligence

  • Seong Ho Park;Jaesoon Choi;Jeong-Sik Byeon
    • Korean Journal of Radiology
    • /
    • 제22권3호
    • /
    • pp.442-453
    • /
    • 2021
  • Artificial intelligence (AI) will likely affect various fields of medicine. This article aims to explain the fundamental principles of clinical validation, device approval, and insurance coverage decisions of AI algorithms for medical diagnosis and prediction. Discrimination accuracy of AI algorithms is often evaluated with the Dice similarity coefficient, sensitivity, specificity, and traditional or free-response receiver operating characteristic curves. Calibration accuracy should also be assessed, especially for algorithms that provide probabilities to users. As current AI algorithms have limited generalizability to real-world practice, clinical validation of AI should put it to proper external testing and assisting roles. External testing could adopt diagnostic case-control or diagnostic cohort designs. A diagnostic case-control study evaluates the technical validity/accuracy of AI while the latter tests the clinical validity/accuracy of AI in samples representing target patients in real-world clinical scenarios. Ultimate clinical validation of AI requires evaluations of its impact on patient outcomes, referred to as clinical utility, and for which randomized clinical trials are ideal. Device approval of AI is typically granted with proof of technical validity/accuracy and thus does not intend to directly indicate if AI is beneficial for patient care or if it improves patient outcomes. Neither can it categorically address the issue of limited generalizability of AI. After achieving device approval, it is up to medical professionals to determine if the approved AI algorithms are beneficial for real-world patient care. Insurance coverage decisions generally require a demonstration of clinical utility that the use of AI has improved patient outcomes.

교육 현장에서 시행된 임상 술기 시험의 다면적 타당도 분석 (Multifaceted validity analysis of clinical skills test in the educational field setting)

  • 채한;이민정;김명호;김규석;조은별
    • 대한한의학회지
    • /
    • 제45권1호
    • /
    • pp.1-16
    • /
    • 2024
  • Introduction: The importance of clinical skills training in traditional Korean medicine education is increasingly emphasized. Since the clinical skills tests are high-stakes tests that determine success in national licensing exams, it is essential to develop reliable multifaceted analysis methods for clinical skills tests in actual education settings. In this study, we applied the multifaceted validity evaluation methods to the evaluation results of the cardiopulmonary resuscitation module to confirm the applicability and effectiveness of the methods. Methods: In this study, we used internal consistency, factor analysis, generalizability theory G-study and D-study, ANOVA, Kendall's tau, descriptive statistics, and other statistical methods to analyze the multidimensional validity of a cardiopulmonary resuscitation test in clinical education settings over the past three years. Results: The factor analysis and internal consistency analysis showed that the evaluation rubric had an unstable structure and low concordance. The G-study showed that the error of the clinical skills assessment was large due to the evaluator and unexpected errors. The D-study showed that the variance error of the evaluator should be significantly reduced to validate the evaluation. The ANOVA and Kendall's tau confirmed that evaluator heterogeneity was a problem. Discussion and Conclusion: Clinical skills tests should be continuously evaluated and managed for validity in two steps of pre-production and actual implementation. This study has presented specific methods for analyzing the validity of clinical skills training and testing in actual education settings. This study would contribute to the foundation for competency-based evidence-based education in practical clinical training.

비원어민 한국어 말하기 숙련도 평가와 평가항목의 상관관계 (Correlation analysis of linguistic factors in non-native Korean speech and proficiency evaluation)

  • 양승희;정민화
    • 말소리와 음성과학
    • /
    • 제9권3호
    • /
    • pp.49-56
    • /
    • 2017
  • Much research attention has been directed to identify how native speakers perceive non-native speakers' oral proficiency. To investigate the generalizability of previous findings, this study examined segmental, phonological, accentual, and temporal correlates of native speakers' evaluation of L2 Korean proficiency produced by learners with various levels and nationalities. Our experiment results show that proficiency ratings by native speakers significantly correlate not only with rate of speech, but also with the segmental accuracies. The influence of segmental errors has the highest correlation with the proficiency of L2 Korean speech. We further verified this finding within substitution, deletion, insertion error rates. Although phonological accuracy was expected to be highly correlated with the proficiency score, it was the least influential measure. Another new finding in this study is that the role of pitch and accent has been underemphasized so far in the non-native Korean speech perception studies. This work will serve as the groundwork for the development of automatic assessment module in Korean CAPT system.