대학입시 수능시험을 평가 도구로 적용한 ChatGPT의 학업 능력 분석

Analysis of the scholastic capability of ChatGPT utilizing the Korean College Scholastic Ability Test

  • 문혜림 (연세대학교 아동가족학과) ;
  • 김진혁 (연세대학교 IT 융합공학과) ;
  • 한경희 (연세대학교 공학교육혁신센터) ;
  • 김시호 (연세대학교 IT 융합공학과)
  • WEN HUILIN ;
  • Kim Jinhyuk ;
  • Han Kyonghee ;
  • Kim Shiho
  • 투고 : 2023.08.08
  • 심사 : 2023.08.30
  • 발행 : 2023.10.30

초록

ChatGPT는 2022년 하반기 상업적 서비스 시작 이후에 미국 변호사 자격시험과 의사 자격시험을 포함한 전문직 시험에서 성공적인 결과를 보였고, 전문직 영역에서 주관식 시험의 통과 능력을 입증하였으나, 교육 분야의 영역에서는 ChatGPT의 논리적 추론과 문제 풀이 등 학업 능력의 평가에 대해서도 새로운 실험과 분석이 필요하다. 본 연구에서는 한국 대학수학능력 시험 문제의 국어, 영어, 수학 세 주요 교과목을 활용하여 ChatGPT의 학업 능력을 평가하였다. 실험 결과에서는 ChatGPT는 영어 영역에서는 상대적으로 높은 69%의 정답률을 보이지만, 국어와 수학 영역에서는 각각 34%와 19%의 비교적 낮은 정답률을 기록하였다. 문장의 이해와 논리적 추론 능력에 관련된 수능 국어와 한국어 능력 시험 (TOPIK II) 및 수능 영어 시험의 결과 분석을 통하여, ChatGPT의 학업능력과 취약점의 원인을 분석하였다. ChatGPT는 대화형 언어 모델로 개발되었기 때문에 일반적인 국어, 영어, 수학 문제를 이해하고 응답하는 능력은 있지만, 난도가 높은 논리적 추론 능력과 수학 문제 풀이 능력에서는 매우 취약한 것으로 판단되었다. 본 연구는 생성형 인공지능의 성능 평가를 위한 간편하면서도 정확도가 높으며 효과적인 평가 기준을 마련하는 데에 큰 도움이 될 것으로 기대한다.

ChatGPT, commercial launch in late 2022, has shown successful results in various professional exams, including US Bar Exam and the United States Medical Licensing Exam (USMLE), demonstrating its ability to pass qualifying exams in professional domains. However, further experimentation and analysis are required to assess ChatGPT's scholastic capability, such as logical inference and problem-solving skills. This study evaluated ChatGPT's scholastic performance utilizing the Korean College Scholastic Ability Test (KCSAT) subjects, including Korean, English, and Mathematics. The experimental results revealed that ChatGPT achieved a relatively high accuracy rate of 69% in the English exam but relatively lower rates of 34% and 19% in the Korean Language and Mathematics domains, respectively. Through analyzing the results of the Korean language exam, English exams, and TOPIK II, we evaluated ChatGPT's strengths and weaknesses in comprehension and logical inference abilities. Although ChatGPT, as a generative language model, can understand and respond to general Korean, English, and Mathematics problems, it is considered weak in tasks involving higher-level logical inference and complex mathematical problem-solving. This study might provide simple yet accurate and effective evaluation criteria for generative artificial intelligence performance assessment through the analysis of KCSAT scores.

키워드

과제정보

본 연구는 연세대학교 교내 연구비에 의하여 지원되었습니다.

참고문헌

  1. Gozalo-Brizuela, Roberto, and Eduardo C. Garrido-Merchan. "ChatGPT is not all you need. A State of the Art Review of large Generative AI models." arXiv preprint arXiv:2301.04655 (2023).
  2. Lund, Brady D., and Ting Wang. "Chatting about ChatGPT: how may AI and GPT impact academia and libraries?." Library Hi Tech News 40, no. 3 (2023): 26-29.
  3. Choi, Jonathan H., Kristin E. Hickman, Amy Monahan, and Daniel Schwarcz. "Chatgpt goes to law school." Available at SSRN (2023).
  4. Kung, Tiffany H., Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepano, Maria Madriaga et al. "Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models." PLoS digital health 2, no. 2 (2023): e0000198.
  5. Mbakwe, Amarachi B., Ismini Lourentzou, Leo Anthony Celi, Oren J. Mechanic, and Alon Dagan. "ChatGPT passing USMLE shines a spotlight on the flaws of medical education." PLOS Digital Health 2, no. 2 (2023): e0000205.
  6. Terwiesch, Christian. "Would chat GPT3 get a Wharton MBA." A Prediction Based on Its Performance in the Operations Management Course Philadelphia, PA: University of Pennsylvania (2023).
  7. Ryznar, Margaret. "Exams in the Time of ChatGPT." Washington and Lee Law Review Online 80, no. 5 (2023): 305.
  8. Rahman, M.M. and Watanobe, Y., 2023. ChatGPT for education and research: Opportunities, threats, and strategies. Applied Sciences, 13(9), p.5783.
  9. Qadir, Junaid, "Engineering education in the era of ChatGPT: Promise and pitfalls of generative AI for education." In 2023 IEEE Global Engineering Education Conference (EDUCON), pp. 1-9. IEEE, 2023.
  10. Korea Institute for Curriculum and Evaluation, dae-hag-su-hag-neung-lyeog-si-heom yeon-do-byeol chae-jeom-hyeon-hwang, web link: www.suneung.re.kr/sub/info.do?m=0404&s=suneung