Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2024; 74: 504-514
Published online May 31, 2024 https://doi.org/10.3938/NPSM.74.504
Copyright © New Physics: Sae Mulli.
Taeho Min, Bongwoo Lee*
Department of Science Education, Dankook University, Yongin 16890, Korea
Correspondence to:*peak@dankook.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
The purpose of this study is to automatically score descriptive evaluation using GPT language model and to analyze the scoring results according to prompts, comparison with experts’ scoring, and the characteristics of feedbacks. For this purpose, responses of one descriptive item related to the principles of seeing the colors of objects were collected from 7th grade students’ 117 data. Automated scoring was performed using 12 different prompts and the results were analyzed. The main results are as follows. First, the GPT language model scored more leniently than the expert scorers, and there was a difference in the distribution of scores. Second, the Cohen’s kappa coefficient between the GPT language model and the expert scorers was .12 to .34, and the Pearson correlation coefficient was .41 to .67, so the agreement rate was not high, but the correlation was relatively high. Third, Feedback was accurate regarding general knowledge, but sometimes inaccurate feedback was generated regarding the application of knowledge to specific situations, and the content of the feedback tended to depend on the scoring criteria. Based on the research results, the possibility of automated scoring using artificial intelligence was discussed from an educational perspective.
Keywords: Artificial intelligence, GPT language model, Prompt engineering, Descriptive evaluation, Automated scoring
본 연구의 목적은 GPT 언어 모델을 사용해 서술형 평가 자동 채점을 시행하여 프롬프트에 따른 채점 결과, 전문가와의 차이 및 자동 피드백의 특징을 분석하는 것이다. 이를 위해 중학교 1학년 학생을 대상으로 물체의 색이 보이는 원리와 관련된 서술형 1개 문항의 응답을 수집하였으며, 무의미 응답을 제외한 117건의 데이터를 연구에 활용했다. 이후 12가지 유형의 프롬프트를 사용해 자동 채점을 수행하고 그 결과를 분석했다. 주요 연구 결과는 다음과 같다. 첫째, GPT 언어 모델은 전문가 채점자보다 관대하게 채점했으며 점수의 분포에 차이가 있었다. 둘째, GPT 언어 모델과 전문가 채점자 사이의 Cohen’s kappa 계수는 .12 – .34, Pearson 상관 계수는 .41 – .67 수준으로 일치율은 높지 않았으나 상관관계는 비교적 컸다. 셋째, 피드백에 있어선 일반적인 지식에 관한 내용은 정확했으나 특정 상황에 지식을 적용하는 것에 관해서는 부정확한 피드백을 제시하기도 했으며, 피드백의 내용은 채점 기준에 의존하는 경향이 있었다. 연구 결과를 바탕으로 인공지능을 이용한 자동 채점의 가능성을 교육적 관점에서 논의하였다.
Keywords: 인공 지능, GPT 언어 모델, 프롬프트 엔지니어링, 서술형 평가, 자동 채점
현대 교육의 주요 쟁점 중 하나는 학습 결손이나 기초학력 하락의 문제이다[1, 2]. 기초학력 부진 학생을 지원하는 방안 중 하나는 개인의 수준을 반영한 맞춤형 교육이며[3], 이러한 맥락에서 평가는 개별 학습자의 약점에 대한 상세한 정보를 도출해 맞춤형 교육을 지원하는 도구로써의 의미를 지닌다[4]. 과학교육에서도 학습자의 정확한 수준을 진단하기 위한 통계적 기법들이 연구되었다. 예를 들어 피험자의 응답 패턴을 고려해 능력에 대한 추정치를 제공하는 문항 반응 이론(item response theory)을 활용한 연구나[5], 지식 공간론(knowledge space theory)을 적용해 피험자 개개인의 지식 상태를 분석한 연구[6, 7], 인지 진단 모형(cognitive diagnostic model)에 따른 분석으로 각 피험자가 숙달한 인지 요소와 숙달하지 못한 인지 요소가 무엇인지를 도출하고자 한 연구[8, 9] 등이 이루어졌다.
평가 방법에 있어 서술형 평가를 사용할 경우 피험자의 응답으로부터 문제 해결의 구체적인 과정을 확인할 수 있어 개념 이해 수준에 대한 세부적인 정보를 제공받을 수 있다[10]. 그럼에도 학교 현장에서는 서술형 평가보다 선택형 문항을 활용한 평가가 주로 이루어지고 있는데, 그 이유 중 하나는 서술형 채점과 관련된 어려움이다. 노선숙 등[11]은 중등교사 120명을 대상으로 서술형 평가에 관한 인식을 조사하였는데, 학교 현장에서 서술형 평가를 실시하기 어려운 원인으로 과도한 업무와 학생 수로 인한 채점의 어려움, 타당한 채점 기준 확보의 어려움 등이 제시되었다. den Heuvel-Panhuizen et al.[12]의 연구에서는 서술형 평가를 활용하는 교사들도 피험자의 응답을 채점할 때 문제 해결 전략을 평가하지 않는 피상적인 채점에 머물고 있음을 확인했다. 이처럼 교사들이 서술형 평가의 필요성을 충분히 인지하고 있음에도 채점에 대한 부담으로 서술형 평가가 활발히 이루어지고 있지 않으며[13], 이러한 채점 부담은 피험자의 세부적인 인지 상태를 파악하고자 하는 서술형 평가의 본질적인 목표에 도달하지 못하는 상황을 초래한다.
이런 이유로 서술형 응답을 자동으로 채점하기 위한 방법이 논의되었다. 초기에는 주로 텍스트의 유사성을 판단하는 통계적 방법이 사용되었다. 응답의 대리 변수로부터 예측 방정식을 작성해 점수를 부여하는 PEG(Project Essay Grader)로부터 시작되어 IEA(Intelligent Essay Assessor), E-rater, Criterion 등 많은 자동 채점 모델이 개발 및 활용되었으며[14], 관련 연구도 통계적 방법의 정확도를 비교하는 방식으로 이루어졌다[15]. 인공지능이 서술형 자동 채점에 도입된 후 전문가의 채점 결과를 기계 학습(machine learning)으로 학습시킨 뒤 자동 채점을 수행한 연구나[16] 자연어 처리에 높은 성능을 발휘하는 순환신경망(recurrent neural network, RNN)으로 채점 결과를 학습시켜 자동 채점을 수행하는 연구 등이 시도되었다[10].
2022년 생성형 인공지능인 ChatGPT가 공개된 이후, GPT 언어 모델을 이용해 서술형 평가 응답을 자동 채점하기 위한 연구가 국내외에서 이어지고 있다. GPT 언어 모델은 현재까지 세계에서 가장 발전된 형태의 대형 언어 모델(Large Language Model)로 받아들여지고 있기 때문이다[17]. 예를 들어, Mizumoto & Eguchi[18]는 GPT-3.5 언어 모델의 하나인 text-davinci-003을 활용하여 TOEFL11에 포함된 12,100개의 에세이를 자동 채점했으며, 점수만 채점하도록 하는 것보다 어휘, 구문 복잡성 등 다양한 언어 기능을 채점하도록 했을 때 자동 채점 성능이 향상됨을 확인했다. 박소영 등[19]은 과학적 탐구와 관련된 서술형 응답을 자동 채점하기 위해 ChatGPT-4에 서술형 평가의 내용과 평가 기준을 제시하고 피험자의 응답을 채점하도록 하였다. 전문가 채점 결과와 자동 채점 결과를 비교했을 때, 탐구 실험 자체에 관한 서술형 문항에 대해서는 전문가와 ChatGPT가 유사하게 채점했으나 추가적인 자료나 사전 지식을 적절하게 활용했는지에 대한 평가에서는 유사도가 낮았으며, 피험자들이 탐구를 통해 무엇을 경험하고 배웠는지에 관한 문항에서는 ChatGPT가 채점 맥락을 전혀 이해하지 못했다. 김주인과 유훈[20]은 ChatGPT에 바늘구멍 사진기의 원리를 묻는 서술형 문항의 채점을 위한 고려 사항만을 제시하고 ChatGPT가 직접 채점 기준을 설정한 뒤 자동 채점하도록 하였는데, 일반적으로 알려진 바늘구멍 사진기 관련 지식에 대해서는 정확한 판단을 했으나 과학적 오개념이나 세부적인 물리학적 사고에 대해서는 채점 정확도가 떨어졌다.
이처럼 ChatGPT 등장 이후 이를 서술형 자동 채점에 활용하기 위한 연구가 이어지고 있으나, RNN 등의 인공지능을 사용하던 과거의 자동 채점 연구에 비해 채점 정확도가 떨어지며, 일부 영역에서 반복적인 채점 오류가 발생하는 등 아직은 여러 한계가 지적되고 있다. 그러나 이러한 한계에도 불구하고 GPT 언어 모델을 활용한 자동 채점은 다양한 영역의 서술형 평가에 대해 활용도가 높으며 실제 데이터로부터 학습하는 과정을 거칠 필요가 없다는 강점이 있으므로, GPT 언어 모델을 서술형 자동 채점에 적용하기 위한 연구가 이어질 필요가 있다. 특히 GPT와 같은 생성형 언어 모델은 사용자가 제공하는 지침, 즉 프롬프트(prompt)에 대한 응답으로 출력을 생성하므로, 서술형 자동 채점의 영역에서도 채점 정확도를 높이는 프롬프트 작성 방식에 관한 연구가 필요한 시점이다.
본 연구의 목적은, 물체의 색이 보이는 원리와 관련된 중학교 1학년 광학 서술형 문항의 응답에 대하여, GPT 언어 모델을 활용해 채점과 피드백 제공을 자동화하는 방안을 프롬프트 중심으로 탐색하는 것이다. 이를 위해 GPT 언어 모델에 제시하는 프롬프트에 따라 출력되는 채점 결과를 전문가 채점자의 채점 결과와 비교하고, 각 피험자의 응답에 대하여 GPT 언어 모델이 생성한 피드백의 특징을 분석했다. 본 연구의 연구 문제는 다음과 같다.
1. GPT 언어 모델을 사용한 서술형 평가 자동 채점에서 각 프롬프트에 의한 차이, 전문가와의 차이는 어떠한가?
2. GPT 언어 모델을 사용해 피험자 응답에 대한 피드백을 생성했을 때, 각 프롬프트가 생성한 피드백은 어떤 특징이 있는가?
본 연구에서는 학교 현장에서 수집된 서술형 평가 응답을 GPT 언어 모델로 자동 채점한 뒤, 그 결과를 전문가의 채점 결과와 비교해 프롬프트별 채점 정확도를 판단하고자 하였다. 본 연구의 평가 대상은 경기도 소재 중학교 1학년 학생 145명이다. 2023년 11월 30일 – 12월 6일에 성취 기준 [9과06-02] ‘물체의 색이 빛의 삼원색으로 합성됨을 관찰하고, 영상 장치에서 색이 표현되는 원리를 설명할 수 있다.’에 해당하는 내용의 수업이 이루어졌다. 이후 12월 7일 – 8일에 서술형 문항에 대한 학생들의 응답을 수집했다. 본 연구의 서술형 평가 문항은 학생평가지원포털(https://stas.moe.go.kr/)에서 제공하는 성취 기준 [9과06-02]&[9과06-03]의 서·논술형 평가 도구 중 서술형 1-1번 문항이다. 학생평가지원포털은 한국교육과정평가원에서 교육부와 각 시도교육청의 지원을 받아 개발, 운영하는 온라인 평가자료 제공 시스템으로[21], 학생평가지원포털에 탑재되는 자료는 많은 전문가와 교사들이 참여해 개발하기 때문에[22] 타당도와 신뢰도가 확보되었을 것으로 판단했다. 해당 문항은 레몬에 백색광을 비추었을 때 레몬이 노란색으로 보이는 이유를 묻는다. 문항에는 2가지의 〈서술 조건〉이 있는데, 첫 번째 조건은 레몬이 흡수하는 빛과 반사하는 빛이 각각 무엇인지 서술하는 것이고, 두 번째 조건은 레몬이 노란색으로 보이는 이유를 빛의 합성과 관련지어 서술하는 것이다. 서술형 평가는 과학 수업 시간을 이용해 약 15분간 수행되었고, 온라인 설문 형태로 제작되어 학교에서 제공하는 태블릿 PC를 활용해 검사에 참여하도록 했다.
본 연구에서는 GPT 언어 모델에 제시하는 프롬프트에 따라 생성된 채점 결과와 피드백을 비교하는 것이다. 선행 문헌을 고려할 때 언어 모델에 제공하는 프롬프트는 문항 내용, 채점 기준, 예제 등으로 구성됨을 알 수 있다. 문항 내용의 경우 에세이 자동 채점을 시도했던 연구들에서는 문항 내용을 프롬프트에 포함하지 않기도 하였으나[18, 23] 정답이 어느 정도 정형화되어 있는 서술형 평가의 자동 채점 연구에서는 모두 문항 내용을 제공했다[19, 20]. 채점 기준의 제공 방식에 있어서는 루브릭 형식의 채점 기준[18, 23], 체크리스트 형식의 채점 기준[19] 등이 사용되었으며, 김주인과 유훈[20]은 채점 기준을 작성하지 않고 언어 모델이 자체적으로 판단하도록 하였다. 예제에 있어선 채점을 위한 예제를 제공하는 프롬프트를 사용한 연구[23]와 예제를 제공하지 않는 프롬프트를 사용한 연구[18-20]가 수행되었다. 본 연구는 응답이 비교적 정형화된 과학 서술형 평가의 자동 채점을 시도하는 연구로 모든 프롬프트에서 문항 내용은 제공하되 채점 기준과 예제의 제공에 차이를 두어 비교했다. 또한 언어 모델의 출력 형식을 지정하면 출력이 안정적으로 제공된다는 선행연구가 있어[24] 출력의 구성 요소를 지정하는 것이 결과에 영향이 있는지도 확인하고자 하였다. 이를 종합하면 Table 1의 P1–P12와 같은 12가지 종류의 프롬프트를 작성할 수 있다.
Table 1 Configuration of prompts.
Prompts | Scoring criteria | Examples | Output components | Question contents |
---|---|---|---|---|
P1 | Not provided | 0 examples | Not specified | Provided |
P2 | Specified | |||
P3 | 4 examples | Not specified | ||
P4 | Specified | |||
P5 | Rubrics | 0 examples | Not specified | |
P6 | Specified | |||
P7 | 4 examples | Not specified | ||
P8 | Specified | |||
P9 | Checklists | 0 examples | Not specified | |
P10 | Specified | |||
P11 | 4 examples | Not specified | ||
P12 | Specified |
채점 기준 작성 과정은 다음과 같다. 선행연구[25]에 따르면 채점 기준은 문항의 모범 답안에 근거해 제작될 수 있으며, 학생평가지원포털은 본 연구에서 사용한 문항의 모범 답안을 제공한다. 채점 기준 작성을 위해 학생평가지원포털의 모범 답안을 분석하고, 루브릭과 체크리스트 형태의 채점 기준을 각각 개발했다. 루브릭 형태의 채점 기준은 다음의 (1), (2)와 같은 2가지의 평가 항목을 포함하며, 각각의 평가 항목은 2점 만점으로 구성되어 모든 평가 항목을 만족하면 4점이 된다.
(1) 레몬이 흡수하는 빛과 반사하는 빛 제시 (2점): 백색광을 이루는 빛의 삼원색에 대하여 레몬이 파란색 빛을 흡수하고 빨간색과 초록색 빛을 반사함을 모두 올바르게 제시하면 2점, 일부 오류가 있으면 1점, 모두 틀렸으면 0점을 부여한다.
(2) 레몬이 노란색으로 보이는 이유 설명 (2점): 레몬에서 반사된 빨간색과 초록색 빛의 합성으로 인해 레몬이 노란색으로 보임을 올바르게 설명하면 2점, 일부 오류가 있으면 1점, 모두 틀렸으면 0점을 부여한다.
체크리스트의 경우 총 4가지의 평가 항목을 포함하며, 각 평가 항목의 배점은 1점으로 4개의 평가 항목을 모두 만족하면 4점이 된다.
(1) 빛의 삼원색에 대하여 레몬이 흡수하는 빛은 파란색 빛임을 서술한다. (1점)
(2) 빛의 삼원색에 대하여 레몬이 반사하는 빛은 빨간색과 초록색 빛임을 서술한다. (1점)
(3) 빨간색과 초록색 빛을 합성하면 노란색 빛으로 보임을 서술한다. (1점)
(4) 레몬에 반사되어 나온 빛의 색을 통해 레몬의 색을 인식함을 설명한다. (1점)
예제를 제공하는 프롬프트의 경우 1–4점의 점수별로 총 4개의 예제를 제공했다. 예를 들어 3점에 해당하는 예제는 ‘레몬은 빨간색과 초록색 빛은 반사하고, 나머지 빛은 흡수한다. 이 두 빛의 합성으로 인해 레몬이 노란색으로 보인다.’로 레몬이 흡수하는 빛이 구체적으로 제시되지 않은 답안이었다. 출력 구성 요소는 선행 문헌에서 구체적으로 제시된 것은 아니지만, 본 연구의 목적에 비추어 ‘점수’, ‘만점이 아니라면 구체적으로 틀린 부분’, ‘향후 학습에 관한 피드백’ 등 3가지 요소로 지정했다.
예를 들어 채점 기준으로 체크리스트를 사용하고, 4개의 점수별 예제를 제공하며, 출력의 구성 요소를 지정한 P12 프롬프트는 아래와 같이 작성되었다.
“서술형 문항에 대한 응답을 채점해 주세요. 문항 내용은 다음과 같습니다: 레몬에 백색광을 비추었을 때 레몬이 노란색으로 보이는 이유를 〈서술 조건〉에 맞게 설명하세요.
〈서술 조건〉 백색광을 이루는 빛의 삼원색 중 레몬이 흡수하는 빛과 반사하는 빛이 각각 무엇인지 서술하고, 레몬이 노란색으로 보이는 이유를 빛의 합성과 관련지어 서술하세요.
〈채점 기준(총 4점)〉
(1) 빛의 삼원색에 대하여 레몬이 흡수하는 빛은 파란색 빛임을 서술한다. (1점)
(2) 빛의 삼원색에 대하여 레몬이 반사하는 빛은 빨간색과 초록색 빛임을 서술한다. (1점)
(3) 빨간색과 초록색 빛을 합성하면 노란색 빛으로 보임을 서술한다. (1점)
(4) 레몬에 반사되어 나온 빛의 색을 통해 레몬의 색을 인식함을 설명한다. (1점)
〈채점 예시〉
(1) 레몬은 파란색 빛은 흡수하고, 빨간색과 초록색 빛은 반사한다. 이 두 빛의 합성으로 인해 레몬이 노란색으로 보인다. (4점)
(2) 레몬은 빨간색과 초록색 빛은 반사하고, 나머지 빛은 흡수한다. 이 두 빛의 합성으로 인해 레몬이 노란색으로 보인다. (3점)
(3) 레몬은 파란색 빛은 흡수하고, 빨간색과 초록색 빛은 반사한다. (2점)
(4) 레몬은 빨간색과 초록색 빛은 흡수하고, 파란색 빛은 반사한다. 흡수한 빨간색과 초록색 빛의 합성으로 레몬이 노란색으로 보인다. (1점)
위 조건을 참고해 다음의 답안을 0점, 1점, 2점, 3점, 4점 중 하나의 점수로 채점하려고 합니다. 〈응답 형식〉에 맞게 점수를 제시하고, 중학교 1학년 수준으로 피드백을 제공해주세요.
〈응답 형식〉
1. 점수:
2. 만점이 아니라면, 구체적으로 틀린 부분:
3. 향후 학습에 관한 피드백:
답안 내용: (피험자 답안)”
피험자 응답에 대한 GPT 언어 모델의 채점 결과와 피드백을 수집하기 위해 python으로 openai 라이브러리를 설치하고 API 키를 불러와 분석에 사용했다. IDE는 Google colaboratory였다. 수집된 145건의 응답 중 문항과 무관한 내용을 작성한 28건의 응답을 제거하고 남은 117건의 응답을 csv 파일 형태로 저장해 업로드한 뒤 각 프롬프트에 따라 자동 채점을 진행했다. 채점에 사용된 모델은 가장 최근에 공개된 모델인 gpt-3.5-turbo였다. 또한 GPT 언어 모델의 다양성(temperature)이 낮을수록 과제 수행의 정확도가 높았다는 선행연구[26] 결과를 고려해, 모델이 가장 일관된 답변을 제공하는 조건인 다양성 0, Top P 1, 빈도 페널티와 존재 페널티 0의 값을 사용했다[27]. GPT 언어 모델로부터 수집된 데이터는 언어 모델이 생성한 채점 결과와 피드백이다.
서술형 자동 채점의 정확도는 일반적으로 전문가와의 채점 결과를 비교하여 평가된다[10, 16, 28]. 본 연구에서도 인간에 의한 채점 결과와 비교하여 프롬프트별 채점 정확도를 판단하고자 하였으며, 이를 위해 물리 교육을 전공한 전문가 3명이 채점에 참여했다. 무의미 응답을 제거한 117건의 응답에 대해 3명의 전문가가 독립적으로 채점을 수행했으며, 채점 기준으로 프롬프트 P9–P12에 포함된 체크리스트가 제공되었다. 체크리스트는 본 연구에서 사용한 채점 기준 중 가장 세분된 형태였다. 채점에 참여한 전문가는 물리 교육 전공 박사과정생 두 명과(H1, H2) 석사과정생 한 명(H3)이다.
채점을 위해 연구자가 각 전문가에게 문항 내용과 채점 기준을 한글 파일로 전달했고, 전문가들은 받은 내용을 참고해 각각의 피험자 응답이 체크리스트의 특정 평가 항목을 만족했으면 1, 만족하지 않았으면 0으로 이분 채점하여 엑셀 파일에 입력했다. 엑셀 파일의 각 행에는 피험자의 응답이 있고 각 열에는 4가지의 평가 항목이 있어 응답별로 체크리스트 형식의 채점이 이루어지게 하였다.
본 연구의 연구 문제를 해결하기 위해 세 단계의 분석을 수행했다. 첫 번째 단계에서는 GPT 언어 모델과 전문가의 전반적인 채점 결과를 비교했다. 비교한 값은 총점 평균과 점수의 분포다. 두 번째 단계는 GPT 언어 모델과 전문가의 채점 일치도 분석으로, 프롬프트 P1–P12와 전문가 H1–H3 사이의 Cohen's kappa 계수와 Pearson 상관 계수를 산출했다. Cohen's kappa 계수는 채점자 간 일치도를 -1 – 1의 값으로 나타내는 지표의 하나로, 우연에 의해 채점 결과가 일치하는 경우를 고려하기 때문에 서술형 자동 채점의 성능을 평가할 때 보편적으로 사용되는 방법이다[10, 16, 28]. Landis & Koch[29]에 따르면 Cohen's kappa 계수는 .00 미만에서 부족한(poor), .00 – .20은 약한(slight), .21 – .40일 때 괜찮은(fair), .41 – .60은 적당한(moderate), .61 – .80은 상당한(substantial), .81 – 1.0은 거의 완벽한(almost perfect) 수준이므로, 본 연구에서 사용한 GPT 언어 모델과 전문가의 채점이 어느 정도 수준의 일치도를 보이는지 판단할 수 있다. 다만 kappa 계수는 일치와 불일치의 비율만으로 일치도를 판단하는 방식이기 때문에 이분 채점이 아닌 상황에서는 불완전한 부분이 있다[19]. 예를 들어 세 피험자 A, B, C에 대해 GPT 언어 모델이 각각 1점, 2점, 3점을 부여하고, 전문가가 각각 2점, 3점, 4점을 부여했다면, 두 채점 결과는 하나도 일치하지 않으므로 kappa 계수는 낮게 산출되겠지만 실제로 두 채점 결과가 전혀 다른 경향을 나타낸다고 보기는 어렵다. 따라서 Pearson 상관 계수를 사용해 각 채점 결과의 상관관계도 확인했다. 이후 프롬프트에 포함된 요소에 따라 kappa 계수와 Pearson 상관 계수의 차이가 있는지 t 검정을 수행했다. kappa 계수와 Pearson 상관 계수 및 t 값 산출에 사용된 프로그램은 RStudio였다. 세 번째 단계로 GPT 언어 모델이 생성한 피드백의 내용을 정성적으로 분석해 프롬프트에 따른 피드백의 특징을 도출했다.
GPT 언어 모델과 전문가의 전반적인 채점 결과를 비교하기 위해, 프롬프트 P1–P12와 전문가 H1–H3의 총점 평균 및 점수 분포를 산출하여 Table 2와 Table 3에 각각 제시했다. GPT 언어 모델의 채점 결과를 보면 총점 평균이 가장 낮은 프롬프트는 채점 기준으로 루브릭이 제공되고 4개의 예시와 출력 형식 지정이 포함된 P8으로 1.55였으며, 총점 평균이 가장 높은 프롬프트는 체크리스트 형태의 채점 기준만 제공한 P9으로 2.74였다. GPT 언어 모델의 점수는 주로 0점, 2점, 4점에 분포했다. 전문가의 경우 H1의 총점 평균은 1.65, H2의 총점 평균은 1.35, H3의 총점 평균은 1.61이었다. 점수 분포를 보면 0점과 1점을 받은 피험자가 많았으며, 2점을 받은 피험자는 적었다. 총점 평균과 점수 분포를 비교할 때 전문가는 GPT 언어 모델보다 전반적으로 엄격하게 채점했음을 알 수 있다.
Table 2 Score mean and distribution of prompts P1–P12.
Prompts | Score mean | Number of subjects with ... | ||||
---|---|---|---|---|---|---|
Score 0 | Score 1 | Score 2 | Score 3 | Score 4 | ||
P1 | 1.85 | 22 | 17 | 48 | 16 | 14 |
P2 | 2.10 | 19 | 7 | 49 | 27 | 15 |
P3 | 1.58 | 44 | 4 | 41 | 13 | 15 |
P4 | 2.10 | 22 | 2 | 61 | 6 | 26 |
P5 | 2.20 | 27 | 10 | 32 | 9 | 39 |
P6 | 1.96 | 24 | 8 | 59 | 1 | 25 |
P7 | 2.06 | 33 | 11 | 28 | 6 | 39 |
P8 | 1.55 | 30 | 5 | 76 | 0 | 6 |
P9 | 2.74 | 26 | 4 | 11 | 10 | 66 |
P10 | 2.34 | 15 | 2 | 46 | 36 | 18 |
P11 | 2.20 | 35 | 4 | 23 | 13 | 42 |
P12 | 2.01 | 23 | 1 | 60 | 18 | 15 |
mean | 2.06 | 26.67 | 6.25 | 44.50 | 12.92 | 26.67 |
Table 3 Score mean and distribution of expert scorers H1–H3.
Scorer | Score mean | Number of subjects with ... | ||||
---|---|---|---|---|---|---|
Score 0 | Score 1 | Score 2 | Score 3 | Score 4 | ||
H1 | 1.65 | 37 | 33 | 8 | 12 | 27 |
H2 | 1.35 | 46 | 29 | 13 | 13 | 16 |
H3 | 1.61 | 33 | 36 | 8 | 24 | 16 |
mean | 1.54 | 38.67 | 32.67 | 9.67 | 16.33 | 19.67 |
채점 기준으로 체크리스트를 사용한 프롬프트는 만점자의 수가 많거나(P9, P11), 3점을 부여한 피험자의 수가 많은 등(P10) 프롬프트 P1–P8의 점수 분포와는 다른 분포를 보였다. 특히 만점자가 많은 프롬프트의 채점 결과를 세부적으로 확인했을 때 체크리스트의 내용을 피험자 답안으로 혼동해 채점한 사례가 발견되었다. 예를 들어 28번 피험자는 “빛으로 비쳤을 때 노란색으로 보여서”라는 답안을 작성했는데, P9 프롬프트는 해당 답안에 대해 아래와 같이 채점했다.\pagebreak
“답안 내용을 채점해보겠습니다.
(1) 빛의 삼원색에 대하여 레몬이 흡수하는 빛은 파란색 빛임을 서술한다. (1점) - 정답입니다. 파란색 빛은 레몬이 흡수하는 빛입니다.
(2) 빛의 삼원색에 대하여 레몬이 반사하는 빛은 빨간색과 초록색 빛임을 서술한다. (1점) - 정답입니다. 레몬은 빨간색과 초록색 빛을 반사합니다.
(3) 빨간색과 초록색 빛을 합성하면 노란색 빛으로 보임을 서술한다. (1점) - 정답입니다. 빨간색과 초록색 빛을 합성하면 노란색 빛이 됩니다.
(4) 레몬에 반사되어 나온 빛의 색을 통해 레몬의 색을 인식함을 설명한다. (1점) - 정답입니다. 우리는 레몬에 반사된 빛의 색을 통해 레몬의 색을 인식합니다.
총점은 4점입니다. (후략)”
본 연구에서 GPT 언어 모델은 프롬프트에서 28번 피험자가 작성한 답안이 아니라 채점 기준으로 제공된 체크리스트의 문장을 채점했음을 알 수 있다. 프롬프트 P9–P12는 가장 세분된 채점 기준이 제공된 프롬프트이고, 일부 답안에 대해서는 채점에 혼동이 발생한 사례까지 포함되어, P1–P8의 프롬프트와는 다른 점수 분포를 나타냈을 것으로 해석된다.
Table 4는 3명의 전문가 사이의 Cohen’s kappa 계수를 나타낸 것이고, Table 5는 프롬프트 P1–P12와 전문가 H1–H3의 채점 결과 사이의 kappa 계수를 나타낸 것이다. 전문가 간 Cohen’s kappa 계수는 .63 – .69의 값으로, Landis & Koch[29]의 분류에서 상당한(substantial) 수준이라고 할 수 있다. GPT 언어 모델과 전문가 사이의 kappa 계수는 .12 – .34의 값으로 약한(slight) 수준과 괜찮은(fair) 수준이었다. GPT 언어 모델과의 kappa 계수 평균이 가장 높은 전문가는 H1이었고, 전문가와의 kappa 계수 평균이 가장 높은 프롬프트는 루브릭을 채점 기준으로 사용하고 예제나 출력 구성 요소 지정은 없었던 P5 프롬프트였다.
Table 4 Cohen’s kappa between expert scorers H1–H3.
Experts | H1 | H2 | H3 |
---|---|---|---|
H1 | .67 | .69 | |
H2 | .67 | .63 | |
H3 | .69 | .63 | |
Mean | .68 | .65 | 66 |
Table 5 Cohen’s kappa between prompts P1–P12 and expert scorers H1–H3.
Prompts | H1 | H2 | H3 | Mean |
---|---|---|---|---|
P1 | .21 | .21 | .24 | .22 |
P2 | .18 | .13 | .19 | .17 |
P3 | .22 | .25 | .17 | .21 |
P4 | .28 | .24 | .22 | .25 |
P5 | .34 | .26 | .25 | .28 |
P6 | .17 | .15 | .14 | .15 |
P7 | .27 | .23 | .26 | .25 |
P8 | .16 | .17 | .13 | .15 |
P9 | .19 | .18 | .12 | .16 |
P10 | .17 | .12 | .16 | .15 |
P11 | .22 | .15 | .16 | .18 |
P12 | .20 | .18 | .17 | .18 |
Mean | .22 | .19 | .18 | .20 |
Table 6은 프롬프트 P1–P12와 전문가 H1–H3의 채점 결과 사이의 Pearson 상관 계수를 나타낸 것이다. 상관 계수는 .41 – .67 수준이었으며, 모든 상관 계수가 p < .001에서 유의했다. Table 2와 Table 3에서 확인한 바와 같이 GPT 언어 모델은 전문가보다 관대하게 채점하는 경향이 있어 kappa 계수는 높지 않았으나, 두 채점 결과 사이에는 유의한 선형 상관관계가 있음을 알 수 있다. 세 명의 전문가 중 GPT 언어 모델과의 상관 계수 평균이 가장 큰 전문가는 kappa 계수의 결과와 마찬가지로 H1이었으며, 12개의 프롬프트 중 전문가와의 상관 계수 평균이 가장 큰 프롬프트는 채점 기준 없이 예제가 제공되고 출력 구성 요소가 지정되었던 P4 프롬프트였다. 전문가와의 kappa 계수 평균이 가장 컸던 P5 프롬프트의 상관 계수는 .56으로 전체 평균에 미치지 못했다.
Table 6 Pearson correlation coefficient between prompts P1–P12 and expert scorers H1–H3.
Prompts | H1 | H2 | H3 | Mean |
---|---|---|---|---|
P1 | .61*** | .58*** | .57*** | .59 |
P2 | .63*** | .58*** | .60*** | .61 |
P3 | .62*** | .62*** | .63*** | .62 |
P4 | .67*** | .63*** | .65*** | .65 |
P5 | .57*** | .52*** | .59*** | .56 |
P6 | .59*** | .54*** | .58*** | .57 |
P7 | .60*** | .60*** | .60*** | .60 |
P8 | .53*** | .49*** | .53*** | .52 |
P9 | .42*** | .41*** | .44*** | .43 |
P10 | .63*** | .59*** | .61*** | .61 |
P11 | .52*** | .45*** | .51*** | .49 |
P12 | .62*** | .59*** | .61*** | .60 |
Mean | .58 | .55 | .58 | .57 |
*** p < .001
Figure 1은 Pearson 상관 계수 .67로 가장 높았던 전문가 H1과 프롬프트 P4의 점수 분포를 바이올린 플롯(violin plot)으로 시각화한 것이다. P4 프롬프트의 채점 결과 총점 평균은 2.10으로 총점 평균이 1.65였던 전문가 H1보다 관대하게 채점했으며, 점수 분포도 전문가와 달리 대부분 0점, 2점, 4점에 분포했다. 이러한 차이로 인해 프롬프트 P1과 전문가 H1의 채점이 일치한 개수는 전체 117건 중 46건으로 많지 않았으나, 바이올린 플롯을 보면 선형적 상관관계가 성립함을 알 수 있다. 즉 GPT 언어 모델과 전문가는 채점 특성의 차이가 있어 결과가 일치하는 비율이 상대적으로 작으나 유의한 선형적 관계는 성립한다.
Table 7은 채점 기준, 예제 제공 여부, 출력 형식 지정 여부에 따른 프롬프트별 전문가와의 kappa 계수 및 Pearson 상관 계수의 평균, 표준편차, t 값을 나타낸 것이다. 예를 들어 채점 기준이 제공되지 않은 프롬프트 P1–P4의 kappa 계수 평균은 .22, 표준편차는 .03이고, 채점 기준이 제공된 프롬프트 P5–P12의 kappa 계수 평균은 .16, 표준편차는 .05이다. 프롬프트 P1–P4와 P5–P12 사이의 t 값은 .90이다. 집단 간 평균의 차이가 유의한 경우는 두 가지로, 채점 기준으로 체크리스트를 제공한 프롬프트는 그 외의 프롬프트보다 kappa 계수가 유의하게 낮았으며, 채점 기준을 제공하지 않은 프롬프트는 제공한 프롬프트보다 Pearson 상관 계수가 유의하게 높았다. 예제 제공 여부나 출력 구성 요소 지정 여부는 kappa 값과 Pearson 상관 계수에 유의한 영향을 미치지 못했다.
Table 7 Mean, standard deviation and t-value of Cohen's kappa and Pearson correlation coefficient according to prompt contents.
Prompt contents | Cohen’s kappa | Pearson correlation | |||||
---|---|---|---|---|---|---|---|
Mean | SD | t | Mean | SD | t | ||
Scoring criteria | Not provided | .22 | .03 | .90 | .62 | .03 | 2.58* |
Provided | .16 | .05 | .55 | .06 | |||
Rubrics | .21 | .07 | .58 | .56 | .03 | -.42 | |
No rubrics | .19 | .03 | .57 | .07 | |||
Checklists | .17 | .01 | -2.27* | .53 | .09 | -1.19 | |
No checklists | .21 | .05 | .59 | .04 | |||
Examples | 0 examples | .19 | .05 | -.55 | .56 | .07 | -.56 |
4 examples | .20 | .04 | .58 | .06 | |||
Output components | Not specified | .22 | .05 | 1.79 | .55 | .07 | -1.29 |
Specified | .18 | .04 | .59 | .05 |
* p < .05
GPT 언어 모델이 생성한 피드백의 내용을 정성적으로 살펴본 결과 두 가지의 특징이 발견되었다. 첫 번째 특징은 물리학적 오류로, 레몬이 흡수하는 빛의 색과 반사하는 빛의 색을 반대로 제시하거나 잘못된 정보를 제시하는 사례가 프롬프트의 종류를 막론하고 여러 차례 나타났다. 예를 들어 “레몬은 노란색이므로 빨강과 초록을 흡수하여 나타나고 백색광은 색이 없는 색이기에 레몬에 반사하면 노란색으로 보인다”라는 답안을 작성한 20번 피험자의 응답에 대하여 P1 프롬프트를 사용한 언어 모델은 아래와 같은 피드백을 출력했다.
“답안 점수: 2점
피드백: 답안에서는 레몬이 빨강과 초록을 흡수하여 나타나고, 백색광은 색이 없는 색이기에 레몬에 반사하면 노란색으로 보인다고 설명하였습니다. 이는 일부분만 맞는 설명입니다. 레몬은 사실 빨강과 초록을 흡수하고, 파랑을 반사하여 노란색으로 보입니다. 백색광은 빨강, 초록, 파랑의 삼원색을 모두 포함하고 있기 때문에, 레몬에 비추면 파랑색 빛이 반사되어 노란색으로 보이게 됩니다. (후략)”
이 사례와 같이 GPT 언어 모델은 백색광을 이루는 빛의 삼원색이 무엇인지에 대해서는 정확한 판단을 내렸으나, 레몬이 흡수하는 빛의 색과 반사하는 빛의 색에 대해서는 부정확한 판단을 내리는 경우가 있었다. 텍스트 빅데이터를 학습하는 GPT 언어 모델의 특성상, 일반적인 과학 지식에 해당하는 빛의 삼원색은 정확하게 학습한 반면, 레몬이라는 구체적인 상황에 과학 지식을 적용하는 것은 상대적으로 학습하기 어려웠으리라고 생각할 수 있다.
GPT 언어 모델이 생성한 피드백의 또 한 가지 특징은 프롬프트에 포함된 채점 기준에 따라 피드백의 형식이 달라진다는 점이다. 구체적인 채점 기준을 제시하지 않은 P1–P4 프롬프트는 피험자 답안 전체에 대해 전반적인 피드백을 출력하는 경향이 있었다. 반면 루브릭 형태의 채점 기준을 제시한 P5–P8 프롬프트나 체크리스트 형태의 채점 기준을 제시한 P9–P12 프롬프트는 답안 내용을 채점 기준에 대응시키는 방식으로 피드백이 작성되었다. 예를 들어 “삼원색을 모든 색에 빛이 합쳐지면 흰색으로 보인다. 그리하여 백색광을 레몬에 비췄을 때 레몬이 노란색을 제외한 모든 빛을 흡수하고 노란색만 반사하여 레몬이 노란색으로 보이고 레몬에 초록, 빨간색의 빛을 비추면 초록빛과 빨간빛이 반사된다”라는 답안을 작성한 13번 피험자에 대해 P7 프롬프트는 아래와 같이 루브릭의 2가지 평가 항목에 대응하는 2개의 피드백을 생성했다.
“(전략) 피드백:
- 답안에는 레몬이 흡수하는 빛과 반사하는 빛에 대한 설명이 부족합니다. 레몬이 파란색 빛을 흡수하고, 빨간색과 초록색 빛을 반사한다는 내용을 추가해야 합니다.
- 또한, 레몬이 노란색으로 보이는 이유를 빛의 합성과 관련지어 설명하고 있지만, 좀 더 구체적으로 설명할 수 있으면 좋을 것 같습니다. 레몬에서 반사된 빨간색과 초록색 빛의 합성이 어떻게 노란색으로 보이게 되는지 자세히 설명해보세요.”
한편 같은 피험자 응답에 대해 P11 프롬프트는 아래와 같이 체크리스트의 4가지 항목을 참조하는 피드백을 생성했다.
“(전략) 중학교 1학년 수준으로 피드백을 제공해드리면, 답안의 내용은 일부 정확하지만 부족한 부분이 있습니다. 레몬이 노란색으로 보이는 이유는 레몬이 파란색 빛을 흡수하고, 빨간색과 초록색 빛을 반사하기 때문입니다. 이 두 빛의 합성으로 인해 레몬이 노란색으로 보입니다. 또한, 레몬에 반사되어 나온 빛의 색을 우리 눈이 인식하여 레몬의 색을 파악합니다. 이러한 내용을 포함하여 답안을 작성하면 더욱 완성도 있는 답안이 될 것입니다.”
이 사례에서 알 수 있듯 GPT 언어 모델이 생성하는 피드백은 프롬프트에 포함된 채점 기준에 의존한다. 따라서 채점 기준은 피험자 답안에 대한 점수뿐 아니라 피험자에게 제공되는 피드백에 대해서도 큰 영향을 미치는 요소라고 판단할 수 있다.
본 연구에서는 GPT 언어 모델을 사용해 중학교 1학년 광학 서술형 평가의 채점 및 피드백을 자동화하고자 12가지의 프롬프트를 작성하고 각 프롬프트에 따른 출력을 비교·분석했다. 분석 결과, GPT 언어 모델이 전문가보다 전반적으로 관대하게 채점했으며, 절반 이상의 피험자에게 0점과 1점을 부여한 전문가와 달리 GPT 언어 모델은 대부분 0점, 2점, 4점을 부여했다. 이 같은 결과는 ChatGPT-4를 사용해 서술형 응답을 자동 채점했을 때 언어 모델이 전문가보다 관대하게 채점했다는 선행연구[19]의 결과와 일치한다. 이러한 채점 특성의 차이로 인해 GPT 언어 모델과 전문가의 kappa 계수는 .12 – .34 수준으로 낮게 산출되었으며, 이는 .63 – .69 수준이었던 전문가 간의 kappa 계수보다 낮음은 물론 인간 평가자의 채점 결과를 인공지능 모델에 학습시킨 뒤 채점을 수행하여 .6 – .9 수준의 kappa 계수를 얻었던 과거의 자동 채점 연구와[10, 16, 28] 비교했을 때도 상당히 낮은 수치였다. 그러나 Pearson 상관 계수에서는 12개의 프롬프트 모두 p < .001에서 전문가와 유의한 상관관계를 나타냈다. 즉, GPT 언어 모델의 채점 점수는 전문가의 채점 점수보다 전반적으로 높은 점수를 나타내어 점수 자체에는 차이가 있지만 상관 계수가 높은 것을 통해 유사한 경향성의 채점을 한 것으로 생각할 수 있다. 이 결과는 GPT 언어 모델을 이용한 자동 채점이 평가에 활용되기에 충분한 근거로 여길 수 있다.
프롬프트의 내용에 따른 비교 결과, 예제를 제시한 경우가 그렇지 않은 경우보다, 루브릭 형식의 채점 기준을 제시한 경우가 그렇지 않은 경우보다 전문가와 일치도가 높았지만, 통계적으로는 유의미한 차이를 보이지 않았다. 통계적으로 유의미한 차이를 나타낸 부분은 체크리스트를 사용한 것보다 사용하지 않은 경우가 더 일치도가 높았다는 것이다. 이 때문에 채점 기준을 제시한 프롬프트를 이용한 채점(루브릭, 체크리스트 모두 포함)이 채점 기준을 제시하지 않은 경우보다 더 낮은 일치도를 나타내었다. 이 결과는 채점 영역, 예제, 채점 기준 등의 제공 여부에 따른 채점 정확도를 비교한 Han et al.[23]의 연구에서 예제 제공에 따른 채점 정확도 차이가 채점 기준 제공에 따른 채점 정확도 차이보다 작았다는 것과 일맥상통한 결과이다.
다만 GPT 언어 모델에 아무런 정보를 제공하지 않는 것이 체크리스트 등의 채점 기준을 제시한 경우보다 전문가의 채점 결과와 더 유사한 결과를 제시했다는 것은 좀 더 깊이 있게 생각할 필요가 있다. 이러한 결과가 나온 이유를 본 연구에서 제시하지는 못했지만, GPT 언어 모델의 채점 과정에서 학생의 답안 대신 채점 기준을 평가한 일부 사례가 있었는데 이것이 점수에 영향을 주었을 것으로 유추한다. Lee et al.[30]의 연구에서 지적된 대로 프롬프트의 맥락이나 그 이면의 목표에 대한 이해가 부족한 GPT 언어 모델의 한계로 볼 수 있다.
향후 인공 지능의 성능이 높아지면서 개선될 수 있겠지만, 현시점에서는 채점 기준을 어떻게 제시하느냐에 따라 평가 결과가 영향을 받을 수 있다는 것을 인지할 필요가 있다. 또한, GPT 언어 모델이 피드백을 생성할 때는 채점 기준에 기반하여 설명하므로, 구체적인 피드백을 출력하기 위해서는 채점 기준도 구체적으로 제시해야 한다. 향후 언어 모델에 혼동을 일으키지 않으면서도 구체적인 정보를 제공하는 채점 기준의 프롬프트 작성 방식에 관한 후속 연구가 요구된다.
GPT 언어 모델이 생성한 피드백에서 다수의 물리학적 오류가 확인되었다. 이미 여러 선행 문헌에서 GPT 언어 모델이 사실과 다른 정보를 제공하는 문제가 지적된 바 있다[31, 32]. 본 연구에서 수집된 언어 모델의 피드백을 살펴보면, 빛의 삼원색과 같은 일반적인 지식에 관한 판단은 상대적으로 정확했으나, 지식을 레몬의 상황에 적용하는 데에서는 물리학적으로 잘못된 피드백을 생성하기도 했다. 이러한 결과는 ChatGPT를 활용해 서술형 응답을 자동 채점했을 때 일반적인 물리학 지식에 대해서는 정확히 판단했으나 세부적인 물리학적 사고는 정확하게 채점하지 못했다는 선행연구[20]의 결과와 일치한다.
본 연구의 결과를 종합하면, 현시점에서 자동 채점을 위해 GPT 언어 모델을 사용할 때 다음과 같은 점을 고려할 필요가 있다. 첫째, GPT 언어 모델은 일반적인 과학 지식을 묻는 문항을 채점하는 데 충분히 활용할 만하지만, 지식을 특정한 상황에 적용하는 문항에 대해서는 주의할 필요가 있다. 둘째, GPT 언어 모델은 인간 채점자보다 전반적으로 관대하게 채점하는 경향이 있으므로, 점수 분포를 일치시키기 위한 추가적인 방법(예: 파인튜닝(fine-tuning))이 모색될 필요가 있다. 셋째, 피험자의 응답에 대한 피드백 생성을 위해서는 구체적인 채점 기준을 제시하는 것이 도움이 된다. 넷째, 프롬프트를 작성할 때 채점 기준의 문장 형태가 피험자의 답안과 혼동되지 않도록 작성해야 한다. GPT 언어 모델은 프롬프트의 맥락 이해 능력이 부족하므로 유사한 형태의 문장이 다수 포함된 프롬프트는 피하는 것이 좋다.
본 연구는 프롬프트의 내용에 따른 GPT 언어 모델의 채점 정확도를 경험적으로 확인했다는 데에 의의가 있으나 문항에서 다루는 영역이 한정적이라는 한계가 있다. 향후 다른 내용의 서술형 문항이나, 더 복잡한 사고 과정을 요구하는 상위 학교급의 서술형 문항에서도 프롬프트의 내용에 따라 유사한 결과가 나오는지 확인할 필요가 있다. 이러한 한계에도 불구하고 본 연구를 통해 얻어진 결과들은 GPT 언어 모델의 서술형 평가에의 활용을 위한 연구에 기초 자료로 활용될 수 있을 것으로 기대한다.