npsm 새물리 New Physics : Sae Mulli

pISSN 0374-4914 eISSN 2289-0041
Qrcode

Article

Research Paper

New Phys.: Sae Mulli 2024; 74: 653-663

Published online July 31, 2024 https://doi.org/10.3938/NPSM.74.653

Copyright © New Physics: Sae Mulli.

Exploring the Possibility of Automatic Scoring for Arrow Responses of Simple Pendulum Items Using a Image Contours

이미지 컨투어를 활용한 단진자 문항 화살표 답안 자동 채점 가능성 탐색

Seokmin Yun1, Hyejung Kwak2, Hyukjoon Choi3*

1Daejeon Science High School for The Gifted, Daejeon 34142, Korea
2Korea Institute for Curriculum and Evaluation, Jincheon 27873, Korea
3Department of Physics Education, Korea National University of Education, Cheongju 28173, Korea

Correspondence to:*hjchoi@knue.ac.kr

Received: April 2, 2024; Revised: May 17, 2024; Accepted: May 21, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

In this study, we confirmed the feasibility of automatically grading student-written arrow answers of simple pendulum items. Utilizing OpenCV’s image contour feature, we automatically drew the contours of arrows marked in the answers and determined the length of the arrows by connecting the two farthest points among the vertices of the polygon enclosing the contour. Additionally, by collecting the position coordinates of the pixels inside the contour and using the average and median values of these coordinates, we identified the direction and starting point of the arrow. Auto-grading a question that asked 183 high school students to indicate the resultant force at the highest and lowest points of a pendulum showed a very high level of agreement with a precision of 1.000, recall of 0.977, and F1-score of 0.988. The starting point, direction, and length of the arrows obtained for auto-grading also made it possible to cluster the answers, which could further be used to cluster types of misconceptions among students.

Keywords: Computer vision, Image contour, Arrow, Automatic scoring

본 연구에서는 학생들이 손으로 그린 단진자 문항의 화살표 답안에 대한 자동 채점 수행 가능성을 확인하였다. OpenCV의 이미지 컨투어 기능을 활용하여 답안에 표기된 화살표의 윤곽선을 자동으로 그리고, 윤곽선을 감싸는 다각형의 꼭짓점 중 가장 먼 두 점을 잇는 방식으로 화살표의 길이를 결정하였다. 또한, 윤곽선 내부 픽셀의 위치 좌표를 수집하고 좌표의 평균값과 중앙값을 이용하여 화살표의 방향과 시작점을 확인하였다. 고등학생 183명을 대상으로 단진자의 최고점과 최저점에서의 합력을 표시하는 문항을 자동 채점한 결과 정밀도 1.000, 재현율 0.977, F1-score 0.988로 인간 채점 결과와 매우 높은 일치도를 보였다. 자동 채점을 위해 얻은 화살표의 시작점, 방향, 길이를 이용하여 답안을 자동 군집화하였으며, 군집들은 힘에 대한 오개념 유형 집단으로 설명할 수 있었고 유형화된 처치가 가능함을 확인하였다.

Keywords: 컴퓨터 비전, 이미지 컨투어, 화살표, 자동 채점

사회 전반에 걸쳐 인공지능에 의한 혁신은 대대적으로 이루어지고 있다[1]. 실시간 통역이 가능한 휴대전화가 출시되었으며, 자율주행과 생성형 인공지능은 더 이상 놀라운 이야기가 아니다. 과학과 공학 분야에서 인공지능을 활용한 다양한 연구[2, 3]가 이루어지며 여러 방면의 변화를 이루어 내고 있고, 의료·금융·서비스업에서도 지속적인 연구[4]가 이루어지며 우리의 삶을 편리하게 만들고 있다.

인공지능은 교육 연구와 실천 분야에서도 혁신을 불러일으키고 있다. 인공지능을 이용하여 학습자의 특성을 파악하는 연구[5-7]가 이루어지고 있으며, 인공지능을 활용한 적응형 평가 시스템에 대한 연구[8, 9] 또한 이루어지고 있다. 자동 채점 분야 역시 인공지능과 함께 지속적으로 발전하고 있다.

서술형 평가[10-13], 논증 평가[14-16], 그래픽 답안 평가[17-19] 등 여러 유형의 평가에 인공지능 기술이 적용되어 자동 채점의 가능성이 탐색되고 있으며, 그 중 서술형 평가는 가장 먼저 자동 채점 연구가 시작된 분야이다. 국립국어원에서는 언어 분석을 위해 2015년부터 한국어 말뭉치 자료를 개발하였고, 부정확한 말뭉치로 인해 영어 보다 낮았던 우리말 자동 채점의 정확도를 높이기 위해 기계 번역을 활용한 연구가 수행되었다[10]. 또한 서술형 평가에 대한 자동 채점 프로그램을 개발하고 적용하기도 하였다[11]. 이와 같은 서술형 자동 채점 연구는 다방면에서 이루어지고 있으며, 자동 작문 평가(AWS)와 관련된 논문은 105개 이상으로 확인된다[12]. 논증과 관련된 자동 채점 연구도 활발히 이루어지고 있다. 형태소 분류를 활용한 과학 논증 자동 채점 연구가 이루어졌고[14, 15], 다양한 딥러닝 알고리즘을 이용하여 에세이 자동 채점이 수행되기도 하였다[16]. 이외에도 Hewlett Foundation에서는 ASAP(Automated Student Assessment Prize)라는 에세이 자동 채점 경진대회를 여는 등 텍스트 기반의 자동 채점은 다양한 방식의 연구가 진행되는 중이다[20].

그래픽 답안의 자동 채점은 서술형이나 논증 평가와는 다르게, 텍스트의 형태소를 분석하는 대신 이미지를 인식하여 평가하는 방식으로 진행된다. 이 과정에서 사용되는 컴퓨터 비전 기술은 기본적으로 이미지를 격자로 나누고 각 격자의 RGB 값을 인식하는 방식에서 시작하며, 이를 응용하여 이미지 분류·객체 검출·의미적 분할 등을 수행한다[21]. 이러한 컴퓨터 비전 기술은 산업 분야 특히 자율주행 등에서 널리 적용되고 있다. 그러나 교육 분야에서의 그래픽 답안에 대한 자동 채점 연구는 아직 초기 단계에 머물러 있으며, 자동 채점과 학습에의 환류 가능성에 관한 연구가 진행 중이다. 서술형 자동 채점에 대한 고찰과 더불어 텍스트를 넘어 이미지 처리를 통한 다양한 평가 방식의 가능성이 제안되었고[22], 합성곱 신경망을 이용한 그래픽 답안의 자동 채점 연구가 수행되었다[17]. 운동학 그래프를 자동 채점하는 모델을 설계, 검증하여 자동 채점의 실현 가능성이 확인되었고[18], TIMSS에서 출제된 도형 그리기 문항에 대한 자동 채점 연구가 이루어졌다[19]. 이러한 선행 연구는 구글 티처블 머신과 같은 방식인 이미지 분류를 사용하여 그래픽 답안의 자동 채점을 수행하였다.

이미지 분류 방식은 사람이 일부 답안을 먼저 채점하여 이를 학습용 데이터로 사용하고, 이 데이터를 바탕으로 자동 채점 모델을 개발하여 자동 채점을 수행한다. 선행 연구에서는 자동 채점 모델을 개발하기 위해 인간이 수동으로 채점한 2,000개 이상의 결과를 학습시켰다[17-19]. 이와 같이 자동 채점 모델 개발은 인간 채점 결과를 학습용 데이터로 사용하므로, 이미지 분류에 의한 자동 채점은 답안의 개수가 충분한 국가수준 학업성취도 평가나 TIMSS 등과 같은 대규모 평가에만 적합하다는 한계가 있다. 또한 인간 채점 결과가 학습되어 개발된 자동 채점 모델은 문항의 일부가 변형되면 새로운 답안을 학습해야 한다는 점에서도, 다양한 교수·학습 상황을 적용한 단위 학교 수준의 평가에서 활용되기는 어렵다. 학교 현장에서 개별 교사가 출제하는 문항의 학생 답안은 2,000개 이상 얻어지기 어려우며, 자동 채점 모델 개발 이후 문항의 수정이 발생하면 새로운 학습용 데이터를 준비하여 채점 모델을 개발해야 한다. 단위 학교에서 자동 채점에 대한 요구가 다양한 교수 상황에서 적용이 가능하면서, 학생이 구성한 답안의 신속한 채점 결과를 바탕으로 학생에게 피드백을 제공할 수 있어야 한다는 점을 고려하면, 이미지 분류 방식의 자동 채점은 학교 현장에서 적용되기 어렵다는 것을 의미한다.

본 연구에서는 컴퓨터 비전 기술 중 이미지 컨투어 기술에 주목하였다. 이미지 컨투어는 사진 파일 안에서 RGB 값의 크기를 기준으로 물체의 경계선을 파악하는 기술이며, 컴퓨터 비전 기술의 기초가 된다. 이는 파이썬에서는 주로 OpenCV 패키지를 이용하여 수행되며, 학습 후 클래스를 분류하는 이미지 분류와는 달리 각각의 이미지 파일 내부에 물체가 있는 영역만을 파악한다. 따라서 정답과 오답을 판별하기 위한 학습 과정이 필요하지 않으므로 자동 채점을 위한 인간 채점이 요구되지 않는다.

대다수의 과학 교육 평가에서 요구하는 학생의 이미지 답안은 추상화되고 단순화된 형태가 많다. 답안에 여러 가지 물체가 등장하지 않으며, 학생에게 요구하는 답안 이미지의 형태가 특정한 기하학적 특징을 갖는 경우, 학생 답안의 이미지 경계 인식만으로 답안의 특성 분석 및 자동 채점이 가능할 것이다.

화살표는 벡터를 표기하는 기호로써 사용되며, 벡터는 물리학의 전 분야에서 매우 자주 쓰이는 수학적 도구이다[23]. 물리학 교과에서는 합력, 가속도, 운동량 등의 양을 표시하는 문항에서 사용되고 있으며, 물리학뿐만 아니라 도로 표지판, 순서도 등 다양한 분야에서 매우 자주 사용되는 기호이다. 화살표의 방향을 인식하기 위해 선행 연구에서는 객체 검출 방식을 활용하기도 하였고[24], 화살표의 선분이 꺾이는 지점을 파악하기도 하였다[25].

화살표는 기하학적 특성이 뚜렷하므로 이미지 컨투어를 활용해 파악한 이미지의 형태를 이용해 자동 채점을 채점이 수월할 것이다. 본 연구에서는 이미지 컨투어 방식과 화살표의 기하학적 특성을 이용하여 화살표의 길이와 방향을 파악하고, 이를 이용해 자동 채점을 수행하고자 한다. 또한, 정답과 오답 등의 클래스만 분류되는 이미지 분류 방식의 자동 채점과는 달리 학생들이 그린 화살표의 길이와 방향이 수치화되어 수집되므로 이를 이용해 학생 답안의 군집화를 수행하여 학생의 오답을 유형화하고자 하였다.

본 논문의 연구 문제는 다음과 같다.

첫째, 이미지 컨투어 방식을 활용하여 화살표 답안의 자동 채점이 가능한가?

둘째, 이미지 컨투어 방식을 활용하여 자동 채점한 데이터를 이용하여 답안의 군집화가 가능한가?

1. 연구 대상 및 문항

대전 소재의 고등학교 1, 2학년 학생 183명을 대상으로 단진자의 최고점과 최저점에서의 합력을 화살표로 표기하는 문항의 답안을 수집하였다. 화살표는 학생들이 손으로 직접 그렸으며, 이미지 컨투어 방식의 인식률을 높이기 위해 컴퓨터용 사인펜을 이용했다. 학생들은 문항에 대한 응답 이전에 단진동에 대해 학습한 상태였다. 학생들에게 제시된 문항은 Fig. 1과 같다. 합력이 0이라고 생각하여 화살표를 그리지 않는 것과 문제를 풀지 않은 것을 구분하기 위하여 합력이 0이라고 생각할 때는 이를 따로 표시하도록 하였다.

Figure 1. Questions about the net force of a simple pendulum.

2. 자동 채점 방법

학생의 답안에 대해 이미지 컨투어 방식을 활용한 자동 채점은 다음과 같은 과정으로 이루어졌다. 먼저, 학생 답안을 스캔하고 답안이 있는 영역을 자르고, 이미지 블러 처리 작업을 하였다. 블러 처리는 각 픽셀의 RGB값을 해당 픽셀 주변 값들의 평균값으로 대체하는 것이며, 블러 처리를 하는 이유는 단진동을 나타내기 위해 문제에 그려놓은 선을 학생 답안과 구분하여 상대적으로 희미하게 만들기 위함이다. 학생 답지용 종이에 미리 인쇄된 문제 안내를 위한 선은 두께가 얇아서 블러 처리했을 때 희미해지지만, 컴퓨터용 사인펜으로 학생이 작성한 화살표 답안은 선이 두껍기 때문에 선명함이 유지된다. 블러 처리 이후 이미지 내의 RGB 값이 특정 값을 넘는 픽셀을 확인하여 해당하는 픽셀을 붉은색으로 칠하는데, 이와 같은 과정을 이미지 컨투어라 한다. Figure 2와 같이 붉은색으로 처리된 픽셀을 감싸는 다각형을 그리고, 다각형의 꼭지점 중 가장 거리가 먼 두 점 사이의 거리를 구하면 화살표의 길이를 구하였다. 이 과정에서 문제 제시를 위한 선들이 일부 읽힐 수 있지만 그 크기가 매우 작을 것으로 예상하였다. 이를 해결하기 위해 인접한 픽셀들을 묶어 픽셀의 덩어리를 만들고, 픽셀 덩어리가 특정 크기 이상이 되어야만 다각형 안에 포함되게 하였다.

Figure 2. (Color online) Contour processing of the image in the response.

자동 채점을 위해서는 화살표의 길이와 방향이 모두 필요하므로, 가장 거리가 먼 두 지점을 잇는 선분의 각도를 구한다. 가장 거리가 먼 두 지점을 잇는 것은 Fig. 3과 같이 시작점을 어느 점으로 설정하느냐에 따라 두 가지로 나뉜다.

Figure 3. (Color online) Two types of arrow direction settings.

시작점에 따라 나뉘는 두 방향 중 어느 것을 택해야 하는지는 논리식으로서 입력해야 하므로, 본 연구에서는 방향 선택을 위해 화살표의 기하학적 특징을 이용하였다. 이미지 컨투어 방식을 이용하여 화살표가 있는 영역을 파악하면, 화살표가 있는 영역의 좌푯값은 화살표의 머리 쪽에 더 많이 분포할 것이다. Figure 4와 같이 데이터가 한쪽으로 치우쳐져 있는 분포에서 평균값과 중앙값의 관계를 생각하면, Fig. 5처럼 화살표 머리 쪽에 가깝게 중앙값이 위치한다는 것을 알 수 있다. 이를 이용해 가장 거리가 먼 두 점 사이를 잇는 두 개의 방향 중 화살표가 있는 영역 좌표의 평균값에서 중앙값을 잇는 방향과 더 가까운 각도를 선택하면 화살표의 방향을 확정지을 수 있다.

Figure 4. (Color online) Average and median values ​​of skewed data distributions.

Figure 5. (Color online) Average and median values ​​of arrow coordinates.

화살표의 길이와 방향을 파악한 후에는 이를 Fig. 6과 같이 CSV 파일로 생성하고, 엑셀의 조건문 함수를 이용하여 자동 채점한다. CSV 파일을 생성하는 것은 자동 채점의 사용자 접근성을 높이기 위해서이다. 같은 조건문을 생성하더라도 코딩 언어에 익숙하지 않은 교사는 파이썬 내부에서 조건문을 작성하기가 어렵다. 엑셀의 조건문 함수는 교사들에게 상대적으로 친숙하므로, 자동 채점의 연구 결과가 일선 학교에 보급될 것을 고려한다면 자동 채점 과정은 CSV 파일 생성 과정을 포함하는 것이 좋을 것이다. 자동 채점의 조건문은 화살표의 방향이 특정 범위 안에 존재하는지 여부이다. 손으로 화살표를 직접 그리는 답안의 특성상, 학생이 의도한 방향을 정확하게 확인하는 것은 어려움이 있다. 학생이 지표면과 수직한 방향을 의도하고 화살표를 그렸다 하더라도, 실제 그려진 화살표는 약간의 오차가 발생할 수 있다. 이를 인간 채점자가 채점하는 경우 학생의 의도를 어느 정도 고려하여 채점하게 되고, 화살표가 특정 범위 안에 있는 경우에는 정답으로 채점하게 된다. 인간 채점 과정에서도 각도가 어느 정도 범위 안에 존재하면 정답으로 인정한다는 점을 고려하여, 본 연구의 자동 채점 과정에서도 정확한 정답 방향에서 범위 안에 있는 답안은 정답으로 처리하였다.

Figure 6. CSV file for automatic scoring.

또한, 합력이 0이라고 생각하여 F=0의 체크 박스를 체크한 답안을 판별하기 위해 체크 박스가 있는 영역을 자르고 화살표를 인식할 때와 같은 방법으로 이미지 컨투어 처리한 후, 이미지 컨투어 처리된 영역이 존재하는지를 확인하였다. 이와 같은 방법으로 합력이 0이라고 표기한 답안과 무응답 답안을 구분할 수 있었다.

3. 자동 채점 결과 분석

자동 채점을 수행한 뒤에는 결과를 인간 채점 결과와 비교하였다. 인간 채점은 물리 교육 박사 1인, 물리 교육 박사과정생 1인이 수행하였으며, 인간 채점이 모두 옳다는 가정하에 자동 채점 결과를 비교하였다.

자동 채점의 성능을 평가하는 지표로는 정밀도(P), 재현율(R), F1-score를 사용하였으며, 이를 구하기 위해 혼동 행렬(Confusion matrix)을 이용했다. Table 1과 같이 나타나는 혼동 행렬은 모델이나 검사 도구의 분류 능력을 판별하기 위해 사용되며, 머신러닝이나 딥러닝 모델의 성능 평가[17, 19, 23, 24, 25] 혹은 COVID-19 진단 키트의 성능 평가[26]와 같은 연구에서 이를 이용해 정밀도와 재현율 등을 구했다. 혼동 행렬은 TP, FN, FP, TN으로 이루어져 있는데 이 중 T와 F는 실제와 예측이 일치하는지를 나타내고, P와 N은 정답과 오답 중 무엇으로 예측했는지를 나타낸다. 따라서 TP는 True Positive로서 정답을 옳게 예측한 것이고, FP는 False Negative로서 오답을 예측하는 데 실패한 것이다.

Table 1 The structure of confusion matrix.

Actual values
PositiveNegative
Predicted valuesPositiveTP (True Positive)FP (False Negative)
NegativeFN (False Positive)TN (True Negative)


혼동 행렬을 이용하여 정밀도, 재현율, F1-score를 계산하여 자동 채점 모델의 성능을 평가하였다. 이 값들은 모두 컴퓨터 비전 기술의 성능을 평가하는 데 주로 사용되는 지표들이다.

정밀도는 TPTP+FP로 인간 채점이 모두 옳다는 가정하에 자동 채점이 정답으로 분류한 답안 중 실제 정답이 차지하는 비율을 말한다. 재현율은 TPTP+FN로서 실제 정답 중 자동 채점이 정답으로 분류한 비율을 의미하며, F1-score는 정밀도와 재현율의 조화 평균이다. 본 연구에서는 학생들이 손으로 직접 그린 화살표를 인식하여 채점하는 것이 목적이므로 합력이 0이라고 체크한 답안의 경우는 정밀도와 재현율, F1-score를 구할 때 제외하고 계산했다. 모델 성능 평가 이후에는 오분류 사례를 분석하고 자동 채점 과정에서 이를 보완할 방법을 고안하였다.

또한 정답 유무를 구분하는 것에 그치지 않고 연속적인 수치로 얻어낸 각도를 이용하여 학생 답안을 군집화하였다. 데이터의 표준화, 정규화 과정을 거친 후 군집화는 K-means 알고리즘을 활용하였으며, 군집의 개수는 실루엣 계수를 이용하여 결정하였다[27]. 실루엣 계수는 같은 군집 내에 있는 데이터와의 거리 평균값을 a라 하고, 다른 군집 내에 있는 데이터와의 거리 평균값 중 가장 작은 값을 b라 할 때 Si=bi-aiMax(ai,bi)로 나타나는 계수이며, 실루엣 계수가 클수록 보다 합리적인 군집의 개수로 여겨진다.

1. 자동 채점 결과

전체 학생 답안 366개 중 화살표가 그려진 답안은 254개, 합력이 0이라고 체크한 답안은 112개였다. 합력이 0이라고 체크한 답안은 이미지 컨투어를 활용하여 자동 채점한 것이 아니므로, 채점 결과 분석에서 제외하였으며, 자동 채점 결과는 Table 2와 같다.

Table 2 Automatic scoring results.

Actual values
Highest point of PendulumLowest point of Pendulum
PositiveNegativePositiveNegative
Predicted valuesPositive1420680
Negative429110


단진자가 최고점에 도달하는 순간 합력을 표기하는 문항의 자동 채점 결과 오분류 사례는 4건이었으며 이는 모두 인간 채점에서는 정답으로 분류하였지만, 자동 채점에서는 오답으로 분류한 답안이다. 성능 평가 결과 정밀도(P)는 1.000, 재현율(R)은 0.973, F1-score는 0.986이었다.

단진자가 최저점에 도달하는 순간 합력을 표기하는 문항의 자동 채점 결과 오분류 사례는 1건이었으며 이 사례 역시 최고점 문항과 마찬가지로 인간 채점에서는 정답으로 분류하였지만, 자동 채점에서는 오답으로 분류한 답안이다. 성능 평가 결과 정밀도(P)는 1.000, 재현율(R)은 0.986, F1-score는 0.993이었다.

자동 채점 결과를 종합해 보면 단진자의 최고점과 최저점의 합력을 표기하는 문항에 대한 254개 답안을 자동 채점한 결과 인간 채점과 자동 채점이 불일치한 사례는 총 5건이었다. 또한, Table 3과 같이 전체 정밀도 1.000, 재현율 0.977, F1-score 0.988의 뛰어난 채점 성능을 보여준다.

Table 3 Automatic scoring performance analysis.

PRF1-score
Highest point of Pendulum1.0000.9730.983
Lowest point of Pendulum1.0000.9860.993
Total1.0000.9770.988


2. 오분류 사례 분석 및 해결 방안 모색

자동 채점이 답안을 오분류한 사례 5건은 Table 4에 나타나 있다. 5건 중 2건은 학생이 답안을 표기하는 과정에서 보조선을 그린 경우에 해당한다. 이미지 컨투어 과정에서 보조선이 답안으로 함께 인식되어, 학생 답안 이미지에서 거리가 가장 먼 두 점은 화살표의 양 끝이 아니라 화살표의 한쪽 끝과 보조선의 끝으로 처리되었다. 학생이 보조선을 그려 오분류된 답안은 최고점에서의 합력을 나타내는 문항에서만 확인되었다. 연구에서 사용된 두 문항 모두 답변의 유형이 대부분 실과 나란한 방향 혹은 수직 방향으로 표기되기 쉽다는 것을 고려하면 최저점에서 답변은 실과 나란하고 지표면과 수직 방향 혹은 실과 수직하고 지표면과 나란한 방향이 대부분이다. 학생들은 지표와 나란한 좌표계에 익숙할 것이며, 따라서 학생들은 보조선을 따로 그리지 않았을 것이다. 하지만 최고점에서 학생들이 표기하는 답은 지표면과 비스듬한 각도를 이룬다. 비스듬한 각도를 표현할 때, 학생들은 보조선의 필요성을 느꼈을 것으로 추정된다. 만약 문항에 미리 실과 나란한 방향과 수직 방향의 보조선을 미리 그어 놓았다면 오분류 발생이 사전에 통제될 것으로 보이며 화살표 답안 자동 채점 정확도를 높일 수 있었을 것이다. 또는 답안을 표시할 때 보조선은 긋지 않고 화살표만 표기해야 한다는 단서 조항을 제시하는 것도 가능할 것이다.

Table 4 Misclassified students’ response cases.

Misclassified casesStudents’ Response
Draw auxiliary lines
Arrow head is too big
Only part of the arrow is recognized
The distance between the average and median is too close


학생이 답안에 화살표의 머리를 지나치게 크게 그려서 화살표 머리의 양옆이 가장 거리가 먼 두 점으로 인식된 경우도 1건 있었다. 이 경우는 화살표 길이보다 화살표 머리의 두 점 사이의 거리가 더 길게 그려서 발생한 사례인데, 이러한 답안의 경우 평균값과 중앙값을 잇는 벡터와 거리가 가장 두 점을 잇는 벡터의 각도 차이가 특정 값 이상이 되면 자동 채점을 수행하지 않고, 보류 상태로 놓는다면 자동 채점으로 인한 오분류가 발생하지 않을 것이다. 고부담 평가의 경우 모든 답안을 채점하고 오분류가 발생하는 것보다는 일부 답안이 채점되지 않더라도 오분류가 발생하지 않는 것이 더 중요하다. 위에서 언급한 두 벡터의 각도 차이를 더 작게 설정할수록 자동 채점되지 않는 문항도 늘어나겠지만, 고부담 평가에서의 오분류 사례는 줄어들 것이다. 두 벡터의 각도 차이를 이용하면 앞서 보조선을 그린 사례 역시 걸러낼 수 있다.

화살표의 머리를 인식하지 못한 경우도 1건 있었다. Table 4의 그림을 보면 이미지 컨투어 작업을 수행했을 때, 머리도 특정 RGB 값을 넘는 것으로 인식하여 붉은색으로 칠해져 있지만 컨투어 영역을 감싸는 도형에는 머리가 빠져있는 것을 알 수 있다. 이와 같은 현상은 화살표가 전체적으로 희미하게 그려져 있어서 발생한 것으로 보인다. 화살표가 희미하게 그려져 화살표가 나누어진 여러 픽셀 덩어리로 인식되고, 머리 쪽에 존재하는 픽셀 덩어리는 다각형 영역 안에 포함되지 못한 것이다. 이를 해결하기 위해서는 이미지 컨투어 과정에서 블러 처리를 더 연하게 하는 방법이나 다각형 영역 안에 포함되는 픽셀 덩어리의 크기 제한을 낮추는 방법 등을 사용할 수 있다. 하지만 이와 같은 방법은 문제 제시를 위한 선분을 함께 인식할 수 있는 위험성이 있으므로, 문제 제시를 위한 선을 더 연하게 그리거나 답안을 더 진하게 그리는 것이 더 안전하다. 전체 183명의 답안 중 한 명의 답안, 그 한 명이 작성한 두 개의 답안 중에서도 하나의 답안에서만 이러한 사례가 발생하였으므로, 고부담 평가에서는 문제 제시용 선을 더 연하게 그리는 것보다는 학생들이 사용하는 컴퓨터용 사인펜을 점검하거나 사인펜을 직접 나누어 주는 것이 가능할 것으로 보인다.

이미지 컨투어의 모든 과정이 제대로 수행되었지만, 화살표의 방향이 반대로 뒤집혀 읽힌 경우도 1건 있었다. 이 경우 이미지 컨투어 영역의 중앙값과 평균값을 비교했을 때, 평균값이 꼬리 쪽에 가깝게 인식되어 벡터의 방향이 거꾸로 인식된 것이다. 해당 답안의 이미지 인식 결과를 살펴본 결과 평균값과 중앙값의 거리가 매우 가까운 것을 확인할 수 있었다. 해당 답안은 화살표가 인식된 254개의 답안 중 평균값과 중앙값의 거리가 가장 가까운 답안이었다. 이를 해결하기 위해서는 평균값과 중앙값의 거리가 특정 값 이하로 인식된 경우는 자동 채점을 수행하지 않고, 판단을 보류하고 인간 채점을 수행하도록 할 수 있을 것이다. 임의로 특정 값을 설정하기가 어려운 상황에서는 값의 비율을 이용하는 것도 좋은 방법으로 여겨진다.

3. 답안의 군집화 결과

자동 채점에 사용된 변수가 각도이므로, 각도를 이용해 답안을 군집화하였다. 자동 채점 결과와 채점 성능을 분석하는 과정에서는 합력을 0으로 표기한 답안은 제외했지만, 답안의 군집화는 학생들의 오개념 유형을 파악하는 것에도 의미가 있으므로 합력을 0으로 표기한 답안도 포함하여 분석하였다. 화살표의 각도는 -180부터 180의 범위에 존재하는데, 합력이 0이라 표기한 답안은 각도를 가질 수 없으므로 이를 따로 군집화하기 위해 합력을 0이라 표기한 답안은 각도를 360로 표기한 것으로 취급했다.

최고점에서의 합력을 표기하는 문항의 답안을 군집화하기 위해, 실루엣 계수를 구한 결과 Fig. 7과 같은 결과를 얻었다. 실루엣 계수가 클수록 보다 합리적인 군집의 개수로 여길 수 있는데, 현재 군집의 실루엣 계수를 보면 군집 3개와 5개의 계수가 거의 유사해 보인다. 본 연구에서는 학생들의 답안 군집을 세밀히 확인하기 위해 군집의 개수를 5개로 설정하였다.

Figure 7. (Color online) Silhouette score of the highest point of pendulum question.

5개로 군집을 설정하여 군집화한 결과는 Table 5와 같다. Table 5에서 표기한 정답, 오답은 인간 채점을 기준으로 한 정답 여부이다. 첫 번째 군집은 대부분의 정답 답안이 속해 있는 군집으로서 진자 운동 방향과 나란한 방향으로 합력이 작용한다고 표기한 집단이다. 두 번째 군집은 대부분 지표면과 나란한 방향으로 합력을 그린 답안을 포함한다. 해당 군집에 속해 있지만 정답으로 분류된 답안은 Table 4의 오분류 두 번째 사례인 머리를 매우 크게 그린 화살표였다. 세 번째 군집은 합력이 작용하지 않는다고 분류한 경우이며, 네 번째 유형의 군집은 모두 연직 아래 방향으로 합력이 작용한다고 표기한 답안이다. 다섯 번째 군집은 두 건의 답안만 해당되며, 한 건은 연직 위로 합력이 작용한다고 표기했고, 나머지 한 건은 Table 4에 세 번째 사례인 진자 운동 방향과 반대 방향으로 합력이 작용한다고 표기한 경우이다.

Table 5 Clustering results of the highest point of pendulum question.

ClusterResponse TypeCorrectIncorrectTotal
1The net force acts in the direction of pendulum movement1440144
2The net force is parallel to the ground surface12425
3The net force is zero088
4The net force is vertically below to the ground surface044
5The net force is vertically above to the ground surface112


각도의 범위를 이용하여 자동 채점한 결과 4개의 오분류 사례가 발생했는데, 답안을 군집화하여 정답 군집을 설정한다면 2개의 오분류 사례만이 관찰된다. 이는 보조선을 그린 2개의 사례가 정답 군집으로 포함되었기 때문이다. 이는 답안의 군집화를 이용한 채점 가능성을 보여준다. 각도의 정답 범위를 설정하지 않고 이미지 컨투어 작업을 통해 각도를 읽고 난 후 답안을 군집화하고, 각 군집별로 몇 개의 사례만을 인간 채점하여 정답 유형을 설정하는 것이다.

최저점에서의 합력을 표기하는 문항의 답안을 군집화하기 위해 실루엣 계수를 구한 결과는 Fig. 8과 같다. 군집의 실루엣 계수를 보면 유형 3개와 5개의 계수가 거의 유사하며 1에 가깝다. 최저점에서의 군집 개수는 답안 유형을 상세히 확인하기 위해 군집의 개수를 5개로 설정하였다.

Figure 8. (Color online) Silhouette score of the lowest point of pendulum question.

5개로 군집을 설정하여 나눈 결과는 Table 6과 같다. Table 6에서 표기한 정답, 오답은 인간 채점을 기준으로 한 정답 여부이다. 첫 번째 군집은 진자에 작용하는 합력이 0이라고 표기한 경우이다. 많은 학생이 진자의 최저점에서의 원운동을 고려하지 못하고, 진자에 작용하는 합력이 없다고 생각하는 것을 확인할 수 있다. 두 번째 군집은 모두 연직 위 방향으로 힘이 작용한다고 표기한 군집으로 정답을 표기한 학생 대부분이 포함되어 있다. 세 번째 군집은 연직 아래 방향의 합력이 존재한다고 표기한 집단이다. 해당 집단 중 하나의 답안은 Table 4에서 마지막으로 소개한 유형인 화살표의 방향이 반대로 읽힌 답안이다. 네 번째 군집과 다섯 번째 군집은 진자의 운동 방향과 나란한 방향으로 합력이 존재한다고 표기한 그룹이다. 두 그룹이 별개의 그룹으로 인식된 이유는 각도를 -180에서 180까지로 표기했기 때문이다. -180와 180 모두 왼쪽을 가리키는 화살표에 가깝지만, 숫자만을 인식하는 컴퓨터 논리 구조의 특성상 이를 별개의 집단으로 인식하였다. 최저점에서의 군집화 결과 역시 정답 군집을 잘 구분할 수 있었고, 군집화 결과를 이용해 학생의 오개념 유형 확인도 가능한 것으로 보인다.

Table 6 Clustering results of the lowest point of pendulum question.

ClusterResponse TypeCorrectIncorrectTotal
1The net force is zero0104104
2The net force is vertically above to the ground surface68068
3The net force is vertically below to the ground surface145
4The net force acts in the direction of pendulum movement033
5033

이미지 컨투어 방식을 활용한 화살표 답안 자동 채점은 매우 높은 정밀도와 재현율을 보였으며, 일부 사례를 제외하고는 인간 채점과 같은 결과를 얻을 수 있었다. 자동 채점과 인간 채점이 일치하지 않는 사례를 살펴보면 보조선 활용, 독특한 화살표의 형태, 희미한 답안 표기 등의 원인이 있었다. 자동 채점 연구가 축적되고, 기술이 향상되어 추후 고부담 평가에도 활용될 때는 이러한 오분류 사례가 문제를 초래할 수 있다. 따라서 자동 채점을 고부담 평가에서 사용한다면 모든 답압을 자동 채점하는 것보다, 오분류할 가능성이 높은 답안은 자동 채점하지 않고 판단 보류로 설정하는 방법을 제안한다. 판단 보류된 답안만 인간 채점을 수행한다면 더 높은 채점 정확도를 얻을 수 있을 것이며, 본 연구와 같이 오분류 사례의 특징을 수집하여 채점에 반영하면 자동 채점의 안정성을 더욱 높일 수 있을 것으로 보인다.

자동 채점을 위해 얻은 화살표의 길이와 각도(방향)는 정량화된 값이므로 이를 이용하여 답안을 자동으로 군집화할 수 있었다. 군집화 결과 학생들의 개념 유형을 파악할 수 있었으며, 각 군집별 응답 비율도 확인이 가능하였다. 기존의 이미지 분류 방식의 자동 채점은 채점을 위한 모델을 만들 때 설정한 클래스로만 답안이 분류되고, 클래스의 개수가 늘어날수록 모델 생성에 더 많은 데이터가 필요하다. 본 연구에는 클래스를 미리 지정하지 않고 자동 채점 과정에서 얻어지는 데이터를 이용해 군집화하였므로, 답안의 군집화에 효율적일 뿐만 아니라 미리 예상하지 못한 학생 답안 유형을 확인할 수 있다는 특징이 있다.

또한, 이미지 컨투어를 활용한 자동 채점은 화살표의 크기와 방향을 확인하고자 하는 다양한 평가 문항에도 적용할 수 있을 것으로 보인다. 선행 연구[17, 18, 19]에서 자동 채점을 위해 학생 답안 중 2,000개 이상을 미리 인간 채점하고 이를 자동 채점 모델 생성용 데이터로 사용한 것에 비해, 본 연구에서는 모델 생성용 데이터를 전혀 사용하지 않았다. 254개의 소규모 데이터에 대한 자동 채점 결과 매우 높은 채점 정밀도를 확인할 수 있었으므로 합력, 운동량, 속도 등 화살표와 관련된 다양한 개별 문항에 대한 자동 채점이 이루어질 수 있을 것으로 기대된다. 다만, 본 연구에서 이루어진 연구는 이미지 내에 하나의 화살표만 존재할 때 적용할 수 있는 방법이므로, 여러 개의 화살표를 이용하여 답안을 구성하는 자유 물체도 문항 같은 경우는 이를 보완할 방법이 필요하다.

다만, 희소한 비율로 발생하는 인공지능의 오류에 대한 숙고도 필요하다. 극히 드물더라도 자동 채점 결과에 오류가 발생할 수 있다는 우려가 있으므로, 고부담 평가에 자동 채점을 사용하는 경우 채점의 정확도와 신뢰도 향상을 위한 추가적인 방안이 요구될 것으로 보인다. 또한 자동 채점의 활용에는 기계가 제공한 평가 결과에 대한 피험자의 신뢰가 필요하므로, 기술 개선과 함께 자동 채점에 대한 인식 조사 및 자동 채점의 안정성에 대한 안내도 이루어져야 할 것이다.

  1. V. González, P. Prendes and R. Roig, Artificial Intelligence for Student Assessment: A Systematic Review, Appl. Sci. 11, 5467 (2021).
    CrossRef
  2. G. Carleo, et al., Machine learning and the physical sciences, Rev. Mod. Phys. 91, 045002 (2019).
    CrossRef
  3. S. Goldt and U. Seifert, Stochastic Thermodynamics of Learning, Phys. Rev. Lett. 118, 010601 (2017).
    CrossRef
  4. Y. LeCun, Y. Bengio and G. Hinton, Deep learning, Nature 521, 436 (2015).
    CrossRef
  5. H. Jho, Exploration of Predictive Model for Learning Outcomes of Students in the E-learning Environment by Using Machine Learning, J. Learner-Centered Curri. Instr. 18, 553 (2018).
    CrossRef
  6. J. Lee and D. Kim, D and I. Jo, Exploration of Predictive Model for Learning Achievement of Behavior Log Using Machine Learning in Video-based Learning Environment, J. Korean Assoc. Comput. Educ. 23, 53 (2020).
    CrossRef
  7. H. Peng, et al., Online Learning Behavior Analysis and Achievement Prediction with Explainable Machine Learning. In Artificial Intelligence Security and Privacy (Springer, Singapore, 2023), pp. 22-37.
    CrossRef
  8. B. Kim, Y. Park, E. Shin and J. Lee, Impact of Artificial Intelligence-based Adaptive Learning Program on Students’ Academic Performance: Evidence from a Randomized Controlled Trial in a Daegu Middle School, Korean Assoc. Appl. Econ. 24, 5 (2022).
  9. D. D. Diren and M. B. Horzum, Artificial Intelligence Based Adaptive Learning Model for Distance Learning Readiness. In Artificial Intelligence Education in the Context of Work (Springer, Cham, 2022), pp. 139-154.
    CrossRef
  10. M. Ha, Scoring Korean Written Responses Using English-Based Automated Computer Scoring Models and Machine Translation: A Case of Natural Selection Concept Test, J. Korean Assoc. Sci. Educ. 36, 389 (2016).
    CrossRef
  11. M. Ha, et al., Assessment as a learning tool and utilization of artificial intelligence: WA3I project case, Sch. Sci. J. 13, 271 (2019).
    CrossRef
  12. S. Huawei and V. Aryadoust, A systematic review of automated writing evaluation systems, Educ. Inf. Technol. 28, 771 (2023).
    CrossRef
  13. O. L. Liu, et al., Validation of automated scoring of science assessments, J. Res. Sci. Teach. 53, 215 (2016).
    CrossRef
  14. M. Lee and S. Ryu, Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches, J. Korean Assoc. Sci. Educ. 40, 321 (2020).
    CrossRef
  15. M. Lee and S. Ryu, Automated Scoring of Argumentation Levels and Analysis of Argumentation Patterns Using Machine Learning, J. Korean Assoc. Sci. Educ. 41, 203 (2021).
    CrossRef
  16. Y. Kumar, et al., Automatic Essay Scoring Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses, Dialogue Discourse 14, 1 (2023).
    CrossRef
  17. J. Lee, Exploring the Possibility of Automatic Scoring for Graphical Responses Using a Convolutional Neural Network, New Phys.: Sae Mulli 73, 138 (2023).
    CrossRef
  18. J. Han and H. Kim, The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model, J. Korean Assoc. Sci. Educ. 43, 237 (2023).
    CrossRef
  19. M. V. Davier, L. Tyack and L. Khorramdel, Scoring Graphical Responses in TIMSS 2019 Using Artificial Neural Networks, Educ. Psychol. Meas. 83, 556 (2023).
    CrossRef
  20. D. Yu, Y. Kim, S. Han and B. Won, CLES-BERT: Contrastive Learning-based BERT Model for Automated Essay Scoring, J. KIIT 21, 31 (2023).
    CrossRef
  21. J. Kim and H. Choi, Semantic Indoor Image Segmentation using Spatial Class Simplification, J. Internet Comput. Serv. 20, 33 (2019).
    CrossRef
  22. G. Lee and M. Ha, The Present and Future of AI-based Automated Evaluation: A Literature Review on Descriptive Assessment and Other Side, J. Educ. Technol. 36, 353 (2020).
  23. H. Lee, S. Woo and B. Park, Physics Laboratory Syllabus for Vector Operations, New Phys.: Sae Mulli 60, 710 (2010).
    CrossRef
  24. J. Fang, Z. Feng and B. Cai, DrawnNet: Offline Hand-Drawn Diagram Recognition Based on Keypoint Prediction of Aggregating Geometric Characteristics, Entropy 24, 425 (2022).
    CrossRef
  25. M. Bresler, D. Průša and V. Hlaváč. in Proceedings of the 20th Computer Vision Winter Workshop (2015).
  26. C. Shanmugam, et al., Meta-analysis of the robustness of COVID-19 diagnostic kit performance during the early pandemic, Br. Med. J. 12, 1 (2022).
    CrossRef
  27. H. B. Zhou and J. T. Gao, Automatic Method for Determining Cluster Number Based on Silhouette Coefficient, Adv. Mater. Res. 951, 227 (2014).
    CrossRef