Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2023; 73: 138-149
Published online February 28, 2023 https://doi.org/10.3938/NPSM.73.138
Copyright © New Physics: Sae Mulli.
Jaebong Lee*
Korea Institute for Curriculum and Evaluation, Jincheon 27873, Korea
Correspondence to:*E-mail: jblee@kice.re.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
In this paper, we propose an automatic scoring method for graphical responses in large-scale evaluation. We used pre-trained Inception V3 as one of the convolutional neural network (CNN) models. We applied the CNN algorithm using the orange data mining software. The results showed that the agreement degrees for blank answers, correct answers, and wrong answers differed slightly, but overall, the agreement degree was high, close to 1, and even for correct answers, the recall was 0.853. The CNN-based automatic scoring approach showed a good agreement degree and thus can be applied to real-world tests. We propose a technique to replace one human scorer or to score responses in combination with CNN.
Keywords: Automatic scoring, Physics education, Theory of testing and techniques
본 연구에서는 대규모 평가에서 그림으로 그리는 답안에 대한 자동 채점 방법을 제안하고자 한다. 연구에서는 그래픽 답안을 자동 채점하는 방법으로 합성곱 신경망의 하나인 사전 학습된 Inception V3, 그리고 합성곱 신경망 알고리즘을 적용하기 위해 오렌지 데이터 마이닝을 이용하였다. 연구 결과, 공백 답안, 옳은 답안, 틀린 답안이 다소 다른 일치도를 보였으나 전체적으로 1에 가까운 매우 높은 일치도를 보였으며, 옳은 답안의 경우에도 재현율이 0.853이었다. 합성곱 신경망을 이용한 자동 채점 방법이 매우 정확한 일치도를 보여 실제 시험에서 적용할 수 있을 것으로 판단된다. 연구에서는 훈련을 위해 대략 전체 답안의 10%가 필요함을 알 수 있었으며, 실제 적용에서는 복수의 채점에서 인간 채점자 한 명을 대체하거나 두 가지 서로 다른 합성곱 신경망 모형을 적용한 후에 불일치되는 것만 채점하는 방안을 제안하였다.
Keywords: 자동 채점, 물리교육, 평가 기법
빅데이터 분석이나 기계 학습으로 대변되는 컴퓨터 기술 혹은 지능정보 기술의 발달은 산업이나 사회의 많은 분야에서 다양하게 활용되어 빠른 변화와 혁신을 가져오고 있다. 이러한 지능정보 기술의 발달은 교육 분야에서도 많은 변화를 끌어내고 있다. 코로나19를 지나면서 이제 온라인 학습은 특별한 것이 아닌 매우 일반적인 교수학습 환경이 되었으며, 교사의 교수학습 환경을 지원하기 위해 인공지능(AI)에 기반을 둔 다양한 지원 도구를 개발하는 연구도 점차 증가하고 있으며, 교육 평가에서도 다양한 컴퓨터 기능을 활용한 많은 시도가 이루어지고 있다. 평가에서 지필평가가 아닌 컴퓨터 기반 평가를 도입하는 추세이며, 이를 활용하여 학생 개개인에 맞춤형 피드백을 제공하고자 하는 시도가 공교육 분야뿐만 아니라 사교육에서도 나타나고 있다.
최근 대규모 표준화 평가인 학업성취도 평가에서도 컴퓨터 기반 평가로 대부분 전환하고 있다. 예를 들어, OECD가 주관하는 PISA는 2006년부터 각 시행 주기에서 주영역에 대해 순차적으로 컴퓨터 기반 평가를 도입하여 PISA 2015부터는 전면적으로 시행하고 있으며, IEA가 주관하는 TIMSS도 TIMSS 2019에서 지필평가와 컴퓨터 기반 평가를 병행 시행하였으며, TIMSS 2023부터는 컴퓨터 기반 평가로 완전히 전환할 예정이다. 국내 학업성취도 평가도 2021년에 컴퓨터 기반 평가와 지필평가를 병행 시행하였으며, 2022년에 전면적으로 컴퓨터 기반 평가를 도입하였다[1].
컴퓨터 기반의 평가를 도입하면서 함께 부상하는 또 다른 이슈는 자동 채점에 관한 문제이다. 지필평가에서는 OMR을 사용하는 선다형 문항 외에서는 학생의 응답이 디지털화되지 않는다. 그러나 컴퓨터 기반 평가에서는 학생이 응답을 컴퓨터나 태블릿을 활용하여 제출하기 때문에 모든 응답이 디지털화되며, 이를 활용하여 채점을 쉽게 진행하고 적절한 피드백 제공에 활용하고자 하는 노력이 요구되고 있다. 평가에서 중요한 것은 평가 그 자체보다 학생에게 학생의 반응에 기초하여 적당한 피드백을 제공하는 것이다. 따라서 컴퓨터 기반 또는 디지털화된 평가에서 학생에게 적당한 피드백을 빨리 제공해야 한다는 측면에서 자동화된 채점의 필요성이 더욱 중요하게 되었다. 교육부에서는 맞춤형 학업성취도 평가에서 컴퓨터 기반 평가를 실시한다고 발표하였다. 컴퓨터 기반 평가에서는 평가 실시 후에 즉각적인 피드백을 제공해 줄 것이 기대되기 때문에 많은 다양한 유형의 문항이 활용되기 위해서는 자동 채점이 가능하도록 해야 한다.
지필평가뿐만 아니라 컴퓨터 기반 평가에서는 선택형 문항뿐만 아니라 서답형을 포함한 구성형 문항을 다양하게 활용하고 있다. 구성형 문항은 학생이 문항에서 제시된 발문 내용에 대해서 글이나 그림을 통해 자신의 지식과 생각을 다양한 방식으로 표현할 수 있다는 측면에서 더 높고 다양한 사고 능력을 측정할 수 있다. 그러나 이러한 문항을 검사에 많이 포함하는 데에는 한계가 있는데, 채점 결과의 객관성이나 공정성 확보 문제, 채점에서 채점 시간이 오래 걸리고, 채점자 간의 주관적인 판단이나 채점의 피로 등으로 채점의 결과가 일치하지 않는 등의 문제점이 나타나고 있다[2,3]. 따라서 실제 서답형 문항의 채점에서는 채점자를 복수로 선정하여, 복수 채점자의 채점 결과가 일치할 때까지 여러 단계(round)를 두거나 채점자의 점수를 평균을 내기도 하며, 채점자 간 점수의 차가 일정 정도 이상일 때까지 재채점하는 방법으로 이를 보완하고 있다. 따라서 학교 현장에서 선택형뿐만 아니라 서술형을 포함한 구성형 문항이 확대되기 위해서는 자동 채점이 확대되어야 하고, 이를 위해 최근 기계 학습 이론을 자동 채점에 적용하기 위한 다양한 연구가 이루어지고 있다.
그동안 자동 채점에 대한 다양한 접근이 있었는데, 초기에는 영어로 쓰인 에세이에 대한 것이 많았으나 한국어에 대한 자동 채점 시도도 증가하고 있다. 한국어 답안의 경우 한국교육과정평가원에서는 2012년부터 연구를 시작하여, 2014년에 자동 채점의 프로토타입을 개발하고, 2015년에는 기능을 보완하여 문장 수준 자동 채점 프로그램을 개발하였다[4-7]. 최종적으로는 자동 채점의 일치도가 96%정도였다. 단답형이나 문장 수준이 아닌 서·논술형 답안의 자동 채점 가능성을 탐색하는 연구도 진행되었는데, 세종한국어평가시험의 자동 채점에 랜덤 포레스트 알고리즘을 적용하여 가능성을 탐색하였으나 인간 채점자의 점수와 자동 채점 점수 간의 상관이 영역별로 0.444–0.572에 불과하여 아직 적용에는 한계를 보이기도 하였다[8]. 채점자질(scoring feature)에 기반한 랜덤 포레스트(random forest) 채점 모델이 KoBERT 기반 채점 모델보다 우수한 성능을 보이는 것으로 확인되었으나 여전히 낮은 일치도를 보였다[9].
과학 분야에서도 자동 채점에 대한 연구가 진행되었는데, 미국의 평가 전문기관인 ETS에서 개발한 C-Rater-ML를 활용한 연구[10], 복잡한 채점 기준 적용에 관한 연구[11] 등이 있었다. 국내에서도 랜덤 포레스트와 순환신경망 등을 활용하여 서술형 평가 문항을 자동 채점하는 WA3I 프로그램을 개발한 연구가 있었다[12,13]. 과학의 논증에서 자동 채점을 수행한 경우도 있는데, 논증 수업 중 학생 응답을 대상으로 논증 패턴을 이용해 자동 채점에 적합한 몇 가지 논증 요소로 자동 채점을 수행하였는데[14,15], 국내 연구에서는 최대 65.96%의 채점 정확도를 얻었고[16], 논증 피처에 대한 n-gram을 활용하여 과학적 논증에 대한 자동 채점의 성능을 개선하여 자동 채점의 정확도를 최대 85%, 평균 78% 정도로 향상하기도 하였다[17].
선행 연구에 의하면 서술형 문항 자동 채점은 여전히 한계를 지니고 있는데, 자연어 처리의 기술적 한계, 채점 신뢰도 문제, 인간 사용자의 신뢰와 인위적 속임, 고부담 시험에서의 윤리적 한계를 지적할 수 있으며, 이러한 문제로 단기적으로 학습 지원 도구로 활용할 수 있지만, 향후에는 텍스트뿐만 아니라 시각적 표상에 대한 자동 채점으로 발전할 수 있다고 하였다[18]. 또한, 초중등교사의 서술형 자동 채점에 대한 정서와 수용 의도를 살펴본 결과[19], 많은 교사가 수용할 수 있다고 하였으나 약 32%정도가 비수용 의견을 나타냈는데, 시스템이 얼마나 유용한지, 위험하지는 않은지에 대한 인식이 프로그램의 수용 여부에 큰 영향을 주고 있어, 유용성과 신뢰도에 대한 검증이 무엇보다도 중요함을 알 수 있다.
그러나 이러한 연구들의 대부분이 텍스트 기반의 문장에 기반한 답안에 초점을 두고 있다. 그러나 구성형 문항은 서답형 외에 그래픽/그림 그리기 유형이 있다. 특히, 물리에서 학생들이 자신이 가진 물리에 대한 개념을 그림이나 그래프로 나타내는 활동은 학습과 평가에서 매우 중요한 역할을 하고 있다. 예를 들어 역학에서 운동 상태를 그래프로 표현하거나 물체가 받는 모든 힘을 표시하는 자유물체도 그리기, 열역학에서 입자의 밀도나 운동 상태 표현하기, 전자기에서 전기장이나 자기장을 그림으로 표현하거나 전기회로도 그리기, 광학에서 거울과 렌즈에 의한 상을 그리는 광선 추적, 현대물리에서 파동함수의 모습 그리기 등은 물리에서 그림 그리기를 활용하는 전형적인 상황이다. 그러나 이러한 활동은 그동안 교수학습 활동이나 수행평가 형태로 활용되고, 대규모 평가 등에서는 주로 몇 가지 그림에서 옳은 그림을 고르는 선다형 형태로 출제되었다. 이것은 학생들이 그린 다양한 그림을 채점하는 데 시간과 비용이 많이 소요되는 것이 하나의 원인이었다. 한편, Sireci와 Zenisky는 컴퓨터 기반 평가에서 활용할 수 있는 다양한 문항 유형을 정리하였는데, 그래프 완성형(graphical modeling)은 자료를 보고 미완으로 제시된 그래프 완성하는 유형으로 기하 모양에 일부분 색칠하기, 막대 그래프 완성하기 등의 문항을 예시로 제시하였다[20]. 컴퓨터 기반 학업성취도 평가에서 활용할 문항 유형을 제안한 연구에서도 그래픽/그림 완성형 문항 유형을 제시하고 있다[1]. 이 유형은 컴퓨터 기반 평가 문항의 특색을 가장 두드러지게 보여주는 유형으로서, 그림판을 활용하여 자유 드로잉으로 답안을 완성하거나 격자형으로 제시된 화면에서 그래프 생성 기능을 활용하여 그래프를 작성할 수 있다. 그러나 여기에서도 이러한 문항 유형이 자동 채점의 가능성이나 채점 기준 측면에서도 엄밀한 논의가 필요하다는 점에서 적용 가능성에 있어서 장기 과제가 될 수밖에 없다고 하였으나, 기계 학습으로 대표되는 인공지능 기술의 발전은 자동 채점의 가능성을 높일 수 있으며, 이러한 문항 유형의 적용 가능성도 높일 수 있다.
최근 딥러닝(deep-learning) 등 기계 학습 기술은 다양한 분야에 적용되어 뛰어난 성능을 보여주고 있다. 이미지를 분석하는 작업에도 이를 활용할 수 있는데, 기계 학습은 정교한 이미지 처리를 위한 새로운 시도이지만 높은 성능을 보여주기 때문에 이미지 분류는 기계 학습의 대표적인 응용의 예로 여겨지고 있기도 하다. 특히 합성곱 신경망(convolutional neural network: CNN)은 매우 높은 성능을 보여주고 있다. 이미지 기반의 응답 분류는 의료 분야에서 특히 다양하게 활용되고 있다[21,22].
그래픽을 활용한 문항에 대한 자동 채점의 시도는 TIMSS 연구에서 제시된 바 있다[23]. 이 연구에서는 인공 신경망을 사용하여 TIMSS 2019 수학 문항 1문항에 대해서 이미지 응답의 자동 채점을 탐색하여 피드포워드 접근 방식(FFN)과 합성곱 신경망을 비교하였다. 이 연구에서는 50 포크 이상의 훈련된 모델은 FFN에 대해 83.86% 정확도, 합성곱 신경망에 대해서 92.60–95.00% 정확도를 보였다.
창의성 평가의 그림 답안에 대해서 합성곱 신경망을 적용한 자동 채점도 시도되었는데[24], 이 연구에서는 학생의 수준을 2개에서 7개까지 나눈 모델에 대해서 정확도를 분류하였다. 분류의 일치도가 분류 수준이 많을수록 작아지지만 7개의 수준으로 구분할 경우에도 86.1%의 높은 일치도를 보였다. 연구자는 창의성 평가에서 자동화된 채점이 객관적이고 저비용으로 채점하기 때문에 매우 유용하다고 지적하였다.
본 연구에서는 물체의 뜨고 가라앉음을 그림으로 표시하는 문항을 활용하여, 과학에서 그래픽/그림 그리기 문항의 자동 채점의 가능성을 탐색해 보고자 한다. 본 연구에서 설정한 연구 문제는 다음과 같다. 첫째, 기계 학습 모델, 특히 합성곱 신경망 모델을 활용해서 그래픽 답안에 대한 자동 채점이 가능한가? 둘째, 자동 채점을 위해 분류기로 어떠한 분류 모형을 사용하는 것이 적절한가? 셋째, 자동 채점을 위해서는 사전 훈련 데이터가 필요한데, 자동 채점을 위해서는 얼마나 많은 사전 채점 답안이 필요한가?
이를 위해 다음과 같은 연구 방법에 따라 연구를 수행하였다.
그동안 학업성취도 평가에서는 대규모 시험의 특성상 채점의 용이성 때문에 그래프나 그림을 직접 그리는 형태보다는 이미 그려진 것에서 선택하는 유형이 많이 출제되었으나 채점의 용이성만 해결된다면 이러한 문항이 점차 확대될 수 있을 것이다. 그래픽 답안에 대한 자동 채점 연구를 위해 학업성취도 평가에서 지필평가에서 가장 최근에 출제되었던 문항인 Fig. 1을 사용하였다[25]. 물체의 밀도를 보고, 바닷물과 물체의 밀도를 비교하여 바닷물에서 물체의 위치를 그림으로 표현하는 문항이다. 비슷한 유형의 문항이 과거에 출제된 적이 있다. 이 문항은 지필평가로 실시된 문항으로 학생들은 OMR 답안지 뒷면에 그림으로 답안을 작성하도록 하였다. 이 문항의 옳은 답안은 Fig. 1과 같이 물체 C는 바닥에 닿도록 표현하고, 물체 A와 물체 B는 기존 위치보다 위쪽에 그려서 뜬다는 것을 표현하는 것이다. 자동 채점을 위해 학생들이 작성한 답안을 스캔하여 이미지 파일로 만들어 디지털화한 자료를 활용하였다. 이 문항의 경우, 디지털화하는 과정을 별도로 거쳤으나 컴퓨터 기반 평가가 된다면, 학생들이 시험을 보면 바로 디지털화된 답안이 저장되므로 이러한 과정이 필요 없다.
이 문항에 응시한 학생은 총 5,308명이었으며, 이중 공백 답안이 1,408개, 틀린 답안이 3,329개, 옳은 답안이 491개이었다. 전체 5,308개의 이미지 답안 데이터 중 50%를 공백 답안, 틀린 답안, 옳은 답안의 비율에 맞게 무선 표집하여 훈련 데이터로 사용하고, 나머지 50%를 테스트 데이터 답안으로 설정하였다. 최종적으로 훈련 데이터 세트의 경우 전체 2,654개의 데이터 중 공백 답안 745개, 틀린 답안 1,664개, 옳은 답안 245개이었으며, 테스트 데이터 세트에서는 전체 2,654개의 데이터 중 공백답안 744개, 틀린 답안이 1,664개, 옳은 답안이 246개이었다.
딥러닝은 인공 신경망의 한계를 극복하기 위해 제안된 기계 학습으로 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술이다. 딥러닝의 일종인 합성곱 신경망은 2차원 자료인 이미지 처리 분야에서 성능이 좋은 합성곱층(convolutional layer)과 풀링층(pooling layer)을 포함하는 인공 신경망 알고리즘으로, 이미지 데이터에서 객체를 탐색하거나 객체 위치를 찾아낼 수 있어 이미지 분류, 자율주행, 영상 자동 분류 등에 활용된다. 합성곱 신경망은 레이블이 지정된 데이터를 사용하여 모형을 학습시키는 지도 학습(supervised learning)으로 모형을 훈련시킨다. 즉, 이를 적용하기 위해서는 사전에 채점된 답안이 일정 정도가 필요하다.
합성곱 신경망을 직접 적용할 수도 있지만, 사전에 비슷한 많은 자료를 활용해 학습된 사전 학습 모형(pre-training model)을 이용해 이를 약간 조정하여 문제를 해결하는 전이 학습(transfer learning)을 활용하기도 한다. 이미지 처리 분야에서 합성곱 신경망을 활용한 다양한 사전 학습 모형이 있으며, Inception V3 모형은 구글에서 개발한 것이다. ImageNet 데이터베이스의 이미지에 대해 다양한 특징을 학습한 사전 학습된 합성곱 신경망으로 이미지에 대해 약 1,000가지의 사물 범주로 분류할 수 있다.
Inception V3를 이용해서 다양한 연구들이 수행되었는데, MRI 영상을 분류하거나 흉부 X선 영상의 폐렴 진단을 분류하거나[26], 심장 비대증 환자의 흉부 X선 영상에 대한 알고리즘을 분류하여 평가하기도 하였는데[27], 심장 비대증 환자 분류에서 정상 심장에 대한 정밀도는 1, 재현율이 0.87, F1이 0.93, 비정상 심장인 심장 비대증에 대한 분류 정밀도는 0.89, 재현율이 1, F1은 0.94였다. 의학 분야뿐만 아니라 소셜 네트워크 서비스, 대중 매체를 통해 공유된 이미지 데이터를 활용하여 세계 관광지 이미지 특성을 분석하여 검색하고 분류하는 것에 활용하기도 하였다[28].
학습된 모형은 다양한 성능 지표를 통해 평가를 실시하는데, 혼동 행렬(confusion matrix)은 전체 데이터가 얼마나 잘 분류되었는지를 보여주는 행렬로, 이 값들을 이용해서 모형의 성능을 평가하는 지표를 만든다. 혼동 행렬에서 성능 지표의 주요 개념을 살펴보면 Table 1과 같다. 여기서 T/F는 실제와 예측이 일치하는지를, P/N은 무엇으로 예측했는지를 표시한다. 즉 FP는 실제 False인데 Positive로 예측한 경우를 의미한다. 이러한 지표의 값을 비교해 가면서 학습된 모형을 선택하게 된다. 지도 학습을 통해 구성된 모형의 보통 성능평가 항목으로 정확도(accuracy), 정밀도(precision), 재현율(recall), F1, AUC 등을 사용하여 평가한다. AUC는 ‘False Positive Rate’(실제값이 False인 데이터(FP+TN) 중에 예측을 True로 하여 틀린 데이터(FP)비)가 변할 때 ‘True Positive Rate(재현율)’가 어떻게 변하는지를 나타내는 곡선이 ROC인데, ROC 곡선 아래의 면적을 나타낸다. 이 값은 1에 가까울수록 좋은 성능을 의미한다. CA는 정확도로 전체 데이터 수에서 TRUE 또는 FALSE를 맞힌 확률을 의미한다. 그러나 이 지표는 전체 데이터가 한쪽에 많이 치우친 경우에는 높은 값을 나타낼 수 있기 때문에 값이 높더라고 의미가 적은 경우가 있다. 정밀도는 True를 예측한 비율, 즉 모형이 True이라고 예측한 경우 실제 True인 비율이다. 재현율은 True 중에 실제 True라고 예측한 비율이다. F1은 정밀도와 재현율을 조화 평균한 값을 의미한다. 어떠한 문제에 모형을 적용하느냐에 따라 어떠한 지표를 사용하는 것이 적절한지가 다를 수 있다. 채점의 경우를 살펴보면, 정답인 답안과 오답인 답안을 각각 정확히 분리하는 것이 중요하기 때문에 AUC를 우선적으로 고려하지만, 채점의 결과가 학생에게 불리하게 작용하지 않게 하기 위해서는 재현율 또한 높아야 할 것이다.
Table 1 The structure of confusion matrix.
Predicted values | |||
---|---|---|---|
T | F | ||
Actual values | T | TP (True Positive) | FN (False Negative) |
F | FP (False Positive) | TN (True Negative) |
* AUC: Area under the ROC(receiver operating characteristic) curve
* CA(Classification Accuracy): (TP + TN)/(TP + TN + FP + FN)
* Precision: TP/(TP + FP)
* Recall: TP/(TP + FN)
* F1: 2 × (Precision × Recall)/(Precision + Recall)
합성곱 신경망 알고리즘을 적용하기 위해서는 python이나 R을 사용하는 것이 일반적이다. 그러나 python이나 R은 명령어를 모두 입력해야 하는 조금 복잡한 코딩을 필요로 하기 때문에 일반적인 연구자나 교사에게 다소 진입의 장벽이 있는 것도 사실이다. 이러한 장벽을 개선해 주는 프로그램이 오렌지 데이터 마이닝(orange data mining)이다[29]. 슬로베니아 루블라나 대학의 연구팀이 개발하여 무료로 공개하고 있는 이 프로그램은 텍스트 코딩이 아니라 블록과 같은 코딩을 통해 다양한 분석 프로그램을 쉽게 구현할 수 있다. 프로그램을 설치하고 이미지 분석을 위한 추가적인 Image Analysis를 설치하면 쉽게 프로그램을 통해 분석할 수 있다.
먼저 답안을 Blank(공백 답안), FALSE(틀린 답안), TRUE(옳은 답안)로 분리하여 각각의 폴더를 만들고, 이를 입력받은 후 훈련 데이터에 사용할 자료(이미지)의 수만큼을 표집한다. 여기서는 실제 공백 답안, 옳은 답안, 틀린 답안의 수에 비례하여 표집을 하도록 설정하였다. Image Embeding 아이콘을 선택하면 Inception V3, VGG-16, VGG-19 등 총 6개의 모형을 사용하여 이미지에서 특징적인 부분을 추출할 수 있다. 이렇게 분석된 자료를 지도 학습을 통해 군집을 분리하는 KNN, SVM, Random Forest, Logistic Regression, Neural Network 등을 이용해서 모형을 만들고 이를 평가할 수 있다. 모형의 검증 데이터는 10겹의 교차 검증을 사용하였다.
Figure 2는 이러한 과정을 오렌지 데이터 마이닝에서 간단히 구현한 것을 보여준다. 여기서 보면 매우 직관적으로 프로그램의 흐름을 알 수 있기도 하지만 쉽게 결과를 얻을 수 있다. 치주 질환을 진단하는 방법으로 앙상블 기법에 대해 오렌지 데이터 마이닝을 사용하는 방법을 단계별로 안내하는 연구가 수행되기도 하였다[30].
앞서 기술한 것과 같이 오렌지 데이터 마이닝에서는 Image Analytics를 추가하고 Image Embedding에서 Inception V3를 이용해 이미지에서 특징적인 부분을 추출하고 이것을 분류기를 통해 분류해 내면 이미지를 분류할 수 있다. Incepetion V3의 사전 학습된 모형을 통해 분석된 이미지 특성 자료를 어떠한 분류기를 이용하는 것이 분류의 성능이 좋은지를 살펴보았다. 모형의 적합도를 테스트하기 위한 자료는 전체 5,308개의 답안을 절반으로 나누어 2,654개만을 사용하였다. 총 5가지 모형(kNN, SVM, Random Forest, Neural Network, Logistic Regression)에 대해서 전체 답안(ALL), 공백 답안(BLANK), 틀린 답안(FALSE), 옳은 답안(TRUE)에 대해서 얼마나 잘 분류하는지를 분석하였다. 교차 검증으로 모형의 정확도를 평가하였는데, 10-fold 교차 검증을 사용하였다. 이것은 훈련 데이터를 10개로 분류하고, 9개는 훈련 데이터로 사용하고, 1개를 검증 데이터로 사용하는 과정을 반복해서 모형을 검증하는 방법이다. 이러한 방법에 따라 5개의 모형에 대해 각각의 성능 지표를 살펴본 것이 Table 2이다. 전체적으로 볼 때, 높은 일치도를 보이는 것을 알 수 있다.
Table 2 AUC, CA, F1, Precision, Recall scores for classification models.
Model | Target Class | AUC | CA | F1 | Precision | Recall |
---|---|---|---|---|---|---|
kNN | ALL | 0.986 | 0.955 | 0.954 | 0.953 | 0.955 |
SVM | 0.997 | 0.971 | 0.972 | 0.973 | 0.971 | |
Random Forest | 0.982 | 0.933 | 0.919 | 0.932 | 0.933 | |
Neural Network | 0.997 | 0.971 | 0.971 | 0.971 | 0.971 | |
Logistic Regression | 0.998 | 0.976 | 0.976 | 0.976 | 0.976 | |
kNN | BLANK | 0.999 | 0.997 | 0.995 | 0.991 | 1 |
SVM | 1 | 0.998 | 0.997 | 1 | 0.995 | |
Random Forest | 1 | 0.998 | 0.997 | 0.995 | 1 | |
Neural Network | 1 | 0.998 | 0.996 | 0.992 | 1 | |
Logistic Regression | 1 | 0.999 | 0.999 | 0.997 | 1 | |
kNN | FALSE0.985 | 0.955 | 0.965 | 0.957 | 0.972 | |
SVM | 0.997 | 0.971 | 0.977 | 0.982 | 0.972 | |
Random Forest | 0.979 | 0.933 | 0.949 | 0.909 | 0.992 | |
Neural Network | 0.996 | 0.971 | 0.977 | 0.977 | 0.977 | |
Logistic Regression | 0.998 | 0.976 | 0.981 | 0.978 | 0.983 | |
kNN | TRUE | 0.958 | 0.958 | 0.755 | 0.812 | 0.706 |
SVM | 0.992 | 0.973 | 0.859 | 0.826 | 0.894 | |
Random Forest | 0.95 | 0.934 | 0.479 | 0.899 | 0.327 | |
Neural Network | 0.991 | 0.973 | 0.853 | 0.866 | 0.841 | |
Logistic Regression | 0.994 | 0.977 | 0.871 | 0.889 | 0.853 |
우선 공백 답안의 경우 5가지 모형이 거의 비슷하게 일치도가 매우 높은 것을 알 수 있다. 여기서 공백인지 아닌지에 대해서 서로 다르게 나타나는 사례는 답안에서 앞면의 OMR 답안 체크가 뒷면에 함께 나타난 경우, 스캔 과정에서 일정한 패턴이 생긴 경우 등이 있었다. 틀린 답안의 경우가 정답의 경우보다 모형에 대한 적합도가 높은데, 이것은 전체적으로 오답의 비율이 정답보다 높기 때문이다. 즉 예를 들어 10개가 잘못 분류된다고 할 때, 틀린 답안에서는 전체 개수가 많아 그 비율이 작게 나타나지만, 옳은 답안의 경우 전체 개수가 적기 때문에 그 비율이 크게 나타난 것이다. 이것은 적합도 평가에서 CA만을 사용할 경우, 원하는 것보다 크게 적합도가 나타날 수 있음을 의미한다. 옳은 답안의 경우는 재현율이 다소 낮은 것을 볼 수 있다. 5가지 분류기를 전체적으로 평가해 볼 때, Logistic Regression이 전체적으로 우수한 것을 볼 수 있다. Figure 3은 ROC 곡선을 나타내는데, Logistic Regression 모형이 초기부터 1에 급격히 가까워지는 것을 볼 수 있다. 즉, 이 모형이 5가지 중에 가장 적합하다고 판단할 수 있다.
Logistic Regression으로 자동 채점 모형을 구성할 때, 전체 답안의 경우에 AUC는 0.998, 정확도는 0.976, F1은 0.976, 정밀도가 0.976, 재현율이 0.976이었으며, 옳은 답안도 AUC는 0.994, 정확도는 0.977, F1 0.871, 정밀도가 0.889, 재현율이 0.853이었다. 정밀도가 공백 답안의 경우 99.9%이고, 틀린 답안과 옳은 답안도 97.6–97.7%로 매우 높아 자동 채점에 실제 적용할 가능성이 매우 큰 것을 볼 수 있다. 다만, 옳은 답안의 경우 85.3%의 재현율을 보여 다소 낮아 이를 보강할 방법이 고안될 필요가 있을 것으로 보인다.
앞서 구성한 자동 채점 모형 즉, Inception V3와 Logistic Regression 적용한 자동 채점 모형이 실제 훈련에 사용되지 않은 자료를 얼마나 잘 채점하는지를 예측한 결과, Table 3과 같다. Table 3에는 훈련 데이터와 테스트 데이터를 각각 얼마나 잘 채점하는지를 보여준다. 앞에서 학습한 모형이 훈련 데이터가 아닌 테스트 데이터 즉 실제 자료에서도 매우 정확한 분류 예측력을 보여주는 것을 볼 수 있다. 따라서 자동 채점을 구성한 모형이 타당하다는 것을 알 수 있다. 다만, 앞에서 훈련 데이터와 같이 옳은 답안의 경우 잘못 분류한 경우가 일정 정도가 있어 재현율이 다소 낮은 것을 볼 수 있어, 실제 적용을 위해서는 모형을 개선하거나 자동 채점을 적용하는 절차를 마련할 필요가 있다.
Table 3 The confusion matrix of train set and test set.
Train set | Test set | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Predicted | Predicted | ||||||||||||
BLANK | FALSE | TRUE | ∑ | BLANK | FALSE | TRUE | |||||||
Actual | BLANK | 745 (100.00%) | 0 (0.00%) | 0 (0.00%) | 745 | Actual | BLANK | 742 (99.70%) | 2 ( 0.30%) | 0 (0.00%) | 744 | ||
FALSE | 2 (0.10%) | 1636 (98.30%) | 26 (1.60%) | 1664 | FALSE | 3 (0.20%) | 1618 (97.20%) | 43 (2.60%) | 1664 | ||||
TRUE | 0 (0.00%) | 36 (14.70%) | 209 (85.30%) | 245 | TRUE | 0 0.00% | 20 (8.10%) | 226 (91.90%) | 246 | ||||
∑ | 747 | 1672 | 235 | 2654 | ∑ | 745 | 1640 | 269 | 2654 |
앞서 구성한 자동 채점 모형을 이용하여 테스트 데이터 2,654개를 채점하였을 때, 인간 채점과 달리 잘못 분류한 사례가 어떠한 경우인지 살펴보고자 한다. Table 3에서 보면 틀린 답안을 공백 답안으로 인식한 경우가 3개, 공백 답안을 틀린 답안으로 분류한 사례가 2개, 틀린 답안을 옳은 답안으로 분류한 사례가 43개, 반대로 옳은 답안을 틀린 답안으로 분류한 사례가 20개 였다. 총 68개가 잘못 분류된 사례이다. 이들 사례를 비슷한 범주별로 다시 분류해 보면 Fig. 4와 같다.
우선 틀린 답안을 공백 답안으로 인식한 사례는 물체 3개를 바닥에 그려놓거나 답안에 의미 없는 표식이 있는 경우이다. 공백 답안을 틀린 답안으로 인식하는 경우는 답안 일부를 쓰다가 지운 경우가 많았다. 물론 전체 답안에 대한 채점 결과를 살펴본 결과, 물체의 크기나 표식의 크기가 서로 다르기는 하지만, 물체 3개를 바닥에 그려놓거나 유사한 그림을 틀린 답안으로 옳게 분류한 예도 있었다. 이처럼 비슷한 유형이라고 판단되는 것이 동일하게 분류되지 않는 사례도 나타났다. 즉 이렇게 물체 3개를 바닥에 그려놓은 경우 공백 답안으로 분류될 가능성이 큰 것이지, 반드시 비슷한 유형이 동일하게 공백 답안으로 분류된다고 추론해서는 안 된다는 것을 알 수 있다. 이것은 모든 답안이 물체의 크기나 위치가 모두 다르므로 이중 합성곱 신경망을 통해 학습했을 때, 어느 특성들이 조합되어 답안 분류에 사용되는지를 거꾸로 유추할 수 없기 때문이다.
틀린 답안을 옳은 답안으로 분류한 사례를 살펴보면, 우선 채점 기준에 어느 정도 부합하지만 완전히 일치하지 않고 일부만 오류가 있는 경우가 있었다. 이 문항에서 옳은 답안은 물체 C는 바닥과 닿은 것으로 표시하고, 물체 A와 물체 B는 수면과 만나거나 위에 표시해서 물체가 바닷물에 뜬다는 의미로 표시했어야 한다. 그러나 학생에 따라 물체 C를 완전히 바닥에 닿게 그리지 않았으나 바닥에 놓여 있는 것으로 표시했을 가능성이 있는 경우나, 물체 A와 B가 물속보다 바닷물에서 떠오른다고 생각하여 조금 위로 그렸지만, 수면과 만나도록 그리지 않은 경우가 있었다. 이러한 의도였다면 분명 옳은 답안으로 판단할 가능성이 있기 때문에 인간 채점에서도 답안에 따라 정오답을 달리 판단할 수 있을 것이다. 이러한 사례가 18개였는데, 채점 기준을 폭넓게 적용한다면 기계 학습에 의해 판단한 것이 옳게 분류했다고 할 수도 있다. 그리고 7개는 3개의 물체를 수면이나 바닥과 나란하게 표시한 경우였으며, 8개는 답안을 작성하다가 필기도구로 다시 지우고 그려서 답안이 매우 복잡하게 그려진 경우였다. 기타 10개는 명확히 틀린 답안이나 자동 채점 모형에서 잘못 분류된 사례였다.
옳은 답안을 틀린 답안으로 분류한 사례를 살펴보면, 정확하게 특징을 일반화하여 설명하는 데에는 다소 위험성이 있지만 물체 C를 매우 작게 표시하고, 물체 A와 물체 B에서 A, B를 너무 작게 표시하여 그 글씨를 알아보기 어렵게 표시한 경우가 5개가 있었다. 그리고 특별한 이유를 찾기 어려운 경우가 9개였으며, 답안을 그렸다가 수정한 경우가 6개였다.
이상의 잘못 분류 사례를 종합해 보면, 합성곱을 이용한 자동 채점 모형에서는 학생들이 답안을 작성하고 지우거나 특정한 글자를 적는 등 전체 답안과 다른 특이한 답안을 작성하는 경우에 인간 채점과 다르게 잘못 분류될 가능성이 큰 것을 알 수 있다. 그러나 일부 답안의 경우, 인간의 주관적인 판단이 아닌 이미지의 특징에만 기초하여 답안을 분류하기 때문에 인간 채점자에게 다시 판단할 기회를 제공해 줄 수 있는 사례도 나타났다. 따라서 일부 유형 예를 들면, 작성하다가 지운 답안과 같이 자동 채점에서 분류의 정확도가 떨어지는 경우는 합성곱 신경망을 활용해 미분류 답안으로 분류하여 인간 채점하도록 할 수도 있을 것으로 판단된다.
합성곱 신경망을 이용한 이미지 분류는 기계 학습 방법 중에 지도 학습이다. 이것은 모형을 적용하기 위해서는 일정 개수 이상의 이미지에 대한 라벨링, 즉 실제 답안을 채점된 결과가 있어야함을 의미한다. 앞서의 논의에서는 적절한 수의 훈련 데이터가 얼마인지는 분석하지 않고 임의로 50%를 훈련 데이터로 사용하였으나, 이것은 실제 자동 채점에 적용하기에는 사전에 채점해야 할 양이 너무 많아 실효성이 적다. 합성곱 신경망을 이용한 채점을 실제 적용한다고 할 때, 얼마나 많은 가채점의 답안이 필요한지를 정하는 것이 중요하다.
이를 위해서 전체 답안에서 5%, 10%, 15%, 20%, 25%를 재표집하여 훈련 데이터로 사용하고, 테스트 데이터로 초기에 구분하여 놓은 50%를 이용해 모형을 평가하여 모형의 적합도는 어떻게 달라지는지를 살펴보았다. 이 과정에서 표집을 할 때, 훈련 데이터 2,654개에서 임의로 재표집하기 때문에 표집을 실시할 때마다 서로 다른 훈련 데이터를 사용하게 된다. 따라서 본 연구에서 각 표집에 대해서 50번을 반복하여 표집하면서 모형을 평가하여 결과를 산출하였다. 결과는 Fig.5와 같다.
Figure5에서 보면, 공백 답안의 경우에는 5%만 훈련 데이터로 사용하더라도 거의 일치도가 1에 가깝게 분류하는 것을 알 수 있으며, 옳은 답안은 각 성능 지표의 지수가 약 0.5–1 사이에서 나타나서 훈련 데이터가 충분히 확보될 필요가 있음을 알 수 있다. 또한, Fig.5에서 보면 표집의 비율이 증가할수록 모형 적합도 지수의 변동폭이 작아지는 것을 알 수 있다. 이것은 표집이 작을 때는, 어떠한 학생 답안 이미지가 훈련 데이터로 사용되느냐에 따라 모형의 적합도에 크게 영향을 미침을 의미한다. 또한 각 지수가 전체 답안을 훈련 데이터로 사용했을 때의 값에 근접하게 수렴하는 것을 알 수 있다. 그리고 지수의 평균값이 표집의 비율에 따라 변화하는 정도를 살펴보면, 변화폭이 점점 감소하고 5%에서 10%로 증가할 때가 변화의 폭이 크게 감소하는 것을 알 수 있다. 따라서 10% 정도를 훈련 데이터로 사용하는 것이 가장 효율성이 높다고 할 수 있다. 즉 5,308개의 답안을 채점한다고 가정할 때, 약 531개의 답안을 미리 인간이 채점한 후 합성곱 신경망을 통한 자동 채점을 실시하는 것이 가장 효율적이라고 할 수 있다. 그러나 자동 채점의 경우 인간 채점과의 일치도가 1이 아니므로, 구성된 자동 채점 모형을 실제 어떻게 활용할지는 평가의 목적이나 민감성, 학생의 수용도 등을 고려하여 결정할 필요가 있다.
앞서 그래픽/그림 작성형 답안에 대해서 사전 학습된 합성곱 신경망 모형인 Inception V3을 이용하여 자동 채점 모형을 구성할 경우, 실제 매우 높은 정도로 인간 채점 결과와 일치하는 결과를 얻었다. 그러나 여전히 인간 채점과는 불일치하는 사례가 나타났다. 그러나 평가에 있어서 평가 결과가 학생의 성취수준을 진단하거나 고부담 시험의 경우 정확도가 높아야 한다. 따라서 자동 채점 모형을 활용한 채점 절차를 새롭게 설계하여 이를 보완할 필요가 있다. 이를 위해서는 인공지능을 보조적인 수단으로 사용하거나 두 가지 서로 다른 합성곱 신경망 모형을 각각 적용하고, 불일치되는 것만 채점을 진행하는 두 가지 방안을 제안한다.
첫 번째 방법은 컴퓨터를 이용한 자동 채점을 인간 채점을 보조하는 수단으로 활용하는 것이다. 대규모 표준화된 평가에서는 대부분은 구성형 문항에 대해서 2명 이상이 복수 채점을 진행한다. 따라서 채점자 1명을 컴퓨터를 활용한 자동 채점으로 대체한다면, 채점의 효율성을 높일 수 있을 것이다. 인간 채점 과정에서 컴퓨터에 의한 채점 결과를 보여주고 인간 채점자가 확인하여 확정한다고 하면 효율성과 신뢰도를 함께 높일 수 있을 것이다.
두 번째 방법은 두 가지 자동 채점 모델을 적용하여 불일치를 줄이는 것이다. 본 연구에서는 앞에서 이미지의 특징을 분석하기 위해서 이미지 임베딩의 모델로 구글의 인셉션을 사용하였다. 그러나 합성곱 신경망은 다양한 방식으로 모형을 구성할 수 있으며, 사전 학습된 모형도 VGG-16, VGG-19 등 여러 가지가 있다. 따라서 인간 채점에서 보통 2명이 복수로 채점을 실시하는 것과 유사하게 자동 채점에서도 하나의 답안 이미지에 대해서 두 가지 서로 다른 자동 채점을 모형을 적용하여 불일치하는 것만을 인간 채점자가 개입하여 조정하도록 하는 방법이다. 본 연구에서는 VGG-19를 별도로 적용하였을 때의 인간 채점 결과와 불일치하는 사례를 살펴본 결과 Fig. 6과 같다. Figure 6은 전체 5,308개를 채점한다고 가정하고 10%인 531개를 훈련 데이터로 사용하여 인셉션과 VGG-19로 자동 채점 모델을 구성하여 나머지 4,777개를 채점한다고 할 때, 불일치하는 개수를 표현한 것이다. 인간 채점자의 결과와 불일치한 것이 Inception은 총 178개, VGG가 139개였다. 그리고 두 모형이 모두 인간 채점과 불일치한 개수는 75개이다. 따라서 두 자동 채점 모형을 동시에 적용한다고 하면, 훈련 데이터에 필요한 531개와 두 모형에서 불일치하는 103개와 64개 등 총 698개를 인간 채점하게 되고, 최종적으로는 75개만 불일치하는 결과를 얻어, 하나의 모형을 적용할 때보다 불일치 개수를 크게 줄일 수 있음을 알 수 있다.
본 연구를 통해 그래픽으로 작성된 답안에 대한 자동 채점 가능성을 살펴본 결과, 매우 높은 일치도를 보여 실제 채점에 적용할 수 있는 가능성이 있음을 보였다. 다만 본 연구는 하나의 문항을 예시를 보인 것이며, 향후 복잡성이 크거나 다양한 형태의 그래픽 답안을 수집하여 모형의 타당성을 계속 검증해 볼 필요가 있다.