Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2024; 74: 812-823
Published online August 30, 2024 https://doi.org/10.3938/NPSM.74.812
Copyright © New Physics: Sae Mulli.
Hunkoog Jho*
Department of Science Education, Dankook University, Yongin 16890, Korea
Correspondence to:*hjho80@dankook.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
In recent years, generative AI technology, especially large language models (LLMs), has garnered significant attention for its potential to transform education. This paper provides an overview of generative AI's development and examines its impact on education, focusing on the issue of `hallucinations' in LLMs. It explores the causes and proposes solutions such as finetuning, reasoning, iterative querying, and Retrieval-Augmented Generation (RAG). These methods aim to enhance the accuracy and reliability of AI responses. Examples of AI applications in education include real-time student query responses, personalized learning pathways, and assessment feedback. While these technologies promise to improve educational quality, they also raise concerns about biases and data privacy. This paper discusses strategies to effectively utilize generative AI in education, aiming to improve quality while minimizing negative impacts.
Keywords: Artificial intelligence, Large language model, Hallucination, Natural language processing, Retrieval-augmented generation
최근 몇 년간 생성형 인공지능 기술의 발전은 다양한 분야에서 주목을 받고 있으며, 특히 거대 언어 모델의 등장으로 교육 분야에서도 큰 변화를 예고하고 있다. 본 논문은 생성형 인공지능의 발전과정과 역사를 간략히 소개하고, 이러한 기술이 교육에 미치는 영향과 이를 극복하기 위한 방법을 제시한다. 특히 거대 언어 모델의 `환각' 문제를 중심으로, 이러한 문제가 발생하는 원인과 해결 방안을 논의한다. 생성형 인공지능의 교육적 활용 사례로는 학생 질문에 실시간 응답하는 대화형 인공지능, 답안 평가 및 피드백 제공, 맞춤형 학습 경로 제공 등이 있다. 그러나 이러한 기술 도입에는 비윤리적 편향성, 데이터 프라이버시 문제, 현실과 동떨어진 정보 생성 등의 문제점이 우려된다. 이를 극복하기 위해 미세조정, 논리적 추론, 반복적 질문, 검색 증강 생성 기술 등이 제안되고 있다. 본 논문은 생성형 인공지능의 교육적 활용에 대한 이해를 돕고, 효과적인 활용 방안을 제시하여 교육의 질을 향상시키고 부정적인 영향을 최소화하는 데 기여하고자 한다.
Keywords: 인공지능, 거대 언어 모델, 환각, 자연어 처리, 검색 기반 생성
최근 몇 년간 인공지능 기술, 특히 생성형 인공지능(Generative AI)의 발전은 다양한 분야에서 큰 주목을 받고 있다. 생성형 인공지능은 인간의 개입 없이 새로운 데이터를 생성할 수 있는 능력을 지니고 있으며, 특히 대형 언어 모델(LLM, Large Language Models)은 자연어 처리 분야에서 혁신적인 변화를 가져왔다. 이러한 발전은 교육 분야에서도 중요한 변화를 예고하고 있다[1-3].
교육에서의 생성형 인공지능의 도입은 교육의 질을 향상시키고, 학생들의 학습 경험을 극대화할 수 있는 가능성을 가지고 있으며, 이에 많은 연구자들과 정부 관계자, 스타트업 등이 이를 활용하는 다양한 서비스와 실천에 대해 노력하고 있다. 예를 들어 챗봇과 같은 대화형 인공지능은 학생들의 질문에 대해 실시간으로 응답하고 반응할 수 있으며, 특정 주제에 대한 토론이나 상담 등도 가능하다. 텍스트 기반의 인공지능은 학생들의 답안이나 서술 내용을 평가하고 피드백을 제공할 수 있으며, 그 결과에 따라 학생들의 수준이나 응답을 고려한 다양한 학습 과제나 콘텐츠를 제공함으로써 개인별로 특화된 학습 경로를 제공할 수 있다는 이점이 있다[4, 5]. 실제로, Khan Academy와 같은 온라인 교육 플랫폼에서는 AI 튜터를 통해 학생들에게 맞춤형 피드백을 제공하고 있으며, AI 튜터는 학생의 학습 패턴을 분석하여 부족한 부분을 보완하는 데 도움을 준다[6]. 국내 여러 스타트업 역시 수학에서 학생이 제시한 문제와 비슷한 다른 유형의 문제를 소개하거나 학생의 답변을 통해 특정 영역의 능력 등을 예측하는 서비스를 개발·제공하고 있다. 또한 생성형 인공지능은 물리 학습에서도 적용될 수 있는데, 예를 들어 학생들이 실험 데이터를 분석하거나 시뮬레이션을 통해 물리 법칙을 탐구하는 과정에서, 인공지능을 사용하면 실시간으로 데이터를 처리하고 분석 결과를 제공할 수 있다. MIT에서는 이러한 AI 기반의 학습 도구를 활용하여 학생들이 복잡한 물리 실험을 보다 쉽게 이해할 수 있도록 돕고 있다[7].
최근에는 ChatGPT를 포함한 거대 언어 모델(Large Language Model)이 널리 대중에게까지 알려지고 사용되면서 이를 교육에서 활용하고자 하는 다양한 시도가 이뤄지고 있다. ChatGPT를 이용해 주요 입시 문제나 탐구 문제를 해결하여 그 정확도를 분석하여 교육적 상황에 쓸 수 있는지 확인하고, 고등학교 수준에서 쉽게 가르치기 힘든 현대 물리학의 개념에 대해 사용하여 얼마나 도움이 되는지 분석하기도 한다[8, 9].
그러나 이러한 기술의 도입에는 여러 문제점과 부작용이 우려되고 있다. 거대 언어 모델을 통해 생성된 결과는 때로 현실과 동떨어진 정보를 포함하거나, 비윤리적인 편향성을 내포할 수 있다[10]. 예를 들어, 일부 인공지능 모델은 역사적 데이터의 편향성을 그대로 반영하여 특정 성별이나 인종에 대한 편견을 강화할 수도 있고, 데이터 프라이버시, 사용의 복잡성이나 접근성의 문제도 제기되기도 한다[11, 12]. 이와 같은 문제들은 생성형 인공지능을 교육에 도입하는 데에 있어서 중대한 장애물로 작용할 수 있다. 그럼에도 불구하고 초·중·고등학교 뿐만 아니라 대학에서도 생성형 인공지능이 널리 사용되고 있으며, 실제 생성형 인공지능을 사용했는지 확인할 수 있는 방법이 거의 없기 때문에 무조건 사용을 막는 것 역시 현실적인 대안이 되지는 못한다. 오히려 이를 어떻게 효과적이고 과학학습에 도움이 될 수 있게 사용하도록 안내하는 것이 더 나은 방법이 될 수 있다.
이에 본 연구는 생성형 인공지능의 발전과정과 역사를 간략히 소개하고, 생성형 인공지능이 가지는 여러 문제와 이를 극복할 방법에 대해 소개함으로서 교육적 맥락에서 인공지능의 활용에 대해 관심있는 여러 독자들에게 도움을 주고자 한다. 특히, 거대 언어 모델의 사용에서 지속적으로 논의되고 있는 이른바 ‘환각(Hallucination)’을 중심으로, 이와 같은 문제가 발생하는지, 그리고 이러한 문제를 어떻게 해결할 수 있는지에 대해 논의하고자 한다. 아울러 생성형 인공지능을 물리교육에서 활용할 수 있는 여러 방안에 대해 제시함으로써 교육의 질을 향상시키고 인공지능에 대한 여러 부정적인 영향을 줄이는 데에 기여하고자 한다.
거대 언어 모델(LLM)은 대량의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 인공지능 모델이다. 이러한 모델은 수많은 매개변수를 통해 언어의 구조와 패턴을 학습하며, 이를 통해 인간이 작성한 것과 유사한 텍스트를 생성할 수 있다. LLM은 텍스트 예측, 번역, 요약, 질문 응답 등 다양한 자연어 처리(Natural Language Processing, NLP) 작업에 사용되며, 그 핵심 목표는 인간과 유사한 언어 이해와 생성 능력을 제공하는 것이다.
LLM의 자연어 처리의 발전과 밀접하게 연관되어 있는데, 20세기 중반, NLP의 초기 연구는 주로 규칙 기반 접근법과 통계적 언어 모델에 의존했다. 이러한 초기 모델들은 단어 빈도와 같은 단순한 통계적 기법을 사용하여 언어를 이해하려 했다. 대표적인 예로 n-gram 모델이 있으며, 이는 특정 단어 시퀀스가 나타날 확률을 기반으로 언어를 생성했다. 예를 들면 “보어 원자 모형”, “보어 원자”, “보어 양자화”가 있다면 “보어”라는 단어와 함께 순서대로 등장하는 단어 집합은 “보어 원자”(2/3), “보어 양자”(1/3)이며, 이를 통해 어떤 단어가 다음에 나타날지 확률적으로 계산하여 제시한다. 그러나 이와 같은 방식은 복잡한 언어 구조를 처리하는 데 한계가 있었고, 문맥을 깊이 이해하지 못한다는 한계를 가지고 있다.
이후 2000년대 신경망 기반의 접근법이 등장하면서 NLP 연구는 새로운 국면을 맞이하게 되었다. 특히, 텍스트 속 단어를 고차원의 벡터로 변환하는 단어 기반의 임베딩 기술이 등장하면서 언어 모델의 성능이 크게 향상될 수 있었다. 가장 주목 받은 모델 중 하나가 Word2Vec이며, Word2Vec는 단어를 벡터 공간에 효율적으로 표현하기 위해 개발된 신경망 기반의 단어 임베딩 기법이다. 2013년 Google의 연구팀이 발표한 이 기술은 단어의 의미를 고차원 벡터로 변환하여, 단어 간의 유사성을 수치적으로 나타낼 수 있게 하였다[13].
Word2Vec는 크게 두 가지 모델인 CBOW(Continuous Bag of Words)와 Skip-gram을 통해 구현된다(Fig. 1 참조). CBOW 모델은 주변 단어들을 통해 중심 단어를 예측하는 방식으로 작동하며 단어의 등장 순서에 따라 빈 칸에 들어갈 단어를 유추한다. 문장에서 ‘The cat sits on the mat’라는 문장이 있을 때, CBOW 모델은 ‘The’, ‘cat’, ‘on’, ‘the’, ‘mat’이라는 주변 단어들을 입력으로 받아 ‘sits’라는 중심 단어를 예측한다. 이는 문맥 속에서 단어의 의미를 학습하는 데 효과적이다. 반대로 Skip-gram 모델은 중심 단어를 통해 주변 단어들을 예측하는 방식으로 작동한다. 같은 예문에서 ‘sits’라는 중심 단어를 입력으로 받아 ‘The’, ‘cat’, ‘on’, ‘the’, ‘mat’이라는 주변 단어들을 예측한다. Skip-gram 모델은 특히 큰 데이터셋에서 희귀 단어의 임베딩을 학습하는 데 효과적이다.
Word2Vec의 핵심 개념은 단어의 의미가 벡터 공간에서 가까운 위치로 매핑된다는 것이다. 즉, 의미적으로 유사한 단어들은 벡터 공간에서 가까운 위치에 존재한다. 예를 들어, ‘king’과 ‘queen’이라는 단어의 벡터는 ‘man’과 ‘woman’이라는 단어의 벡터와 유사한 관계를 가지며, 벡터 연산을 통해 이러한 관계를 파악할 수 있다. ‘king’ - ‘man’ + ‘woman’ ≈ ‘queen’이라는 벡터 연산 결과가 이를 잘 보여준다. 이는 단순히 등장 빈도에 따라 확률을 구하는 n-gram과는 다른 점이며, 벡터 공간에서의 두 단어 사이의 거리에 따라 유사도나 비유 등을 추정할 수 있게 되었다. 이와 같은 방식을 이용해 텍스트 유사도를 계산하거나 종류나 유형에 따라 분류하는 등 다양한 작업에 유용하게 활용될 수 있다. 이후, Word2Vec의 단어 임베딩에서 확장되어 문장이나 텍스트를 임베딩하는 방식으로 발전하였으며, 단어의 의미를 수치적으로 표현하고 다루는 방식에 혁신적인 변화가 일어났으며, 이후의 다양한 언어 모델 연구의 기초가 되었다.
본격적으로 오늘날의 LLM과 직접적인 연관이 되는 혁신은 2017년 Transformer 모델이 등장하면서 부터이다. Waswani et al.이 발표한 이 논문에서는 셀프 어텐션(Self-Attention) 메커니즘을 도입하여 문장 내에서의 단어 관계를 효율적으로 파악할 수 있게 되면서 당시 순환 신경망(Recurrent Neural Network)이 가지고 있던 장기 의존성 문제를 극복하는 데에 기여하였다[14]. 자연어의 경우, 앞에서부터 순서대로 읽어가야 하는 일종의 시계열 데이터(Time-series Data)라는 생각이 매우 유효했고, 이에 따라 이전 단어가 다음 단어를 예측하고 추론하는 중요한 정보가 된다. 만약 텍스트의 길이가 길어 수백만 단어로 이뤄져 있다면 이전의 수백만 단어에 대한 연산 결과를 모두 저장하고 고려해야 하기 때문에 연산에 대한 부담이 매우 크고, 실제로 영향력이 없는 대부분의 정보를 기억하고 있어야 하는 비효율적인 문제가 발생한다. 셀프 어텐션 메커니즘은 문장 내 단어들 간의 관계를 효율적으로 파악하기 위해 개발된 기법으로, RNN과 같이 전체 정보를 순차적으로 처리하는 방식이 아니라, 주어진 문장 내에서의 여러 단어들 사이의 관계를 고려하여 각 단어가 갖는 가중치를 조절하는 방식이다. 셀프 어텐션 메커니즘의 작동 원리를 설명하면 다음과 같다(Fig. 2 참조). 먼저 입력 문장의 각 단어는 임베딩 벡터로 변환된다. 각 임베딩 벡터는 Query, Key, Value의 세 가지 벡터로 변환된다. Query는 현재 단어가 다른 단어와 얼마나 관련 있는지 평가하는 데 사용되고, Key는 다른 단어들이 Query와 얼마나 관련 있는지를 나타내며, Value는 최종적으로 전달되는 정보이다. Query와 Key 벡터의 내적(dot product)을 통해 각 단어 간의 유사도를 계산한다. 이 유사도는 스케일링(scaling)과 소프트맥스(softmax) 함수를 거쳐 가중치로 변환된다. 소프트맥스 함수는 가중치의 합이 1이 되도록 조정하여, 각 단어가 다른 단어와의 관계를 비율적으로 표현한다. 이렇게 계산된 가중치는 Value 벡터에 곱해져, 최종적으로 각 단어의 새로운 표현(representation)을 생성한다[15]. 이 과정은 문장 내 모든 단어에 대해 병렬로 수행되어, 단어 간의 관계를 동시에 고려할 수 있게 한다. 셀프 어텐션 메커니즘은 특히 병렬 처리가 가능하다는 점에서 RNN(Recurrent Neural Network) 기반 모델들보다 효율적이다.
셀프 어텐션 메커니즘은 Transformer 모델에서 처음 도입되었으며, 이 모델에서는 셀프 어텐션을 하나가 아닌 다중 헤드(Multi-head)로 구성하여 다양한 관점에서 단어 간의 관계를 파악할 수 있게 한다. 각 헤드는 서로 다른 가중치를 학습하며, 이를 통해 보다 풍부한 문맥 이해가 가능해진다. 셀프 어텐션 메커니즘은 NLP 분야에서 큰 혁신을 가져왔으며, 번역, 요약, 질의 응답 등 다양한 작업에서 뛰어난 성능을 발휘한다. 이는 문장 내 중요한 단어에 집중하고, 단어 간의 복잡한 관계를 정교하게 파악할 수 있게 하기 때문이다. 셀프 어텐션의 도입으로 인해 NLP 모델의 효율성과 성능이 크게 향상되었으며, 현재 많은 최신 언어 모델들이 이 메커니즘을 채택하고 있다.
Transformer 모델이 이전 모델과 비교해 갖는 또 다른 특징은 여러 개의 인코더-디코더 구조를 사용하여 병렬 처리가 가능하며, 이는 훈련 속도와 성능을 획기적으로 개선했다는 점이다. 이전의 순환 신경망 기반 모델들은 시퀀스 데이터를 순차적으로 처리해야 했기 때문에, 병렬 처리가 어렵고 훈련 속도가 느렸다. 각 타임스텝에서 이전 상태를 참고해야 했기 때문에, 긴 문장을 처리할 때 특히 비효율적이었다. 반면, Transformer 모델은 셀프 어텐션 메커니즘을 통해 시퀀스 내 모든 단어를 동시에 처리할 수 있다. 인코더와 디코더는 각각 여러 층(layer)으로 구성되며, 각 층은 병렬로 계산되기 때문에 병렬 처리의 장점을 극대화할 수 있다. 이는 GPU와 같은 병렬 처리 하드웨어를 활용하는 데 매우 적합하며, 대규모 데이터셋을 빠르게 학습할 수 있게 한다. 또한 인코더-디코더 구조는 각 층마다 독립적으로 학습이 가능하다는 장점을 갖는다. 인코더는 입력 시퀀스를 처리하여 일련의 고차원 벡터로 변환하고, 디코더는 이 벡터를 입력으로 받아 출력 시퀀스를 생성한다. 이 과정에서 병렬 처리가 가능하여, 훈련 속도 뿐만 아니라 모델의 확장성도 크게 향상된다. 오늘날의 대부분의 LLM이 Transformer 모델에 기반하고 있으며 GPU를 이용한 병렬 처리로 텍스트를 요약하거나 추론하고, 생성하는 작업을 수행한다[16].
이와 같은 Transformer 모델의 등장은 크게 둘로 나뉘는데 Transformer 모델을 제안했던 Google은 인코더를 중심으로 한 BERT(Bidirectional Encoder Representations from Transformers) 모델을 발표했다 (Fig. 3 참조)[17]. BERT는 양방향 학습을 통해 문맥을 보다 깊이 이해할 수 있는 능력을 갖추었다. BERT는 모든 단어의 좌우 문맥을 동시에 고려하여 단어의 의미를 파악한다. 이는 단어의 의미를 더 정확하게 이해할 수 있게 하여, 다양한 NLP 작업에서 뛰어난 성능을 발휘했다. BERT는 사전 학습과 미세 조정을 결합하여, 특정 작업에 최적화된 모델을 만들 수 있는 효율적인 방법을 제시했다. 한편, OpenAI는 Transfomer 모델로부터 영감을 얻어 디코더를 중심으로 한 GPT(Generative Pre-trained Transformer) 모델을 발표하였다[18]. GPT는 대규모 텍스트 데이터를 사전 학습(Pre-training)한 후, 특정 작업에 맞게 미세 조정(Fine-tuning)하는 방식으로 높은 성능을 달성했다. GPT-2와 GPT-3는 매개변수의 수와 데이터 크기를 대폭 증가시키며 성능을 지속적으로 향상시켰다. GPT-3는 1750억 개의 매개변수를 가지고 있으며, 이는 이전 모델에 비해 훨씬 더 복잡하고 풍부한 언어 이해 능력을 제공한다. GPT 모델은 문맥을 이해하고, 일관성 있는 텍스트를 생성하는 능력이 뛰어나며, 다양한 NLP 작업에서 탁월한 성능을 보여주었다.
LLM이라는 용어는 모델이 가진 크기(파라미터)가 수십억 개 이상 늘어나면서 이전의 다른 모델과 구분하기 위해 붙여진 이름이다. 파라미터의 수는 모델의 성능과 복잡성에 직접적으로 영향을 미치며, 더 많은 파라미터를 가질수록 모델이 더 복잡한 언어 패턴과 문맥을 학습할 수 있다. 2017년 처음 등장한 Transformer 모델의 파라미터 수는 채 1억개도 되지 않았지만, 2018년 등장한 BERT, GPT는 모두 1억개 이상이었고, 2019년 발표된 GPT-2는 최대 15억개, 2020년 GPT-3는 1750억개로 기하급수적으로 증가하였다. 이와 같은 파라미터의 확장은 더 복잡하고 어려운 추론을 가능하게 하지만, 동시에 매우 빠르게 대응하기 어렵고 목적이나 기능에 따라 비효율적일 때도 존재한다. 이에 따라 최근 LLM을 연구하는 스타트업들은 LLM을 보다 작은 모델로 만들어 이를 다룰 수 있도록 하는 경량화 작업에 집중하고 있다.
오늘날 LLM 및 생성형 인공지능의 발전 방향은 단순히 크기를 크게 만드는 것 외에도 효율적으로 동작할 수 있도록 적절한 크기로 줄이는 것에 있다. 모델의 크기가 커질수록 복잡한 추론과 더 뛰어난 성능을 보여주지만 그 크기와 복잡성으로 인해 막대한 계산 자원과 메모리를 요구하며, 실시간 응용이나 임베디드 시스템에 적용하기 어려웠다. 최근 인공지능 반도체에 대한 수요가 폭발적으로 늘어나면서 이를 부담해야 하는 서버의 부하를 줄이기 위해서도 이러한 경량화 과정은 필수적이다. 특히, 모바일 기기나 클라우드 환경에서의 응용은 모델의 크기와 연산 효율성이 매우 중요하게 된 배경이다. 한편, 환경적 측면에서도 에너지 소비를 줄이는 것이 중요하다. 대규모 모델의 학습과 추론 과정에서 소모되는 에너지는 지속 가능성 문제를 야기할 수 있다. 최근 NVIDIA와 같은 업체에서 보다 적은 전력으로 동작할 수 있는 GPU Accelerator를 개발하고, Microsoft에서 서버를 바다에 보관하려는 것 역시 같은 맥락에서 이뤄지고 있는 시도들이다.
LLM의 크기를 줄이면서도 성능을 유지하거나 향상시키기 위한 기술적 접근들이 최근 들어 다양하게 소개 되고 있는데, 그 대표적인 것들이 양자화(Quantization), LoRA(Low-Rank Adaptation), DPO(Distillation and Pruning Optimization), PPO (Proximal Policy Optimization) 등이다.
양자화는 모델의 가중치와 활성화를 저정밀도의 숫자로 변환하는 기술이다. 예를 들어, 32비트 부동소수점(float)을 8비트 정수(int)로 변환함으로써 메모리 사용량과 계산 복잡도를 줄인다. 양자화는 모델의 크기를 줄이는 동시에, 추론 속도를 크게 향상시킬 수 있다. 양자화 과정에서 일부 정보 손실이 발생할 수 있지만, 이를 최소화하는 기술들이 개발되어 성능 저하를 줄인다. 양자화는 특히 모바일 장치나 임베디드 시스템과 같은 제한된 자원 환경에서 유용하다.
LoRA는 쉽게 말해, 큰 덩어리의 데이터를 작은 부분들로 나눠서 처리하는 방법이다. 이 방법은 마치 큰 퍼즐을 작은 조각들로 나누어 맞추는 것과 비슷하다. 전체 데이터를 직접 처리하는 대신, 작은 조각들로 나누어 처리하면 더 효율적이고 빠르게 작업을 완료할 수 있다. 즉, 저랭크 행렬은 복잡한 계산을 더 간단하고 빠르게 할 수 있게 도와주는 방법으로, 큰 데이터를 작은 단위로 쪼개서 관리하고 계산하는 기술이다. 이를 통해 모델의 크기는 줄이면서도 성능을 유지하거나 높일 수 있다. 즉, 모델의 파라미터를 완전한 행렬이 아닌, 저랭크 근사 행렬로 표현함으로써 학습 시 필요한 파라미터 수를 줄인다. 이는 모델의 크기를 줄이면서도 성능을 유지할 수 있게 한다. 저랭크 근사는 계산량을 줄이고, 메모리 사용을 효율적으로 만들어준다. LoRA는 특히 대규모 모델의 파라미터 수를 효과적으로 줄일 수 있어, 모델의 경량화에 유용하다.
DPO는 모델 경량화를 위해 지식 증류(Distillation)와 가지치기(Pruning)를 결합한 방법이다. 지식 증류란 큰 모델(교사 모델)의 지식을 작은 모델(학생 모델)에 전이시키는 방법이다. 학생 모델은 교사 모델이 생성한 소프트 타겟(확률 분포)을 학습하여, 작은 모델임에도 불구하고 큰 모델의 성능을 일부 유지할 수 있다. 이를 통해 모델의 크기를 줄이면서도 성능을 높일 수 있다. 가지치키란 모델의 중요하지 않은 파라미터나 뉴런을 제거하는 방법이다. 가지치기를 통해 모델의 밀도를 낮추고, 연산량과 메모리 사용량을 줄인다. 가지치기 후에는 모델을 다시 훈련시켜 성능을 복구하는 과정을 거친다. 이와 같은 두 가지 방식을 모두 적용한 것이 DPO이다.
PPO(Proximal Policy Optimization)는 강화 학습 알고리즘으로, 정책의 업데이트를 안정적이고 효율적으로 수행하기 위해 설계되었다. 강화 학습에서 "정책(Policy)"은 에이전트가 특정 상태에서 어떤 행동을 취할지를 결정하는 전략 또는 규칙을 의미한다. 구체적으로, 정책은 주어진 상태에서 가능한 행동들 중 어느 행동을 선택할 확률을 나타내는 함수로 정의된다. 일반적으로는 에이전트의 행동을 결정하는 정책을 파라미터로 변환하고, 이 파라미터를 최적화하는 방식으로 학습을 진행한다.
정책은 주어진 상태에서 어떤 행동을 취할 확률을 결정하는 함수로 정의되며, 보상이 이루어지기까지의 상태, 행동, 보상 등을 고려하여 총 보상을 계산해 이에 대한 그래디언트를 계산함으로써 최적의 행동을 결정한다. 그러나 이러한 방법은 보상 신호가 노이즈에 민감하여 높은 분산이 나타나며, 이는 학습의 안정성과 효율성을 해치게 된다. 또한, 정책 파라미터를 업데이트할 때 큰 변화가 발생하면 학습이 불안정해질 수 있으며, 이러한 문제를 해결하기 위해서는 대규모 데이터가 필요하다는 어려움이 있다.
PPO는 위의 문제들을 해결하기 위해 설계된 정책 최적화 알고리즘이다. 특히, PPO는 정책 업데이트 시, 새로운 정책과 기존 정책의 비율을 제한함으로써 학습의 안정성을 유지하는 클리핑(Clipping) 기법과, 정책의 업데이트가 너무 크게 이루어지지 않도록 제한하는 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 개념을 활용한다. 이를 통해 안정성, 효율성, 그리고 탐색과 활용의 균형을 잘 맞추는 데 매우 용이하다.
LLM에 대한 여러 노력에도 불구하고 지속적으로 등장하는 문제 중 하나는 가짜 정보(misinformation)이다. 이른 바 환각으로 알려진 이 현상은 GPT-3나 GPT-4와 같은 LLM이 일관성 있고 문법적으로는 맞지만 사실적으로는 틀리거나 말이 안 되는 출력을 생성하는 현상을 말한다. 이 문맥에서의 "환각"은 거짓되거나 오해의 소지가 있는 정보를 생성하는 것을 의미한다. 이러한 현상은 교육적 맥락에서 적용될 때에도 큰 문제를 불러올 수 있는데, 예를 들어 학생의 보고서나 진술문을 토대로 중요한 정보를 추출하고 판단할 때, 실제 학생이 작성하지 않는 내용을 포함하고 있는 것처럼 다룰 수 있으며, 실제로는 존재하지 않는 현상에 대해 질문할 때 마치 그러한 일들이 있는 것처럼 답변해 거짓 정보를 제공할 수도 있다.
LLM에서 환각이 일어나는 이유는 여러 가지 복합적인 요인에 기인한다. 환각은 모델이 현실과 일치하지 않는 정보나 논리적으로 잘못된 출력을 생성하는 현상이다. 이를 발생시키는 주요 원인들을 다음과 같이 설명할 수 있다. 가장 흔하게 발생되는 이유로는 학습 데이터에 대한 불확실성과 오류 문제이다. LLM은 방대한 양의 텍스트 데이터를 학습하지만, 이 데이터가 항상 정확하거나 완전하지 않다. 잘못된 정보나 편향된 데이터가 포함될 수 있으며, 이는 모델이 잘못된 출력을 생성하게 만든다. 또한, 학습 데이터에는 구조화되지 않은 비정형 텍스트가 포함되어 있을 수 있는데, 이런 데이터는 모델이 잘못된 패턴을 학습하게 할 수 있다. 또한 모델 자체가 가진 문제로 인해 발생될 수도 있는데 이는 LLM은 문맥을 이해하는 데 한계가 있을 수 있기 때문이다. 특히 긴 문장이나 복잡한 문맥에서 잘못된 연관성을 만들게 하여 환각을 발생시킬 수 있다. LLM은 다음 단어를 예측하는 방식으로 텍스트를 생성하는데, 이 과정에서 이전 단어와의 일관성을 유지하려 하지만, 때로는 문맥을 잘못 해석하거나 논리적 비약을 일으킬 수 있다. 나아가 학습 방법이 가진 문제로 인해 발생되기도 하는데, LLM은 확률적으로 다음 단어를 생성하기 때문에, 같은 질문에 대해서도 다르게 응답할 수 있다. 이로 인해 때로는 비일관적이거나 잘못된 응답이 나올 수 있다. 또한, 학습 데이터에 너무 치중된 나머지, 새로운 상황에 맞춰 일반화하지 못하고 기존 데이터에서 본 것들을 무분별하게 적용하려는 경향이 있다. 그리고 학습에 이용되는 강화학습 역시 문제를 일으키기도 한다. 강화학습을 사용하는 경우, 보상 신호가 명확하지 않거나 부정확할 수 있다. 이는 에이전트가 잘못된 행동을 학습하게 만들 수 있다. 또한, 새로운 정보를 탐색하는 과정에서 모델이 충분히 탐색하지 못하거나, 이미 학습한 정보를 과도하게 활용하는 경우에도 환각이 발생할 수 있다. 마지막으로, 모델 최적화의 한계가 있다. 모델이 매우 많은 파라미터를 가지고 있을 때, 이를 최적화하는 과정에서 발생하는 비효율성이나 미세한 오류들이 누적되어 잘못된 출력을 초래할 수 있다. 모델을 경량화하는 과정에서 정보 손실이 발생할 수 있으며, 이는 환각 현상을 악화시킬 수 있다. 인공지능의 학습과 성능 향상을 위해 사용하는 여러 방법들이 그 과정에서 오히려 환각을 발생시킬 수 있음을 의미한다.
환각을 해결하기 위해 다양한 방법들이 최근 고안되고 있는데, 그 중 가장 보편적이고 전통적인 방법은 모델을 미세조정하는 것이다. 미세조정은 이미 학습된 모델을 특정 도메인이나 작업에 맞게 추가 학습시키는 과정이다. 이는 모델이 일반적인 지식 외에도 특정 분야의 세부 사항을 학습하도록 도와준다. 파인튜닝 절차는 먼저 특정 도메인에 관련된 데이터를 수집하고, 이를 통해 모델을 추가 학습시킨다. 이 과정에서 모델은 해당 도메인의 특수한 패턴과 지식을 습득하게 된다. 특정 교육 환경에 맞춘 파인튜닝은 교육 콘텐츠 생성, 학생의 질문에 대한 정확한 답변 제공 등 다양한 측면에서 효과적이다. 예를 들어, 물리교육에 특화된 모델은 학생들의 질문에 대해 정확하고 깊이 있는 답변을 제공할 수 있다. 이는 학생들의 학습 경험을 향상시키고, 교육의 질을 높이는 데 기여한다. 그러나 모델을 미세조정하기 위해서는 학습을 위한 대규모의 데이터를 준비해야 하고, 만약 인공지능처럼 지속적으로 변화하는 주제에 대해서는 과거의 특정 시점까지만 고려하기 때문에 새롭게 일어나는 뉴스나 새로운 연구 결과 등을 반영하기 어렵다는 한계가 있다.
미세조정 외에 사용될 수 있는 또 다른 방법은 논리적 추론과 프롬트를 이용한 반복적인 질문이다. 논리적 추론(Reasoning)이란 LLM이 단순한 통계적 예측을 넘어, 주어진 정보와 맥락을 기반으로 합리적인 결론을 도출하도록 하는 것을 말한다. 전통적인 LLM은 주로 다음 단어를 예측하는 데 중점을 두기 때문에 자신의 결과에 대한 진위나 논리적인 관점 등은 고려하지 않는다. 이에 논리적 추론을 도입하게 되면 보다 깊이 있는 사고를 통해 정확한 답변을 유도할 수 있다. 그 대표적인 방법 중 하나가 “Chain-of-Thought Prompting”이다. 이 기법은 모델이 복잡한 문제를 단계별로 해결하도록 유도한다. 예를 들어, 수학 문제를 풀 때, 모델이 문제를 한 번에 해결하려고 시도하는 대신 문제를 여러 단계로 나누어 각각의 단계에서 필요한 중간 단계를 거쳐 최종 답을 도출한다. 이를 통해 모델은 더 정확하고 신뢰할 수 있는 답변을 제공할 수 있다. Figure 4에서 제시된 것처럼 단순히 슈뢰딩거 방정식을 유도하라는 명령어보다 이를 단계적으로 제시하도록 요구하면 훨씬 상세하고 각각의 의미를 이해할 수 있도록 제시하는 결과를 얻을 수 있다. 프롬프트를 이용해 환각을 제거하는 또 다른 방법은 “Tree of Thought”이다. 이 방식은 문제 해결 과정을 마치 나무(tree) 구조처럼 여러 분기(branch)를 통해 탐색하는 방식으로 이루어진다. 각 분기는 문제 해결의 다양한 가능성을 나타내며, 최종적으로 최적의 해결책을 선택하기 위해 여러 경로를 평가하고 비교한다. Tree of Thought는 모델이 여러 경로를 동시에 고려할 수 있게 하여, 복잡한 문제에 대해 더 깊이 있는 분석과 추론을 할 수 있도록 한다. 예를 들어
이 외에도 반복적 질문을 사용해 문제를 해결할 수도 있다. 반복적 질문(Iterative Querying)이란 모델이 주어진 질문에 대해 점진적으로 더 정확한 답변을 도출하는 방법이다. 이 접근 방식은 초기 답변이 불완전하거나 모호할 때 특히 유용하다. 그리고 반복적 질문의 한 예인 FLARE(Forward-Looking Active Retrieval Generation)는 초기 질문에 대한 답변을 생성한 후, 그 답변을 다시 검토하고 필요한 경우 추가 정보를 검색하여 답변을 개선하는 방식이다. 이 과정은 필요한 만큼 반복되며, 최종적으로 가장 신뢰할 수 있는 답변을 제공한다. FLARE는 모델이 주어진 질문에 대해 다각적으로 접근할 수 있게 하여, 더 정확하고 완전한 답변을 제공할 수 있다. Figure 5는 FLARE를 이용해 초기 답변으로부터 추가적인 검색과 보완을 거쳐 어떻게 보다 신뢰할 수 있는 답변을 생성할 수 있는지를 중력파 발견이 물리학에 미친 영향을 주제로 설명하고 있다.
이와 같은 접근은 LLM이 가진 환각 문제를 해결하는 데에 분명 도움이 되지만, 이보다 더욱 주목받고 있는 방법이 검색 증강 생성(RAG; Retrieval-Augmented Generation)이다. RAG는 LLM이 질문에 답변할 때 내부 지식만을 사용하지 않고, 외부 데이터베이스에서 관련 정보를 검색하여 답변을 생성하는 방식이다[19]. RAG의 기본 개념은 사용자의 질의가 들어오면 이를 벡터 형태로 변환하여 벡터 데이터베이스에서 유사한 문서를 검색한 후, 이러한 문서들을 바탕으로 답변을 생성하는 것이다[20]. Figure 6과 같이 학술 논문이나 교재, 뉴스 기사 등 다양한 정보를 PDF나 텍스트 등으로 제공하면 이를 모델이 분석할 수 있는 크기로 쪼갠 뒤, 이를 임베딩을 거쳐 벡터 데이터베이스를 구축한다. 사용자의 요청이나 질문이 들어오면 LLM은 사전에 재구성되어 있는 벡터 데이터베이스로부터 검색해 사용자의 요청과 유사한지 판단하여 그 결과를 제출하게 된다. 이와 같은 방식을 택하면 단지 학습된 데이터에 의존하는 것이 아니라, 최신 정보나 특정 도메인의 정보를 검색하여 답변하기 때문에 보다 정확하고 신뢰성 있는 답변을 제공할 수 있게 된다.
RAG는 새롭게 변화하는 정보를 주기적으로 업데이트할 수 있기 때문에 이를 통해 가장 최근의 사실이나 정보를 토대로 답변을 제공할 수 있고, 기존의 LLM에 비해 적은 저장 공간과 컴퓨팅을 요구하기 때문에 훨씬 효율적으로 반응할 수 있다. 그리고 관련된 정보에 대한 검색이 실패하면 일종의 환각으로 만들어내지 않고 정직하게 답변할 수 있어 해당 결과를 보다 신뢰할 수 있다. 또한 정보의 출처가 궁금하다면 해당 정보의 출처 역시 확인할 수 있어서 사용자가 진위를 판단하기에도 용이하다. RAG는 외부 리소스에 액세스할 수 있기 때문에 웹 또는 기업 지식 기반의 실시간 또는 동적 정보를 통합하여 정보에 입각한 응답을 생성해야 하는 작업에 특히 유용하다[21, 22].
중고등학교 물리학습에서 RAG를 활용한다면 중고등학교 교과서나 교사의 교수학습 자료, 관련된 참고문헌을 수집한 뒤, 벡터 데이터베이스를 생성하면 기존의 LLM을 연결하여 보다 정확하고 신뢰할 수 있는, 나만의 수업에 적합한 인공지능을 구현하여 서비스를 제공할 수 있다는 장점이 있다. Figure 7은 국제학술지에 게재된 영재교육 분야의 논문 약 2,400건을 토대로 한 대화형 RAG 서비스를 구축한 것과 범용 인공지능을 통해 질문한 것을 서로 비교한 것이다. 보다 상세한 응답을 제공함과 동시에 구체적인 참고문헌을 제시함으로써 사용자가 이를 직접 확인할 수 있도록 정보를 제공한다.
오늘날 생성형 인공지능의 광범위한 활용은 교육에까지 큰 영향을 미치고 있다. 특히 자연어 처리를 중심으로 한 LLM은 단지 텍스트의 처리나 생성에 그치지 않고, 음악이나 사진, 영상, 데이터 분석, 의약 등 광범위하게 활용되고 있다. 이에 본 연구는 교육에서 생성형 인공지능, 특히 LLM의 개념을 소개하고, 가장 많이 언급되고 있는 환각 문제 등을 다루기 위한 방법과 물리교육에서 이를 극복한 LLM을 어떻게 활용할 수 있는지 논의하였다.
요컨대 최근 생성형 인공지능의 발전이 기술 분야에서 두드러지게 떠오르고 있다. 특히, 자연어 생성 분야에서는 OpenAI의 GPT(Generative Pre-trained Transformer) 모델을 비롯한 다양한 언어 모델들이 혁신적인 성과를 보이고 있다. 그러나 이러한 생성형 인공지능은 종종 훈련 데이터에 따라 형성된 환각적인 결과물을 만들어내는 경향이 있어, 이는 신뢰성을 저해할 수 있는 요소로 작용할 수 있다. 특히 물리교육 분야에서는 이러한 환각은 학생의 평가나 피드백, 상담 등에 활용될 수 없는 여러 문제를 가져올 수 있다.
이에 대한 대응책으로 다양한 방법을 고려할 수 있는데, 양자화와 같은 기술을 통해 모델의 복잡성을 줄여 환각을 감소시키거나, LoRA를 통해 생성된 결과물의 구체적인 해석에 이르도록 안내할 수 있다. 또한 DPO나 PPO와 같이 인간의 직관이나 의사결정 과정을 모방해 환각을 줄일 수도 있다. 또한 단계별 질문이나 반복적인 질문을 거친 프롬프트로 논리적 추론을 거쳐 신뢰할 수 있는 응답을 얻을 수 있을 것이다. 그러나 이러한 기술들도 여전히 한계를 가지고 있다. 외부 지식의 한계에 따라 모델의 생성 능력이 제한될 수 있으며, 외부 데이터의 신뢰성 문제도 여전히 해결해야 한다. 더구나, 물리교육 분야에서 이러한 기술을 적용할 때는 학습자의 학습 수준과 필요에 맞게 적절히 조정해야 한다.
RAG는 이러한 한계를 극복하기 위한 효과적인 방법으로 주목받고 있다. RAG는 생성 과정에서 외부 지식을 검색하여 생성된 결과물의 신뢰성을 높이는 방법을 제공한다. RAG는 다양한 분야에서 활용되고 있으며, 특히 최신 정보와 정확한 데이터 제공이 중요한 도메인에서 두각을 나타낸다. 의료 데이터베이스를 활용하여 최신 연구 결과와 진단 정보를 제공하는 데 사용된다. 이를 통해 의료 전문가들이 보다 정확한 진단과 치료 계획을 세울 수 있다. 또한 법률 분야에서는 법률 문서와 판례 데이터베이스를 검색하여 관련 법적 정보를 제공함으로써 변호사들이 사건을 준비하는 데 도움을 주기도 한다. 비즈니스나 마케팅 영역에서는 고객 문의에 대한 정확하고 신속한 답변을 제공하기 위해 고객 지원 데이터베이스를 검색하여 사용된다. 이를 통해 고객 만족도를 높일 수 있으며, 교육 분야에서는 학습 자료와 교육 콘텐츠 데이터베이스를 검색하여 학생들에게 정확한 정보와 자료를 제공함으로써 학습 효율성을 높일 수 있다. 특히 학생들의 질문이나 요구에 정확하고 신뢰할 수 있는 응답을 제공할 수 있으며, 특정 학교나 학급 상황에 맞는 자료를 기반으로 학생뿐만 아니라 교사 개인에도 맞춤형의 서비스를 제공할 수 있다는 장점이 있다. 그러나 RAG 역시 완벽한 방법은 아니며, 여러 가지 한계가 존재한다. RAG는 외부 지식에 의존하므로 검색된 정보가 만약 부정확할 경우, 그 결과에 영향을 미칠 수 있으며, 정확성을 높이기 위해 검색해야 하는 범위를 넓히게 되면 컴퓨팅 비용이 증가하거나 더 많은 시간을 소요할 수 있다. 또한 여러 소스 간 정보가 상충할 경우를 고려해야 하며, 외부 자원을 검색하는 것에 대한 지적재산권이나 개인정보 보호 등을 면밀히 고려해야 한다.
이와 같은 문제를 해결하기 위해서는 생성되는 정보가 얼마나 정확한가 따지는 것을 넘어서서 일반적인 개념에서 타당한지 접근하는 논리적 추론과 함께 생성된 정보나 텍스트에 대한 확실도 등을 함께 고려할 수 있어야 한다. 또한 개인정보 보호나 편향, 언어 폭행 등의 문제를 회피하기 위해서 교실 또는 교육용으로서 가져야 하는 규범에 대해서도 학습하고 반응하도록 훈련될 필요가 있다. 무엇보다도 단지 정확한 정보를 검색하여 제공하는 자동화된 인터넷 검색기가 아니라, 인간인 교사와 같이 질문하고 답한다는 점에서 인공지능이 과연 실제 학생들에게 어떻게 인식되고, 그 상호작용이 학습자의 지식 외에도 정서나 태도, 불안 등에 어떠한 부작용이나 부정적인 폐해가 없는지 면밀하게 살필 필요가 있다. 한편, 인공지능의 활용이 가져오는 교사의 불안에 대해서도 신중하게 접근하고 교사의 수업의 질과 전문성, 그 능력을 향상할 수 있는 적절한 협력 관계에 대해 고민해야 할 것이다.