Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2019; 69: 1038-1052
Published online October 31, 2019 https://doi.org/10.3938/NPSM.69.1038
Copyright © New Physics: Sae Mulli.
Eunjeong YUN, Yunebae PARK*
Department of Physics Education, Kyungpook National University, Daegu 41566, Korea
Correspondence to:ypark@knu.ac.kr
This is an open-access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
In the context of science education, in order to communicate with students and machines and to establish educational strategies based on them, research on how the characteristics, semantic relationships, and conceptual connections of science language can be represented in machine type. Is required Recently, word embedding has been receiving much attention in relation to machine learning for text, so this study was carried out to evaluate the performance of the word-embedding model, to present the science educational meaning provided by the results, and to suggest follow-up research agendas. As a research methodology, from among the word embedding techniques, Word2vec was used and Gensim library was used through Python 3.6. The input corpus used 24 units on `Force and Motion' at the junior high school level from the Korean science textbook corpus (K-STeC). The performance evaluation of the word-embedding results was done qualitatively by reviewing the list of words printed one by one examining the scientific meaning. We have looked at the result differences of the iteration, minimum frequency, and context range of Word2vec, whether or not the formality morpheme is present, and the size of the input corpus. As a result, we found the variable settings to extract scientific concepts well, add the facts that word lists with different meanings are produced depending on whether a formality morpheme is included or not, and the usable size of the corpus is about 150,000 words containing 24 units.
Keywords: Science textbook corpus, Word embedding, Word2vec
과학 교육의 맥락에서 인공지능의 기술이 도입되어 학생과 기계가 소통하고, 이를 기반으로 교육적 전략을 수립하기 위해서는 과학교육에서 주로 다루는 과학 언어의 특징과 의미 관계, 개념적 연결 등이 어떤 형태로, 얼마나 타당하게 기계적 표현으로 구현되는지에 대한 탐색과 연구가 필요하다. 최근 텍스트를 대상으로 하는 머신 러닝과 관련하여 워드임베딩이 많은 관심을 받고 있는데, 본 연구는 과학교육분야에서 머신러닝을 통해 텍스트를 다룸에 있어 적합한 모델의 도입과 활용을 위해 워드임베딩 모델의 성능을 평가하고 결과물이 제공하는 과학교육학적 의미를 탐색, 후속 연구 방향을 제시하고자 수행되었다. 연구 방법으로는 워드임베딩 기법 가운데 Word2vec을 사용하였으며 python 3.6을 통해 Gensim 라이브러리를 이용하였다. 입력 말뭉치로는 과학교과서 말뭉치(K-STeC) 가운데 중학교 과학 `힘과 운동’ 24개 대단원을 사용하였다. 워드임베딩 결과물에 대한 성능 평가는 출력된 단어 목록을 하나하나 검토하여 과학적 의미를 살펴 정성적으로 평가하였다. Word2vec의 반복 회수, 최소 빈도수, 맥락 범위의 세 가지 변인들에 대한 결과의 차이, 입력 말뭉치의 형식형태소 유무, 입력 말뭉치의 크기에 따른 결과 값을 살펴보았는데, 그 결과 과학적 개념이 잘 드러난 학습 결과를 출력하기 위한 변인 설정 값을 찾을 수 있었고, 형식형태소의 포함 여부에 따라 각기 다른 의미를 가지는 단어 목록이 출력된다는 사실, 입력 말뭉치가 클수록 성능이 우수해지나 과학교과서 텍스트의 경우 24개 대단원 약 15만 어절 규모의 말뭉치 정도면 어느 정도 활용 가능한 성능이 나옴을 확인하였다.
Keywords: 과학교과서 말뭉치, 워드임베딩, 워드투벡