Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2023; 73: 571-576
Published online July 31, 2023 https://doi.org/10.3938/NPSM.73.571
Copyright © New Physics: Sae Mulli.
Yerin Jang1, Ara Go1*, Jeongwoon Hwang2†
1Department of Physics, Chonnam National University, Gwangju 61186, Korea
2Department of Physics Education, Chonnam National University, Gwangju 61186, Korea
Correspondence to:*E-mail: arago@jnu.ac.kr
†E-mail: phyjhwang@jnu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Appropriate feature selection is crucial for optimizing the performance of machine learning models. Herein, we analyzed the influence of feature selection on a supervised learning model designed for magnetic order classification based on the electron–hole excitation spectrum. Initially, the Hamiltonian for the target lattice was obtained using first-principles calculations for the BaOsO3 material. The Hartree–Fock approximation was used to obtain self-consistent solutions for various electron counts, interaction strengths, and antiferromagnetic ordering. The momentum-resolved density of states of the solutions with corresponding antiferromagnetic orders was used to create a dataset for magnetic order classification. We utilized unsupervised learning for data preprocessing to identify features that improve the performance of the magnetic order classifier, with a particular emphasis on examining the effect of introducing lattice distortions on the significance of symmetry in the feature set.
Keywords: Machine learning, Magnetism, Electronic structures, Strain, Hartree-Fock approximation
학습 목표에 적합한 속성 선택은 기계학습모형의 성능을 향상하는 데 중요한 요소이다. 본 논문에서는 전자-홀 들뜸 스펙트럼 기반 자기질서 분류 지도학습 모형에서 속성 선택의 영향을 분석한다. 먼저 제일원리 계산을 통해 BaOsO3 물질을 목표계로 하는 해밀토니안을 추출하고, 하트리-폭 근사를 통해 다양한 전자수와 상호작용 세기, 반강자성 자기질서에 대해 자체모순없는 해를 수집하였다. 하트리-폭 계산 결과의 각 반강자성 자기질서에 대응하는 전자구조로부터 상태밀도 대비 자기질서 자료집합을 구축하여 자기질서 분류기를 위한 지도학습을 수행하였다. 이때 지도학습을 위한 데이터 전처리 과정에 비지도학습을 활용하여 자기질서 분류기의 성능을 향상하는 속성을 규명하되, 특히 격자구조에 변형을 도입하여 공간 대칭성이 속성 중요도에 미치는 영향을 관찰하였다.
Keywords: 기계 학습, 자성, 전자 구조, 변형, 하트리-폭 근사법
최근 기계 학습 알고리듬의 발전으로 정확한 예측과 빠른 분석이 가능해지면서 다양한 물리적 현상을 이해하는데 중요한 도구로 활용되고 있다. 기계 학습의 한 종류인 지도 학습은 입력과 출력 자료를 함께 제공하여 이들간의 관계를 학습하는 방법이며, 주로 회귀와 분류 문제를 해결하는 데 사용한다. 회귀 분석은 연속적인 출력을 예측하며 매개변수 등을 추정한다[1-5]. 분류 분석은 미리 정의된 범주로 출력을 구분하며 실험 자료나 이론적 모사 결과를 물리적 특성이나 과정에 따라 분류할 수 있다[6-8]. 지도 학습 알고리듬인 결정나무 앙상블 기법으로 하트리-폭 근사법(Hartree-Fock approximation)으로 생성된 입방정계 BaOsO3의 상태 밀도를 학습하여 반강자성 자기 질서 분류가 가능함이 알려져있다[9]. 이 물질은 자연상태에서 금속상을 보이지만[10], 높은 대칭성을 가져 다양한 반강자성 질서를 유도할 수 있어 자기질서 분류 모형 연구에 적합하다. 선행 연구에 따르면 국소 상태 밀도(local density of states)에 비해 모멘텀 투영된 상태 밀도(momentum projected density of states)를 이용한 모형의 예측 정확도가 더 우수한데, 이는 속성 선택(feature selection)의 중요성을 보여주는 사례이다. 이처럼 적합한 속성 선택을 통해 기계 학습 모형의 복잡도를 낮추어 성능과 연산 속도를 개선할 수 있는데, 비지도 학습을 통해 최적 속성을 고르는 방법이 알려져 있다. 비지도 학습은 입력 자료만을 제공하여 자료들간의 유사성, 차이, 패턴 등을 파악하는 방법이다. 이를 속성 선택에 이용하면 자료를 군집화(clustering)하여 각 군집을 대표하는 속성을 추출하거나 차원 축소 기법을 통해 기존 속성들을 조합하여 새로운 속성을 만들 수 있다[11-13]. 이 논문에서는 지도 학습의 자료 전처리 과정에 비지도 학습을 활용하여 변형이 있는 BaOsO3의 반강자성 질서 분류 정확도를 높이는 속성을 추출하고 그 결과를 분석한다.
입방정계 BaOsO3는 세 격자 상수
추출한 해밀토니안은
이때
전체 해밀토니안은
반강자성 질서와 격자 변형의 영향을 관찰하기 위해 모멘텀 공간의 대칭성 높은 점(high-symmetry point)
격자 상수
자료 가공 방식은 선행 논문과 동일하나 모멘텀이 투영된 상태 밀도를 생성할 때 대칭성 높은 점뿐만 아니라 띠 경로점이 모두 투영된 상태 밀도도 추가로 구성하였다[9]. 이때 띠 경로점의 개수는 대칭성 높은 점들간의 거리에 비례하며 주어지되 전체 점의 개수는 128개이다. 모든 상태 밀도는 -8에서 8까지 128개의 등간격으로 쪼갠 에너지 점에 대하여 계산되었다. 따라서 자료집합을 이루는 견본 하나에 대한 속성 개수는 대칭성 높은 점에 투영된 상태 밀도만 고려할 때 6×128개이고, 전체 띠 경로점 각각에 투영된 상태밀도를 모두 포함할 때에는 128×128개가 된다.
우리는 먼저 속성 선택의 영향을 확인하기 위해 앞에서 다룬 두 종류의 속성, 즉 대칭성 높은 점에 투영된 상태밀도, 그리고 전체 띠 경로점 각각에 투영된 상태밀도를 이용하여 반강자성 질서의 범주를 분류하기 위한 지도학습을 수행하였다. 학습은 랜덤 포레스트 분류기[17]를 통해 진행하였고, 자료 표본의 70%를 학습에, 30%를 검증에 사용하였다.
Figure 3에 띠 경로점이 투영된 상태 밀도와 대칭성 높은 점이 투영된 상태 밀도를 학습한 랜덤 포레스트 분류기의 혼동행렬(confusion matrix)이 나타나있다. 혼동행렬의 성분
우리는 자료 전처리 과정에 비지도학습을 이용한 속성 선택을 추가하여 자성 예측에 중요한 속성들을 분석하고 기계 모형의 정확도를 높이고자 하였다. scikit-learn의 SelectFromModel[17] 모듈을 이용하였으며 이때 추정기(estimator)로 랜덤 포레스트를 사용하여 평균 불순도 감소를 기반으로 가장 판별력이 좋은 속성을 추출하였다.
Figure 4에서 서로 다른 변형을 가진 자료에 대하여 랜덤 포레스트 속성 선택기로 추출된 결과를 확인할 수 있다. 속성 공간에 표시된 점은 속성 선택기에 의해 해당 위치의 스펙트럼 정보가 중요할 가능성이 높다고 판별되었음을 의미한다. 전체 공간에서 중요한 점의 분포는 몇 가지 특징을 보인다. 첫째, 실제 스펙트럼이 존재하는 부분이 중요하다고 판별되었다. 대부분의 모멘텀 영역에서 페르미 준위 부근에 중요한 속성이 다수 분포하는데, 상호작용 없는 극한에서 금속인 BaOsO3의 전자구조를 생각할 때 자연스러운 결과이다. 둘째, 대칭성이 높은 점이 선택된 비율이 높다. 대칭성이 높은 점이 중요하다고 판별되는 비율을 정량적으로 나타내기 위해 전체 띠 경로점 중 대칭성 높은 점 부근의 모멘텀이 선택되는 비율을 조사하였다. 전체 속성 가운데 대칭성이 높은 점이 차지하는 비율은 (6×128)/(128×128) 0.047이고, 선택된 속성 중 대칭성 높은 점의 비율은 평균 243/3546 0.069이어서 선호되는 경향을 보인다. 모멘텀 공간에서 극대점과 극소점이 대칭성 높은 점에서 나타나므로, 다른 모멘텀에 비해 상대적으로 넓은 범위의 에너지 영역에서 0이 아닌 스펙트럼을 가지기 때문으로 추측된다. 대칭성 높은 점과 가장 가까운 점 두 개를 추가로 고려할 때에는 이 비율이 각각 (3×6×128)/(128×128) 0.14, 727/3546 0.21이 되어 격차가 더욱 벌어진다.
공간 대칭성에 따라 변형된 전자구조는 속성 선택에도 영향을 미친다. Figure 5는 격자 변형 정도에 따라 전체 속성 중 대칭성 높은 점과 그 주변 모멘텀이 중요한 속성으로 선택될 확률을 보여준다. 입방정계와 정방정계에서 가장 큰 차이를 보이는 점은 Γ와 R인데, 둘 모두 정방정계에서 중요도가 크게 상승하였다. 이 두 점은 입방정계에서는 분류를 위한 유효한 정보를 제공하는 것이 상대적으로 어려운데, 모멘텀의 세 공간 성분이 모두 같기 때문에 반강자성 질서의 유형에 따라
지도 학습의 자료 전처리 과정에 비지도 학습을 활용하여 변형이 있는 BaOsO3 격자계에서 반강자성 질서 분류 성능을 향상하는 속성을 분석하였다. 하트리-폭 근사를 통해 각 변형과 반강자성 질서에 대해 자료집합을 구성하였으며, 기계학습 수행을 위한 전처리 과정에서 전자구조를 띠 경로점이 투영된 스펙트럼과 대칭성 높은 점에 투영된 스펙트럼 형태로 가공하였다. 우리는 랜덤 포레스트 모형으로 두 가지 다른 속성에 대한 기계학습 모형의 성능을 검증하여, 중요한 정보만 선별할 경우 현저히 적은 수의 속성으로 같은 정확도를 구현할 수 있음을 보였다. 나아가 비지도학습을 통한 속성 선택을 통해 격자계의 공간대칭성이 변함에 따라 중요한 속성에 차이가 있는지를 관찰하였다.
선택된 속성은 에너지 값으로는 페르미 준위 부근, 모멘텀 기준으로는 대칭성이 높은 점 근처에서 높은 분포를 보인다. 실제 물리적 직관에 기반을 두고 스펙트럼을 분석하여 반강자성 질서를 분류코자 할 때 페르미 준위에서의 띠 에너지 구조와 대칭성이 높은 모멘텀에서의 띠 에너지 준위를 관찰하는 것이 일반적이다. 따라서 속성 선택 알고리듬이 이러한 속성을 선택하는 것이 물리적으로 새로운 발견은 아니다. 그러나 다른 정보가 주어지지 않은 상태에서 단순 비지도학습을 수행하였을 때 실제 물리적으로 중요한 속성이 선택되었다는 점에 기대어, 직관에 의지하기 어려운 복잡한 계에 대해서도 이러한 방식의 속성 선택을 통해 효율적인 기계학습이 가능할 것이라 예상할 수 있다. 따라서 결정 나무 알고리듬을 이용하여 자성 분류 모형 학습을 수행한다면 페르미 준위 부근과 대칭성 높은 점을 중심으로 스펙트럼 자료를 수집하는 것이 바람직할 것이다. 다만 이 연구 결과에 따르면 대칭성에 따라 중요한 속성이 달라질 수 있으므로 다양한 대칭성과 구조에 대한 후속 연구가 필요하다.
본 연구는 한국연구재단의 지원을 받아 수행된 연구입니다(No. NRF-2021R1C1C1010429).