Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2023; 73: 785-800
Published online September 30, 2023 https://doi.org/10.3938/NPSM.73.785
Copyright © New Physics: Sae Mulli.
A Young Choi*, Jeong Han Kim†, Se Hwan Lim, Jun Seung Pi*
Department of Physics, Chungbuk National University, Cheongju 28644, Korea
Correspondence to:†E-mail: jeonghan.kim@cbu.ac.kr
*These authors contributed equally to this work.
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
The nonlinear evolution of large scale structures (LSSs) can disclose key cosmological information for understanding the physics beyond the standard model. In recent years, the use of deep neural networks in the direct extraction of cosmological information from LSS maps has gained increasing attention among research community. As the evolution of LSSs is governed by a growth factor that depends on contents of the universe combined with nonlinear effects, if neural networks can capture correlations at various epochs, then precision measurements of cosmological parameters can be improved. In this paper, we perform N-body simulations and demonstrate that image-based transformer networks configured for time-series data can be enhanced for the accurate extraction of Ωm and σ8 parameters.
Keywords: Cosmology, Large scale structure, Deep neural networks
우주 거대구조의 비선형 진화과정 속에는 표준모형 너머 새로운 우주론적 패러다임을 구축하기 위해 필요한 중요한 정보가 담겨있기 때문에, 이를 정밀하게 탐색하는 일은 현대 우주론에서 중요한 과제이다. 최근 딥러닝(deep learning)을 활용하여 직접 거대구조 이미지로부터 우주론적 매개변수를 효율적으로 추정하는 연구가 활발히 이루어지고 있다. 거대구조 시계열 데이터 속에는 비선형 효과와 함께 당시 우주를 이루는 에너지 밀도에 대한 정보가 들어가 있기 때문에 시계열 데이터의 상관관계를 효과적으로 학습 할 수 있는 딥러닝 기법을 활용하면 매개변수 추정의 정확도를 높힐 수 있다. 본 논문에서는 트랜스포머(Transformer) 기반 딥러닝 모델을 고안하고, 이를 바탕으로 물질 밀도 계수(Ωm) 및 물질 요동 진폭을 정량화한 변수(σ8)를 추정하는 방법을 소개한다.
Keywords: 우주론, 우주 거대구조, 딥러닝
최근 천문학적 관측 기기의 고도화에 힘입어 우리는 우주론적 데이터로부터 우주의 기하학적 구조, 팽창 속도, 구성 성분, 원시 양자 섭동 등 우주의 기원에 관한 정보를 매우 정밀하게 탐색할 수 있게 되었다. 현대 우주론의 표준 모형으로 일컬어지는 Lambda Cold Dark Matter (ΛCDM ), 모형은 이러한 우주의 성질을 현재 중입자 밀도 변수
현재까지 ΛCDM, 모형은 대부분의 관측 결과를 잘 설명해 주고 있으나, 허블 상수 문제 [1], S8 문제2 [2] 등, 몇몇 중요한 매개변수들의 측정값들이 서로 불일치하는 문제점을 안고 있다. 그뿐만 아니라, 뾰족한 헤일로(halo) 문제[3, 4], 왜소은하 문제[5, 6] 등
Planck 위성[7]이 관측한 우주배경복사(cosmic microwave background, CMB)는 지금까지 가장 정밀하게 측정된 우주론적 데이터 중 하나이며 적색편이(redshift)가 약
Best-fit values and corresponding 68% errors for ΛCDM parameters measured by Planck 2018 collaboration.
Parameters | Best fit |
---|---|
h | |
ns | |
반면, 3차원 우주 거대구조(large scale structure, LSS)는 이러한 차원의 제약이 없고, 우리는 낮은 적색편이
거대구조에서의
지난 수년간 거대구조에서 딥러닝을 활용하여 대표적인 매개변수
반면, Convolution Neural Networks (CNN)[36]은 직접 거대구조 이미지와
여기서 한 가지 중요한 점은 거대구조는 시간에 따라 진화하는 시계열 데이터라는 것이다. 한 예로, 앞으로 계획된 거대구조 탐사 EUCLID[37, 38]는 적색편이(redshift)
단, a는 팽창하는 우주의 척도인자(scale factor)를 나타내며 현재 우주를 기준으로 a=1로 정규화 되어있다3.
본 논문에서는 중력 시뮬레이션으로 생성된 거대구조의 시계열 데이터에 최적화된 딥러닝 모델을 제안하고, 이를 활용하여 우주론적 매개변수
본 논문의 구성은 다음과 같다. Section II는 중력 시뮬레이션을 사용하여 거대구조 데이터를 생성하는 과정을 설명하고, 딥러닝 분석에 사용될 데이터 준비 과정에 대해서 상세히 기술한다. Section III는 CNN, ViT, DeiT 딥러닝 모델을 소개하고, Section IV는 딥러닝 모델이 추정한
본 논문에서 사용한 거대구조 시뮬레이션은 입자 그물망(particle mesh) 기법을 사용하여 중력 상호작용의 계산 속도를 높인 Fast Particle Mesh (FastPM) [41]이다. 시뮬레이션은 한 변의 길이가
이렇게 생성된 데이터를 크게 학습 데이터(training data), 검증 데이터(validation data), 그리고 테스트 데이터(test data)로 나누어 분류하였다. 최대한 넓은 영역의
Figure 1은 FastPM으로 생성된 테스트 데이터(
엄밀히 관측에 가까운 데이터를 사용하기 위해서는 중입자(baryon)들도 포함하여 복잡한 유체역학(hydrodynamics) 효과를 고려해야 하고, 헤일로들로 이루어진 광원뿔 데이터를 사용해 한다. 중입자들을 고려하지 않더라도, 암흑물질의 3차원 밀도장의 총 공변부피(comoving volume)와 암흑물질 헤일로로 구성된 광원뿔 데이터의 총 공변부피 비슷한 경우, 암흑물질의 3차원 밀도장을 사용해도 근사한 결과를 얻을 수 있으나 암흑물질의 3차원 밀도장 데이터를 특정 적색편이 지점을 선택해서 분석하는 경우 광원뿔 데이터 대비 차이가 발생할 수 있다. 하지만, 본 논문의 요지는 얼마나 실제 관측과 비슷한 데이터를 바탕으로 딥러닝 모델을 학습 시키는지에 있지 않고, 가장 단순한 암흑물질의 시계열 밀도장 데이터를 가정했을 때, 이를 효과적으로 학습할 수 있는 딥러닝 모델에는 어떤 것이 있으며, 어느 정도의 개선 효과를 가져올 수 있는지를 알아보는 것이다. 본 논문에서 활용한 딥러닝 모델이 이러한 실제와 유사한 관측 데이터에서도 작동하는지 확인하기 위해서, 암흑물질 헤일로들로 이루어진 광원뿔 데이터를 분석한 결과에 대해서 Appendix A에 서술하였다. 데이터 생성 방식이 다르기 때문에 본문의 분석결과와 동등 비교하기는 어려우나, 실제 관측에 가까운 광원뿔 데이터를 사용할 경우 딥러닝 모델의 성능에 차이가 생길 수 있다. 예를 들어, 암흑물질 밀도장 데이터의 경우 주기적 경계조건 때문에 10개의 서로 다른 적색편이에서 암흑물질의 총 양은 변하지 않는다. 반면, 광원뿔 데이터는 서로 다른 적색편이에서 모두 다른 암흑물질의 양을 갖는다는 차이점이 있다. 따라서 기본적인 딥러닝 모델이 암흑물질 밀도장 데이터를 기반으로 최적화 된다면, 광원뿔 데이터에서는 효과적으로 작동하지 않을 수 있다.
본 절에서는 중력 시뮬레이션으로 생성된 시계열 거대구조 데이터와 우주론적 매개변수 사이의 상관관계를 효과적으로 학습할 수 있는 딥러닝 모델에 대해서 집중적으로 논의한다.
CNN은 이미지 속에서 유의미한 패턴을 추출하는 가장 보편적인 이미지 기반 딥러닝 모델이다. 이 모델의 합성곱 층(convolution layer)에서는 유한한 크기를 갖는 커널(kernel)이 이미지를 국지적으로 훑으며(stride) 지역별로 중요한 특징을 찾아낸다. 그다음, 풀링 층(pooling layer)에서는 각 영역에서 추출된 픽셀 중에서 오직 최댓값 혹은 평균값만 대표로 취한 후, 나머지 불필요한 픽셀들은 지워버린다. 이 과정에서 입력 이미지의 크기가 줄어들게 된다. 이 두 개의 층은 보통 쌍으로 구성되며, 이미지의 크기가 충분히 줄어들 때까지 여러 번 반복된다. 이를 통해 이미지 전반에 걸쳐 주요 특징만 추출 해낼 수 있으며, 최종적으로 축소된 이미지는 밀집 층(dense layer) 딥러닝 모델에 전달된다.
Figure 2는 본 논문에서 사용한 CNN 모델의 구조를 요약한 것이다. 입력 이미지의 차원은
최종적으로 축소된
단
데이터를 학습하는 과정에서 사용한 학습률은 10-4이며, 최적화 함수는 Adam optimizer[45], 손실 함수(loss function)는 평균제곱오차(mean-square-error)이다. 총 학습 데이터의 수를
딥러닝 모델의 학습이란 이 손실 함수를 최소화하는 방향으로 초매개변수(hyperparameter)7를 최적화하는 과정을 의미하며 일반적으로 학습 데이터의 양이 많을수록 예측 정확도가 높아진다.
앞서 기술한 CNN 모델을 Pytorch[46] 프로그램 상에 구현하였다. 배치 크기는 메모리 제한으로 인해 4로 설정하였으며, NVIDIA A40 그래픽 카드를 사용하여 CNN 모델을 학습하였다. 이때 약 100번의 세대(epoch)8가 시행되며, 대략 7시간 정도가 소요된다. Figure 3의 왼쪽 그래프는 CNN 모델에 대하여 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 두 개의 손실 함수 줄어드는 경향을 보이므로 과소적합(underfitting) 현상은 일어나지 않았다. 전반적으로 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합(overfitting) 현상은 없으나, 세대가 커질수록 과적합이 시작되는 것을 확인 할 수 있다. 과적합을 방지 하기 위하여, 다음과 같은 기준을 만족하는 세대를 선택하였다. 첫째, 검증 데이터의 손실 함수가 학습 데이터의 손실 함수보다 작을 것. 둘째, 검증 데이터의 손실 함수가 최소가 되는 세대를 기준으로 삼되, 참값(
CNN 모델에서 풀링 층은 각 국지적 영역에서 추출된 픽셀 중에서 오직 최댓값 혹은 평균값만 대표로 취하기 때문에 정보 손실의 문제가 발생한다. 반면, ViT는 이러한 정보 손실의 문제 없이 이미지의 중요한 특징을 추출 해낼 수 있는 트랜스포머 기반 딥러닝 모델이다. ViT는 이미지를 패치(patch)라는 작은 조각으로 분할하고, 특유의 주의(attention) 메커니즘을 활용하여 어떤 패치들이 가장 중요한지를 찾아내는 전략을 사용한다.
Figure 4은 ViT 모델의 전반적인 구조를 나타내며, 세부적으로 임베딩(embedding), 트랜스포머 인코더(transformer encoder), 그리고 다층 퍼셉트론 헤드(multi-layer perceptron head, MLP Head) 모듈로 구성된다.
첫째, 임베딩이란 입력 이미지를 작은 패치로 분할하고, 일련의 벡터로 변환하는 과정을 의미한다.
Equation (4)의 임베딩 행렬 z 가장 앞에 학습 가능한9 길이가 D=64인 클래스 토큰(class token) 벡터
둘째, 트랜스포머 인코더 모듈은 크게 다중헤드 주의(multi-head attention, MHA)과 다층 퍼셉트론(multi-layer perceptron, MLP)의 단계로 구성된다. MHA 단계에서는 먼저 임베딩 행렬의 행벡터 zi를(
단,
여기서 q, k, v는 각각 쿼리, 키, 밸류 행렬을 나타내며, H= 16은 가중치 행렬의 열 길이를 결정한다. 쿼리와 키 행렬은 서로 다른 이미지 패치를 상징하고, 밸류 행렬은 이 두 패치에 가장 적합한 픽셀 정보를 의미한다. Equation (7)에서 쿼리와 키 행렬의 유사도를 나타내는 주의 행렬 A는 다음과 같이 두 행렬의 곱으로 주어진다.
단, 각 성분은
이처럼 Eqs. (7)–(9) 과정을 독립적으로 H=16번 반복하면
총 H=16개의
이
차원
이를 Eq. (5)의 임베딩 행렬 z와 함께 더하면
MSA 임베딩 행렬을 얻을 수 있다.
MLP 단계에서는 Eq. (11)의 임베딩 행렬 zMSA을 다시 레이어 정규화한 후, 두 개의 밀집 층(뉴런의 개수가 각각 256개와 64개)로 이루어진 MLP층으로 전달된다. 이때 밀집 층의 활성화 함수로 GELU11를 사용하였다.
트랜스포머 인코더의 최종 출력값은 Eq. (11)의 zMSA을 더해 다음과 같이 주어진다.
여기까지의 과정 Eqs. (6)–(12)가 트랜스포머 인코더 모듈에 해당하며, 이 모듈을 총 L=6번 반복했을 때 l 번째와 l-1 번째 임베딩 행렬 z 사이의 점화식을 다음과 같이 표현할 수 있다.
단,
셋째, MLP Head 모듈에서는 마지막 임베딩 행렬
여기서 b는 길이가 2인 편향(bias) 벡터를 의미한다. 최종 출력 성분 pi는(
배치 크기는 메모리 제한으로 인해 4로 설정하였으며, 학습 과정에서 사용한 딥러닝 패키지, 학습률, 최적화 함수, 손실 함수는 CNN 모델과 동일하다. NVIDIA A40 그래픽 카드를 사용하여 약 150번의 세대가 시행되며, 대략 6시간 정도가 소요된다. Figure 3의 중간 그래프는 ViT 모델에 대하여 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 두 개의 손실 함수 모두 줄어드는 경향을 보이므로 과소적합 현상은 일어나지 않았고, 세대 전반에 걸쳐 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합은 일어나지 않았다. 과적합을 방지하기 위하여 선택한 세대의 기준은 CNN 모델과 동일하다.
ViT 모델은 일반적으로 최적의 성능을 달성하기 위해 많은 양의 학습 데이터가 필요하지만, 데이터의 양이 적을 때는 CNN보다 성능이 떨어질 수 있다. 현실적으로 막대한 계산 자원을 필요로 하는 거대구조 시뮬레이션의 경우 많은 양의 데이터를 확보하기가 쉽지 않다. DeiT는 적은 양의 학습 데이터로 최적의 성능을 얻을 수 있는 딥러닝 모델이며, ViT 모델의 문제점을 보완해줄 수 있다. DeiT는 증류(distillation) 메커니즘을 활용하여 한 개의 신경 네트워크(학생)가 다른 네트워크(교사)의 예측을 모방하도록 학습하는 전략을 사용한다.
Figure 5는 DeiT 모델의 전체적인 구조를 나타내며, 하위 구조로 구성된 ViT와 CNN이 각각 학생과 교사 모델의 역할을 수행한다. 적은 수의 데이터로도 효과적인 학습을 할 수 있는 CNN을 교사 모델로 채택함으로써 학생 모델인 ViT가 이러한 장점을 모방하여 성능을 향상시키는 구조이다. DeiT의 학생 모델은 길이가 D=64인 증류 토큰(distillation token) 벡터
CNN이 예측한 정보를 참조하여,
MLP Head 모듈에서는 최종 임베딩 행렬
여기서
총 학습 데이터의 수를
손실함수
한편, 최종 출력 성분
총 손실 함수는
여기서 α는 두 손실 함수 사이의 가중치를 나타내며 α=0.2로 설정하였다. 데이터를 학습하는 과정에서 사용한 학습률 및 최적화 함수는 CNN 모델과 동일하며, 교사와 학생 모델의 초매개변수와 배치 크기는 각각 Section III1와 Section III2에서 사용한 초매개변수와 배치 크기를 그대로 활용하였다.
배치 크기는 메모리 제한으로 인해 4로 설정하였으며, 학습 과정에서 사용한 딥러닝 패키지, 학습률, 최적화 함수, 손실 함수는 CNN 모델과 동일하다. NVIDIA A40 그래픽 카드를 사용하여 약 150번의 세대가 시행되며, 대략 13시간 정도가 소요된다. Figure 3의 오른쪽 그래프는 DeiT 모델에 대하여 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 두 개의 손실 함수 모두 줄어드는 경향을 보이므로 과소적합 현상은 일어나지 않았고, 세대 전반에 걸쳐 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합은 일어나지 않았다. 과적합을 방지 하기 위하여 선택한 세대의 기준은 CNN 모델과 동일하다.
Figure 6는 참값 (
Figure 6(왼쪽)은 적색편이가 z = 0인 데이터만 학습했을 때 결과이다. 먼저
이번에는
다음으로, CNN, ViT, DeiT의 성능을 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 분산14을 이용해서 비교해보았다. 분산이 작을 수록 정밀도가 높다고 할 수 있다. CNN, ViT, DeiT 모델의 분산은 각각 0.0337, 0.0402, 0.0271으로 DeiT가 가장 작으며, 그 다음 CNN과 ViT 순서로 나타났다. 요컨대, 적색편이가 z = 0인 데이터만 학습했을 때 ViT은 CNN과 유사한 성능을 보이는 반면, DeiT의 성능은 이 둘보다 두드러지게 좋았다.
Figure 6(오른쪽)는 넓은 적색편이 영역
다음으로, CNN, ViT, DeiT의 분산은 각각 0.0206, 0.0206, 0.0164으로 CNN과 ViT는 유사한 예측 정밀도를 보인 반면, DeiT은 앞선 두 모델보다 높은 정밀도를 보여주었다. 또한 시계열 데이터의 상관관계를 학습했을 때, 분산의 크기가 크게 줄어드는 것을 확인할 수 있고, 모든 모델에서 정밀도가 향상되었다.
Figure 6에서 한 가지 주목할 점은
Table 2는 지금까지의 분석 내용을 정리한 것이다.
Summary of predicted values of
Redshifts | Models | σ | ||||||
---|---|---|---|---|---|---|---|---|
Offsets | 68% intervals (centered at the average value) | 68% intervals (centered at the truth value) | Offsets | 68% intervals (centered at the average value) | 68% intervals (centered at the truth value) | |||
z=0 | CNN | 0.0337 | 0.0064 | 0.0055 | ||||
ViT | 0.0402 | 0.0083 | 0.0060 | |||||
DeiT | 0.0271 | 0.0022 | 0.0050 | |||||
CNN | 0.0206 | 0.0053 | 0.0002 | |||||
ViT | 0.0206 | 0.0082 | 0.0038 | |||||
DeiT | 0.0164 | 0.0027 | 0.0040 |
Figure 7의 위쪽 그래프는 학습 및 검증 데이터와 같이 격자 구조의 영역에서 생성한 180개의 테스트 데이터 중
Figure 7의 위쪽 그래프(
거대구조의 비선형 진화과정 속에는 암흑물질, 암흑에너지, 우주 급팽창 메커니즘 등 다양한 우주론적 정보가 담겨있기 때문에, 이를 정밀하게 탐색하는 일은 현대 우주론에서 중요한 과제 중 하나이다. 하지만, 선형 섭동 방정식으로 기술할 수 없는 비선형 영역에서는 이론값의 오차가 상당히 커서 관측 데이터와의 비교가 단순하지 않다는 문제점이 있다. 그래서 최근 수년간, 전통적인 통계적 분석 방법을 넘어, 딥러닝을 활용하여 직접 3차원 거대구조 이미지로부터 우주론적 매개변수를 추정하는 연구가 활발하게 이루어져왔다.
본 논문에서 특히 주목한 점은 거대구조 데이터는 시간에 따라 진화하는 시계열 데이터이기 때문에 탐색할 수 있는 시계열 구간이 넓고 조밀할수록 자세한 우주론적 정보를 얻을 수 있다는 것이다. 본 논문은 트랜스포머 기반 딥러닝 모델 ViT과 DeiT를 활용하여, 거대구조 시계열 데이터의 상관관계를 효과적으로 학습할 수 있는 인공 신경망 모델을 제시하였다. 이를 바탕으로, 다체 중력 시뮬레이션으로 생성된 거대구조 데이터에서 물질 밀도 계수
그 결과 DeiT 모델의 예측 정확도 및 정밀도가 CNN과 ViT보다 확연히 좋았다. 단, CNN과 ViT의 예측 성능은 큰 차이가 없는 것으로 나타났다.
그리고 CNN, ViT, DeiT 모델 모두 시계열 데이터의 상관관계를 학습 했을 때 예측 성능이 크게 향상되었으며,
한편, 본 논문에서 활용한 CNN/ViT/DeiT 딥러닝 모델이 실제와 유사한 관측 데이터에서도 작동하는지 확인하기 위해서, 암흑물질 헤일로들로 이루어진 광원뿔 데이터를 바탕으로 분석을 시도하였다. 데이터 생성 방식이 다르기 때문에 본문의 분석결과와 동등 비교하는 것은 어려우나, 딥러닝 모델 사이의 상대 비교를 시도하였다. 그 결과 CNN의 성능이 가장 좋았고 ViT 및 DeiT의 성능은 이에 미치지 못했다. 광원뿔 데이터의 경우 암흑물질 헤일로의 밀도장을 대상으로 하고 특정 적경 및 적위의 범위에 국한된 헤일로 정보를 동일한 픽셀상에 표현하기 때문에 암흑물질 밀도장 대비 0을 갖는 픽셀이 상당히 많다. 이로 인해 트랜스포머 계열의 모델은 광원뿔 데이터의 상관관계를 학습하여 일반화 하는데 어려움을 겪는 것으로 보인다. 이를 보완하기 위해서는 데이터 증강이 필수지만, 계산 자원의 한계로 데이터를 생성하지 못했다. 그러나 CNN은 적은 데이터로도 여러 가정으로부터 효과적으로 일반화할 수 있는 네트워크 구조를 가진다. 따라서 실제 관측에 가까운 광원뿔 데이터를 사용할 경우, 기본적인 CNN 모델만으로도 매개변수 추정에 대해 준수한 결과를 얻을 수 있었다. 또한, 트랜스포머 계열 모델의 성능을 향상시킬 여지가 있을 수 있으며, 이는 후속 연구를 통해 좀 더 깊이 있는 조사를 진행할 예정이다.
이 논문은 2020학년도 충북대학교 학술연구지원사업의 연구비 지원에 의하여 연구되었으며 (This work was supported by the research grant of the Chungbuk National University in 2020), 또한 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(No. 2021R1C1C1005076).
1 허블 상수
2
3 척도인자와 적색편이 사이의 관계식은
4 시뮬레이션의 한 변의 길이(L)와 한 변의 메쉬 크기(Nm)을 이용하여 대략적인 최소 및 최대 파수는 (
5 시뮬레이션에서 사용된 정육면체 가상 우주공간은 주기적 경계조건(periodic boundary condition)을 사용하고 있기 때문에, 한 쪽 면으로 빠져나간 입자는, 반대 쪽 면에서 들어오도록 설정되어 있다. 따라서, 적색편이가 변화함에 따라 정육면체 경계면에 있는 암흑물질 밀도장의 구조는 실제 우주와는 차이가 있다.
6 LeakyReLU 함수의 정의는 다음과 같다.
단, 여기서 x는 뉴런의 성분을 의미한다.
7 가중치(weight)라고 부르기도 한다.
8 데이터 세트를 딥러닝에 반복학습 시키는 횟수를 의미한다.
9 딥러닝 모델에서 학습 가능한 변수란 손실 함수를 최소화하는 과정에서 결정되는 초매개변수를 의미한다.
10 총 N개의 원소
11 GELU 함수의 정의는 다음과 같다.
12 여기서 참값(truth value)이란 1000개의 테스트 데이터를 생성할 때 사용한 ΛCDM 매개변수 (
13 여기서 오차율은
14 여기서 분산은
본 절에서는 CNN/ViT/DeiT 딥러닝 모델이 실제 천문학적 관측과 유사한 데이터에서도 작동하는지 확인하기 위해서, 암흑물질 헤일로(halo)들로 이루어진 광원뿔(light cone) 데이터를 PINpointing Orbit Crossing Collapsed HIerarchical Objects (PINOCCHIO)[47] 시뮬레이션으로 생성한 후, 분석을 수행하였다. 시뮬레이션에 사용된 매개변수는
PINOCCHIO 시뮬레이션은 한 변의 길이가 1
이렇게 생성된 광원뿔 데이터는 적경, 적위, 적색편이의 삼차원으로 균등하게 1283 픽셀로 나누어 저장하였다. 각 픽셀은 적경 0.3125°과 적위 0.15625°의 크기를 가지며 픽셀 내부의 부피와 그 안에 포함되는 헤일로 질량의 합을 이용하여 밀도를 계산하였다. 단, 헤일로의 수가 0인 픽셀의 밀도는 0으로 계산하였다.
암흑물질 헤일로 질량 함수는 우주론적 매개 변수에 강한 의존성을 가지며, 결과적으로 각 시뮬레이션에서의 암흑물질 헤일로 수는 일정량의 우주 정보를 제공한다. 그러나, 각 시뮬레이션에서 개별 암흑물질 입자의 질량과 관련된 최소 헤일로 질량은 결정적으로
Figure A1은 딥러닝 모델의 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 왼쪽 그래프가 CNN, 중간 그래프가 ViT, 오른쪽 그래프가 DeiT 결과를 나타낸다. CNN 모델은 Section III1에서 기술한 내용과 같으며, NVIDIA A40 그래픽 카드를 사용하여 약 120번의 세대가 진행되는 동안, 대략 7시간 정도가 소요된다. ViT 및 DeiT 모델도 각각 Section III2 및 Section III3에서 기술한 내용과 같으며 ViT의 경우 약 150번, DeiT의 경우 약 120번의 세대가 시행되며, 각각 5시간, 9시간 정도가 소요된다. 세 모델 모두 손실 함수가 줄어드는 경향을 보이므로 과소적합 현상은 일어나지 않았다. 전반적으로 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합 현상은 없으나, DeiT를 제외하고 세대가 커질수록 과적합이 시작되는 것을 확인할 수 있다. 과적합을 방지하기 위하여, 본문에서 기술한 기준을 만족하는 세대를 선택하였다.
Figure A2는 참값
Figure A3은 Latin Hypercube Sampling 방법으로 생성한 180개의 테스트 데이터를 사용하여, 각각의 매개변수 지점에서 학습을 5번 반복한 후 얻은
따라서 광원뿔 데이터로 매개변수를 예측했을 경우, CNN 모델의 결과가 가장 좋은 반면, 본문에서 기술한 암흑물질 밀도장 데이터로 매개변수를 예측했을 경우 DeiT 모델의 결과가 가장 좋게 나왔다. 이처럼 다른 결론이 나온 이유는 다음과 같이 생각할 수 있다. 첫째, 먼저 광원뿔 데이터와 암흑물질 밀도장 데이터를 생성하는 과정에 큰 차이가 있다. 광원뿔 데이터의 경우 Latin Hypercube 샘플링 방식으로 변수를 선택한 반면, 암흑물질 밀도장 데이터의 경우 격자구조의 형식으로 변수를 선택하였다. 이외에도 적색편이의 범위, 시뮬레이션 상자의 크기 및 입자 수 등 여러 부분에서 차이가 있다. 둘째, 본문 및 부록에서 사용한 딥러닝 모델의 구조는 암흑물질 밀도장 데이터에 맞게 최적화된 상태이다. 광원뿔 데이터에 대한 극도의 최적화를 진행할 경우, ViT 및 DeiT의 결과를 개선할 여지가 있을것으로 보이지만, 전반적으로 CNN의 결과가 상대적으로 더 좋은 경향을 보인다. 셋째, 광원뿔 데이터의 경우 암흑물질 헤일로의 밀도장을 대상으로 하고 특정 적경 및 적위의 범위에 국한된 헤일로 정보를 동일한 픽셀상에 표현하기 때문에 암흑물질 밀도장 대비 0을 갖는 픽셀이 상당히 많다. 이로 인해 트랜스포머 계열의 모델은 광원뿔 데이터의 상관관계를 학습하여 일반화 하는데 어려움을 겪는 것으로 보인다. 이를 보완하기 위해서는 데이터 증강이 필수지만, 계산 자원의 한계로 데이터를 생성하지 못했다. 그러나 CNN은 적은 데이터로도 여러 가정으로부터 효과적으로 일반화할 수 있는 네트워크 구조를 가진다. 따라서 실제 관측에 가까운 광원뿔 데이터를 사용할 경우, 기본적인 CNN 모델만으로도 매개변수 추정에 대해 준수한 결과를 얻을 수 있었다. 또한, 트랜스포머 계열 모델의 성능을 향상시킬 여지가 있을 수 있으며, 이는 후속 연구를 통해 좀 더 깊이 있는 조사를 진행할 예정이다.