npsm 새물리 New Physics : Sae Mulli

pISSN 0374-4914 eISSN 2289-0041
Qrcode

Article

Research Paper

New Phys.: Sae Mulli 2023; 73: 785-800

Published online September 30, 2023 https://doi.org/10.3938/NPSM.73.785

Copyright © New Physics: Sae Mulli.

Leveraging Transformers for Cosmological Parameter Estimation from a Large Scale Structure

우주 거대구조에서 트랜스포머를 활용한 우주론적 매개변수 추정

A Young Choi*, Jeong Han Kim, Se Hwan Lim, Jun Seung Pi*

Department of Physics, Chungbuk National University, Cheongju 28644, Korea

Correspondence to:E-mail: jeonghan.kim@cbu.ac.kr
*These authors contributed equally to this work.

Received: June 26, 2023; Revised: August 22, 2023; Accepted: August 22, 2023

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

The nonlinear evolution of large scale structures (LSSs) can disclose key cosmological information for understanding the physics beyond the standard model. In recent years, the use of deep neural networks in the direct extraction of cosmological information from LSS maps has gained increasing attention among research community. As the evolution of LSSs is governed by a growth factor that depends on contents of the universe combined with nonlinear effects, if neural networks can capture correlations at various epochs, then precision measurements of cosmological parameters can be improved. In this paper, we perform N-body simulations and demonstrate that image-based transformer networks configured for time-series data can be enhanced for the accurate extraction of Ωm and σ8 parameters.

Keywords: Cosmology, Large scale structure, Deep neural networks

우주 거대구조의 비선형 진화과정 속에는 표준모형 너머 새로운 우주론적 패러다임을 구축하기 위해 필요한 중요한 정보가 담겨있기 때문에, 이를 정밀하게 탐색하는 일은 현대 우주론에서 중요한 과제이다. 최근 딥러닝(deep learning)을 활용하여 직접 거대구조 이미지로부터 우주론적 매개변수를 효율적으로 추정하는 연구가 활발히 이루어지고 있다. 거대구조 시계열 데이터 속에는 비선형 효과와 함께 당시 우주를 이루는 에너지 밀도에 대한 정보가 들어가 있기 때문에 시계열 데이터의 상관관계를 효과적으로 학습 할 수 있는 딥러닝 기법을 활용하면 매개변수 추정의 정확도를 높힐 수 있다. 본 논문에서는 트랜스포머(Transformer) 기반 딥러닝 모델을 고안하고, 이를 바탕으로 물질 밀도 계수(Ωm) 및 물질 요동 진폭을 정량화한 변수(σ8)를 추정하는 방법을 소개한다.

Keywords: 우주론, 우주 거대구조, 딥러닝

최근 천문학적 관측 기기의 고도화에 힘입어 우리는 우주론적 데이터로부터 우주의 기하학적 구조, 팽창 속도, 구성 성분, 원시 양자 섭동 등 우주의 기원에 관한 정보를 매우 정밀하게 탐색할 수 있게 되었다. 현대 우주론의 표준 모형으로 일컬어지는 Lambda Cold Dark Matter (ΛCDM ), 모형은 이러한 우주의 성질을 현재 중입자 밀도 변수 Ωbh2, 암흑물질 밀도 변수 Ωch2, 축소된(reduced) 허블 상수1 h, 스칼라 스펙트럼 지수 ns, 곡률 요동 진폭 As, 그리고 재이온화 광학적 깊이 τreio 총 6개의 매개변수를 사용하여 체계적으로 기술하고 있다.

현재까지 ΛCDM, 모형은 대부분의 관측 결과를 잘 설명해 주고 있으나, 허블 상수 문제 [1], S8 문제2 [2] 등, 몇몇 중요한 매개변수들의 측정값들이 서로 불일치하는 문제점을 안고 있다. 그뿐만 아니라, 뾰족한 헤일로(halo) 문제[3, 4], 왜소은하 문제[5, 6] 등 O(1)Mpc 이하의 작은 규모에서 관측된 은하의 군집 현상을 ΛCDM, 모형으로 일괄되게 설명하기엔 한계가 있다. 이에 기인하여 지난 수년간 ΛCDM, 모형의 매개변수 측정 방법을 다변화하고, 정밀도를 향상시키는 방법을 통해 ΛCDM, 모형 너머 새로운 우주론적 패러다임을 구축하기 위한 노력이 이어지고 있다.

Planck 위성[7]이 관측한 우주배경복사(cosmic microwave background, CMB)는 지금까지 가장 정밀하게 측정된 우주론적 데이터 중 하나이며 적색편이(redshift)가 약 z~1100일 때 당시 우주의 정보를 담고 있다. Table 1는 이로부터 측정된 ΛCDM, 모형 매개변수들의 최적 적합(best-fit) 값과 68% 오차 영역을 나타낸 것이다. 우리가 비록 CMB로부터 우주의 주요 성질에 대한 정보를 높은 정밀도로 알아낼 수 있었으나, 2차원에 국한된 데이터의 특성상 제한된 정보밖에 얻을 수 없다.


Best-fit values and corresponding 68% errors for ΛCDM parameters measured by Planck 2018 collaboration.


ParametersBest fit ±1σ
Ωch20.1198±0.0012
Ωbh20.02233±0.00015
h0.6737±0.54
ln(1010As)3.043±0.014
ns0.9652±0.0042
τreio0.0540±0.0074


반면, 3차원 우주 거대구조(large scale structure, LSS)는 이러한 차원의 제약이 없고, 우리는 낮은 적색편이 z~O(1) 영역에서 은하들의 진화 과정을 분석함으로써 총 물질 밀도 계수(Ωm=Ωb+Ωc), σ8, H0, 암흑에너지 상태 방정식(equation of state) w, 초기 우주의 섭동 등 다양한 우주론적 정보를 얻을 수 있다. 앞으로 수행될 DESI[8, 9], EUCLID[10], LSST[11], WFIRST[12] 등의 거대구조 탐사는 지금보다 더 넓은 영역, 그리고 더 먼 거리에 있는 물질 분포를 높은 정밀도로 측정 할 수 있기 때문에 CMB와 더불어 ΛCDM, 모형을 교차검증할 수 있는 새로운 기회를 제공할 것이다.

거대구조에서의 Ωm, σ8, w과 같은 매개변수를 측정하는 방법으로는 약중력렌즈(weak gravitational lensing) 효과에 의해 일그러진 은하 형태의 상관함수(correlation function)를 분석하거나[13, 14, 15, 16], 은하들이 밀집한 영역에서 최고점의 숫자를 세는 방법(weak lensing peak statistics)[17, 18, 19, 20, 21, 22], 그리고 이 두 방법을 통합한 방식[16, 23, 24] 등이 있다. 그리고 이러한 방법들을 적용하여 Canada-France-Hawaii Telescope Lensing Survey (CFHTLenS)[25], the Kilo-Degree Survey (KiDS)[13], the Dark Energy Survey (DES)[14] 탐사에서 매개변수 측정이 이루어졌다. 이 중 KiDS+VIKING-450 [2]로부터 측정된 S8 값은 S8SZ=0.7370.036+0.040으로 CMB에서 측정된 값[7] S8Planck=0.8300.013+0.013에 비해 약 23σ 정도의 통계적 편차가 존재한다. 이것이 앞서 소개한 S8 문제로, 측정치의 오차를 줄여 편차의 원인을 이해하려는 연구가 진행되고 있지만 전통적인 접근방식으로는 방대하고 복잡하게 얽힌 3차원 물질의 그물망(cosmic web)에서 매개변수를 효과적으로 측정하기란 쉽지 않다. 그뿐만 아니라, 파수(wavenumber) k0.1hMpc-1 이상인 작은 규모에서 중요해지는 비선형 효과로 인해 피할 수 없는 이론적 오차를 감당해야 한다. 이러한 비선형 효과를 고려해서 정밀하게 거대구조를 연구하기 위해서는 물질들 사이의 중력 상호작용뿐만 아니라 중입자(baryon)들의 유체 운동역학까지 정교하게 구현한 다체중력 시뮬레이션이 필요하다. 그리고 딥러닝 기법은 이로부터 생성된 막대한 양의 3차원 거대구조에서 매개변수를 추출할 수 있는 가장 효과적인 방법 중 하나이다.

지난 수년간 거대구조에서 딥러닝을 활용하여 대표적인 매개변수 Ωmσ8를 추정하기 위한 많은 연구가 이루어져 왔다[26, 27, 28, 29, 30, 31, 32, 33, 34, 35]. 가장 기본적인 활용 방법은 거대구조에서 추출한 파워 스펙트럼(power spectrum)과 Ωmσ8 사이의 상관관계를 밀집층(dense layer) 딥러닝 모델을 통해 학습시키는 것이다. 하지만 파워 스펙트럼은 세 지점 이상의 상관함수에 대한 정보를 포함하고 있지 않기 때문에, 거대구조의 제한된 정보만을 담고 있다는 단점이 있다.

반면, Convolution Neural Networks (CNN)[36]은 직접 거대구조 이미지와 Ωmσ8 사이의 상관관계를 효과적으로 학습할 수 있는 대표적인 이미지 기반 딥러닝 모델이다. 중력 시뮬레이션이 더욱 정교해질수록, 미리 학습된 인공 신경망을 활용하여 실제로 관측된 거대구조에서 매개변수를 추정하는 것이 가능해 질 것이다.

여기서 한 가지 중요한 점은 거대구조는 시간에 따라 진화하는 시계열 데이터라는 것이다. 한 예로, 앞으로 계획된 거대구조 탐사 EUCLID[37, 38]는 적색편이(redshift) z[0,2] 영역에서 총 10–13개 구간(bin)의 시계열 데이터를 탐색할 예정이다. 적색편이 영역이 넓고 탐색 구간이 조밀할수록 자세한 우주론적 정보를 얻을 수 있다. 물질 에너지가 지배적인 나중 우주의 선형 진화 과정은 성장함수(growth function) D(a)에 의해 결정된다.

D(a)=5Ωm2H(a)H00a d a ( aH( a)/ H 0)3

단, a는 팽창하는 우주의 척도인자(scale factor)를 나타내며 현재 우주를 기준으로 a=1로 정규화 되어있다3. H(a)은 과거 척도인자가 a일 때 허블값으로 당시 우주의 물질, 진공, 및 곡률 에너지 밀도 계수에 대한 정보를 담고 있으며, Ωm는 현재 우주의 총 물질 밀도 계수를 의미한다. 따라서 거대구조 시계열 데이터 속에는 비선형 효과와 함께 우주론적 매개변수에 대한 추가적인 정보가 들어있는 셈이다. 그러나, 시계열 데이터의 상관관계를 효과적으로 학습하기 위해서는 어떠한 딥러닝 모델을 구축해야 하는지, 그리고 이것이 기존의 결과를 얼마나 개선 시킬 수 있는지에 대한 체계적인 선행연구는 상대적으로 미비한 편이다.

본 논문에서는 중력 시뮬레이션으로 생성된 거대구조의 시계열 데이터에 최적화된 딥러닝 모델을 제안하고, 이를 활용하여 우주론적 매개변수 Ωmσ8의 추정오차를 줄이는 방법을 제시한다. 특히, 기존 CNN 모델의 고질적인 정보손실 문제를 개선한 트랜스포머 기반 딥러닝 모델 Vision Transformer (ViT)[39]과 Data-efficient image Transformer (DeiT)[40]를 활용한다.

본 논문의 구성은 다음과 같다. Section II는 중력 시뮬레이션을 사용하여 거대구조 데이터를 생성하는 과정을 설명하고, 딥러닝 분석에 사용될 데이터 준비 과정에 대해서 상세히 기술한다. Section III는 CNN, ViT, DeiT 딥러닝 모델을 소개하고, Section IV는 딥러닝 모델이 추정한 Ωmσ8의 결과를 보여준다. 마지막으로 Section V는 본 논문의 중요한 결과를 요약하고, Appendix A는 암흑물질 헤일로(halo)들로 이루어진 광원뿔(light cone) 데이터를 분석한 결과를 보여준다.

본 논문에서 사용한 거대구조 시뮬레이션은 입자 그물망(particle mesh) 기법을 사용하여 중력 상호작용의 계산 속도를 높인 Fast Particle Mesh (FastPM) [41]이다. 시뮬레이션은 한 변의 길이가 100h1Mpc인 정육면체 가상 우주공간을 대상으로 하며, 적색편이가 z = 99일 때 2563개의 암흑물질 입자가 균일하게 분포되어 있다4. 초기 우주의 원시 섭동(primordial perturbation)을 반영해 주기 위해, 시뮬레이션 시작 전 각 입자의 초기 속도 및 위치를 2차 라그랑지안 섭동이론(second-order Lagrangian perturbation theory)을 적용하여 변화시켰다. 이 과정에서 필요로 하는 정보 중 하나가 z=0일 때 선형 파워 스펙트럼으로, 이것은 아인슈타인-볼츠만(Einstein-Boltzmann) 방정식을 수치적으로 풀어주는 CLASS (v3.2)[42,43] 프로그램을 사용하여 계산하였다. 시뮬레이션에서 사용한 ΛCDM 매개변수는 Ωch2=0.12, Ωbh2=0.022, h = 0.678, ln(1010As)=3.098, ns=0.966, τreio=0.054으로, 이는 Planck 2015 데이터[44]를 기반으로 CLASS 프로그램에 내장된 기본값들이다. 초기조건을 적용하고 나면, z = 99일 때부터 z = 0일 때까지 중력 시뮬레이션이 실행되며, 적색편이 z = 3.5부터 z = 0 사이를 균일하게 10등분을 한 시점마다 1283 픽셀(pixel)의 3차원 거대구조 이미지를 저장하였다. 정육면체 가상 우주공간의 부피 (100h1Mpc)3를 1283개의 픽셀로 균등하게 나누면, 픽셀 하나의 부피는 약 (0.78h1Mpc)3이 되며, 픽셀 안에 있는 입자의 질량을 더해 밀도를 계산하였다. 단, 입자의 수가 0인 픽셀의 밀도는 0으로 계산하였다5.

이렇게 생성된 데이터를 크게 학습 데이터(training data), 검증 데이터(validation data), 그리고 테스트 데이터(test data)로 나누어 분류하였다. 최대한 넓은 영역의 Ωmσ8 값을 딥러닝 모델에게 두루 학습시키기 위해서 다른 매개변수는 고정한 채 구간 Ωm=[0.05,0.5]σ8=[0.6,1.0] 안에서 0.05 간격으로 값을 변화 시켜가며 한 지점 당 10개 씩, 총 900개의 학습 데이터를 생성하였다. 너무 과도하게 학습 데이터를 기준으로 딥러닝 모델을 최적화하는 과적합(overfitting) 문제를 피하기 위해서는 독립적인 검증 데이터를 별도로 준비해야 한다. 이를 위해, 학습 데이터와 같은 방식으로 한 쌍의 매개변수 당 3개 씩, 총 270개의 검증 데이터를 생성하였다. 마지막으로 딥러닝 모델이 제대로 Ωmσ8을 학습했는지 시험하기 위해 필요한 테스트 데이터는 Ωm=0.3099σ8=0.8484를 기준으로 총 1000개 생성하였다. 한편, 광역적으로 Ωmσ8의 기준 값을 변화시켰을 때, 딥러닝 모델의 추정 능력을 시험하기 위해서 별도의 테스트 데이터를 준비하였다. 이는 학습 및 검증 데이터와 같은 방식으로 한 쌍의 매개변수당 2개씩, 총 180개의 테스트 데이터를 생성하였다.

Figure 1은 FastPM으로 생성된 테스트 데이터(Ωm=0.3099, σ8=0.8484)의 일부로 왼쪽부터 각각 적색편이가 z=3.5, z=1.16, z=0일 때의 이미지를 나타낸다. 적색편이 값이 큰 과거에는 암흑물질의 구조가 희미한 반면, 점차 현재와 가까워질수록 구조가 뚜렷해지는 것을 볼 수 있다.

Figure 1. (Color online) Simulated LSS data (Ωm=0.3099, σ8=0.8484) using FastPM when a redshift is given by z=3.5 (left), z=1.16 (middle), and z=0 (right).

엄밀히 관측에 가까운 데이터를 사용하기 위해서는 중입자(baryon)들도 포함하여 복잡한 유체역학(hydrodynamics) 효과를 고려해야 하고, 헤일로들로 이루어진 광원뿔 데이터를 사용해 한다. 중입자들을 고려하지 않더라도, 암흑물질의 3차원 밀도장의 총 공변부피(comoving volume)와 암흑물질 헤일로로 구성된 광원뿔 데이터의 총 공변부피 비슷한 경우, 암흑물질의 3차원 밀도장을 사용해도 근사한 결과를 얻을 수 있으나 암흑물질의 3차원 밀도장 데이터를 특정 적색편이 지점을 선택해서 분석하는 경우 광원뿔 데이터 대비 차이가 발생할 수 있다. 하지만, 본 논문의 요지는 얼마나 실제 관측과 비슷한 데이터를 바탕으로 딥러닝 모델을 학습 시키는지에 있지 않고, 가장 단순한 암흑물질의 시계열 밀도장 데이터를 가정했을 때, 이를 효과적으로 학습할 수 있는 딥러닝 모델에는 어떤 것이 있으며, 어느 정도의 개선 효과를 가져올 수 있는지를 알아보는 것이다. 본 논문에서 활용한 딥러닝 모델이 이러한 실제와 유사한 관측 데이터에서도 작동하는지 확인하기 위해서, 암흑물질 헤일로들로 이루어진 광원뿔 데이터를 분석한 결과에 대해서 Appendix A에 서술하였다. 데이터 생성 방식이 다르기 때문에 본문의 분석결과와 동등 비교하기는 어려우나, 실제 관측에 가까운 광원뿔 데이터를 사용할 경우 딥러닝 모델의 성능에 차이가 생길 수 있다. 예를 들어, 암흑물질 밀도장 데이터의 경우 주기적 경계조건 때문에 10개의 서로 다른 적색편이에서 암흑물질의 총 양은 변하지 않는다. 반면, 광원뿔 데이터는 서로 다른 적색편이에서 모두 다른 암흑물질의 양을 갖는다는 차이점이 있다. 따라서 기본적인 딥러닝 모델이 암흑물질 밀도장 데이터를 기반으로 최적화 된다면, 광원뿔 데이터에서는 효과적으로 작동하지 않을 수 있다.

본 절에서는 중력 시뮬레이션으로 생성된 시계열 거대구조 데이터와 우주론적 매개변수 사이의 상관관계를 효과적으로 학습할 수 있는 딥러닝 모델에 대해서 집중적으로 논의한다.

1. CNN (Convolution Neural Networks)

CNN은 이미지 속에서 유의미한 패턴을 추출하는 가장 보편적인 이미지 기반 딥러닝 모델이다. 이 모델의 합성곱 층(convolution layer)에서는 유한한 크기를 갖는 커널(kernel)이 이미지를 국지적으로 훑으며(stride) 지역별로 중요한 특징을 찾아낸다. 그다음, 풀링 층(pooling layer)에서는 각 영역에서 추출된 픽셀 중에서 오직 최댓값 혹은 평균값만 대표로 취한 후, 나머지 불필요한 픽셀들은 지워버린다. 이 과정에서 입력 이미지의 크기가 줄어들게 된다. 이 두 개의 층은 보통 쌍으로 구성되며, 이미지의 크기가 충분히 줄어들 때까지 여러 번 반복된다. 이를 통해 이미지 전반에 걸쳐 주요 특징만 추출 해낼 수 있으며, 최종적으로 축소된 이미지는 밀집 층(dense layer) 딥러닝 모델에 전달된다.

Figure 2는 본 논문에서 사용한 CNN 모델의 구조를 요약한 것이다. 입력 이미지의 차원은 10×128×128×128로 첫 번째 성분 10은 적색편이 차원을 의미하고 합성곱 층의 채널(channel)로 간주한다. 나머지 성분들은 1283픽셀의 3차원 거대구조 이미지를 나타낸다. 우선 커널(kernel)의 크기는 3×3×3, 패딩(padding) 및 스트라이드(stride)의 크기는 1인 3차원 합성곱 층을 연속으로 세 번 반복하고 층이 반복될 때마다 필터의 개수를 4에서 시작해서 2배씩 증가시킨다. 그다음 동일한 3차원 합성곱 층을 필터의 크기는 5×5×5, 스트라이드의 크기는 5, 패딩의 크기는 0인 평균 풀링 층과 함께 총 세 번 반복한다. 단, 합성곱 층 이후에는 항상 배치 정규화(batch normalization)를 적용하고, Leaky ReLU 활성화 함수(activation function)를 사용한다.

Figure 2. A schematic architecture of CNN used in this paper.

최종적으로 축소된 1×1×1차원의 이미지는 뉴런(neuron)의 개수가 1024에서 시작해서 2로 줄어드는 총 5개의 밀집 층으로 전달되며, 각 밀집 층에서 사용된 활성화 함수는 LeakyReLU6이다. 마지막 밀집 층의 뉴런 값 xi은 sigmoid 함수를 통해 0부터 1 사이의 값으로 정규화된다.

pi=sigmoid(xi)=11+exp(xi)

i=0,1이며, 정규화된 뉴런 값 p0p1는 각각 CNN이 추정한 Ωmσ8 값을 나타낸다.

데이터를 학습하는 과정에서 사용한 학습률은 10-4이며, 최적화 함수는 Adam optimizer[45], 손실 함수(loss function)는 평균제곱오차(mean-square-error)이다. 총 학습 데이터의 수를 Ntot이라고 할 때, j번째 학습 데이터의 Ωmσ8의 참값(truth value)을 각각 t0,jt1,j이라고 하고 CNN이 예측한 값을 각각 p0,jp1,j라 하자. 이때 손실 함수는 다음과 같이 주어진다.

L=1Ntot j=1 N tot ((p0,jt0,j)2+(p1,jt1,j)2)

딥러닝 모델의 학습이란 이 손실 함수를 최소화하는 방향으로 초매개변수(hyperparameter)7를 최적화하는 과정을 의미하며 일반적으로 학습 데이터의 양이 많을수록 예측 정확도가 높아진다.

앞서 기술한 CNN 모델을 Pytorch[46] 프로그램 상에 구현하였다. 배치 크기는 메모리 제한으로 인해 4로 설정하였으며, NVIDIA A40 그래픽 카드를 사용하여 CNN 모델을 학습하였다. 이때 약 100번의 세대(epoch)8가 시행되며, 대략 7시간 정도가 소요된다. Figure 3의 왼쪽 그래프는 CNN 모델에 대하여 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 두 개의 손실 함수 줄어드는 경향을 보이므로 과소적합(underfitting) 현상은 일어나지 않았다. 전반적으로 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합(overfitting) 현상은 없으나, 세대가 커질수록 과적합이 시작되는 것을 확인 할 수 있다. 과적합을 방지 하기 위하여, 다음과 같은 기준을 만족하는 세대를 선택하였다. 첫째, 검증 데이터의 손실 함수가 학습 데이터의 손실 함수보다 작을 것. 둘째, 검증 데이터의 손실 함수가 최소가 되는 세대를 기준으로 삼되, 참값(Ωm=0.3099, σ8=0.8484)대비 CNN 모델이 추정한 Ωmσ8의 평균 값의 차이가 최소가 되는 세대를 선택 할 것. 이렇게 선택된 세대를 기준으로 훈련된 CNN 모델을 사용하였다.

Figure 3. (Color online) Each graph shows the loss function curves of CNN(left), ViT(middle), and DeiT(right). The blue line represents the loss of 900 train data, and the orange line represents the loss of 270 validation data.

2. ViT (Vision Transformer)

CNN 모델에서 풀링 층은 각 국지적 영역에서 추출된 픽셀 중에서 오직 최댓값 혹은 평균값만 대표로 취하기 때문에 정보 손실의 문제가 발생한다. 반면, ViT는 이러한 정보 손실의 문제 없이 이미지의 중요한 특징을 추출 해낼 수 있는 트랜스포머 기반 딥러닝 모델이다. ViT는 이미지를 패치(patch)라는 작은 조각으로 분할하고, 특유의 주의(attention) 메커니즘을 활용하여 어떤 패치들이 가장 중요한지를 찾아내는 전략을 사용한다.

Figure 4은 ViT 모델의 전반적인 구조를 나타내며, 세부적으로 임베딩(embedding), 트랜스포머 인코더(transformer encoder), 그리고 다층 퍼셉트론 헤드(multi-layer perceptron head, MLP Head) 모듈로 구성된다.

Figure 4. A schematic architecture of ViT used in this paper.

첫째, 임베딩이란 입력 이미지를 작은 패치로 분할하고, 일련의 벡터로 변환하는 과정을 의미한다. 10×128×128×128차원의 입력 이미지는 먼저 3차원 합성곱 층에서 전처리 과정을 거친다. 이때 사용된 필터의 크기는 4×4×4, 필터의 개수는 64, 스트라이드의 크기는 4이며, 패딩은 사용하지 않았다. 합성곱 층을 통과한 후, 축소된 32×32×32 차원의 이미지 픽셀들은 낱개로 쪼개지는 평탄화(flatten) 과정을 거쳐 총 N=323개의 길이가 D=64인 임베딩 벡터 xi로(i=1, ,N) 재구성된다. 임베딩 벡터 xi를 행벡터로 인식한 뒤, 차례대로 행 방향으로 합치면, N×D,차원의 임베딩 행렬 z를 얻을 수 있다.

z=x1xNN×D

Equation (4)의 임베딩 행렬 z 가장 앞에 학습 가능한9 길이가 D=64인 클래스 토큰(class token) 벡터 xcls를 행 방향으로 합치고, 패치들 사이의 위치적 상관관계를 학습하기 위해 위치 임베딩(position embedding) 행렬 Epos을 더하면 트랜스포머 인코더 모듈에서 사용될 임베딩 행렬 z가 완성된다.

z=xclsx1xN+Epos(N+1)×D

둘째, 트랜스포머 인코더 모듈은 크게 다중헤드 주의(multi-head attention, MHA)과 다층 퍼셉트론(multi-layer perceptron, MLP)의 단계로 구성된다. MHA 단계에서는 먼저 임베딩 행렬의 행벡터 zi를(i=1, ,N+1) 각각의 평균값을 기준으로 조정해 주는 레이어 정규화(layer normalization, LN)를 시행한다.

LN(zi)=γziμiσi2+ϵ+β

단, μiσi는 행벡터 zi의 평균과 분산을 의미하며, ϵ=105는 분모가 0이 되는 것을 방지하는 변수, βγ는 학습 가능한 변수를 나타낸다. 정규화된 임베딩 행렬 LN(z)D×DH 차원의 가중치(weight) 행렬 Wq, Wk, Wv를 각각 곱하면, 다음과 같이 (N+1)×DH 차원을 가지는 쿼리(query), 키(key), 밸류(value) 행렬을 얻을 수 있다.

q=LN(z)Wq(´Ü, LN(z)(N+1)×D)k=LN(z)Wk(´Ü, Wq,k,vD×DH)v=LN(z)Wv(´Ü, q,k,v(N+1)×DH)

여기서 q, k, v는 각각 쿼리, 키, 밸류 행렬을 나타내며, H= 16은 가중치 행렬의 열 길이를 결정한다. 쿼리와 키 행렬은 서로 다른 이미지 패치를 상징하고, 밸류 행렬은 이 두 패치에 가장 적합한 픽셀 정보를 의미한다. Equation (7)에서 쿼리와 키 행렬의 유사도를 나타내는 주의 행렬 A는 다음과 같이 두 행렬의 곱으로 주어진다.

A=softmax(qkTD/H)(N+1)×(N+1)

단, 각 성분은 D/H으로 나뉜 후 softmax 함수10 를 이용하여 정규화되었다. 주의 행렬 A와 밸류 행렬 사이의 적합도를 나타내는 자기주의(self-attention) 행렬 SA도 두 행렬의 곱으로 주어진다.

SA(LN(z))=Av(N+1)×DH

이처럼 Eqs. (7)–(9) 과정을 독립적으로 H=16번 반복하면

H=16개의 SAi(LN(z)) 행렬(i=1, ,H)이 만들어진다.

SAi(LN(z)) 행렬을 차례대로 열 방향으로 모두 합친 후, D×D 차원의 가중치 행렬 WMSA을 곱하면 다음과 같이

MSA(LN(z))=SA1(LN(z))SAH(LN(z))(N+1)×DWMSA(N+1)×D(단, WMSAD×D)

차원 (N+1)×D를 가지는 MSA(LN(z)) 행렬이 완성된다.

이를 Eq. (5)의 임베딩 행렬 z와 함께 더하면

zMSA=MSA(LN(z))+z(N+1)×D

MSA 임베딩 행렬을 얻을 수 있다.

MLP 단계에서는 Eq. (11)의 임베딩 행렬 zMSA을 다시 레이어 정규화한 후, 두 개의 밀집 층(뉴런의 개수가 각각 256개와 64개)로 이루어진 MLP층으로 전달된다. 이때 밀집 층의 활성화 함수로 GELU11를 사용하였다.

트랜스포머 인코더의 최종 출력값은 Eq. (11)의 zMSA을 더해 다음과 같이 주어진다.

zMLP=MLP(LN(zMSA))+zMSA(N+1)×D

여기까지의 과정 Eqs. (6)–(12)가 트랜스포머 인코더 모듈에 해당하며, 이 모듈을 총 L=6번 반복했을 때 l 번째와 l-1 번째 임베딩 행렬 z 사이의 점화식을 다음과 같이 표현할 수 있다.

z(l)=MSA(LN(z(l1)))+z(l1)

단, l=1, ,L으로 초기 임베딩 행렬 z(l=0)은 Eq. (5)에 해당하고, 최종 임베딩 행렬은 z(l=L)이다.

셋째, MLP Head 모듈에서는 마지막 임베딩 행렬 z(l=L)을 차원(N+1)에 대해서 평균을 취한 후 차원이 D×2인 가중치 행렬 W를 곱하여 길이가 2인 최종 출력 벡터 p를 얻는다.

p=z(l=L)W+b(단, z(l=L)1×D,WD×2,b1×2)

여기서 b는 길이가 2인 편향(bias) 벡터를 의미한다. 최종 출력 성분 pi는(i=0,1) Sigmoid 함수를 통해 0부터 1 사이의 값으로 정규화된다. 정규화된 p^0p^1는 각각 ViT가 추정한 Ωmσ8 값을 나타낸다.

배치 크기는 메모리 제한으로 인해 4로 설정하였으며, 학습 과정에서 사용한 딥러닝 패키지, 학습률, 최적화 함수, 손실 함수는 CNN 모델과 동일하다. NVIDIA A40 그래픽 카드를 사용하여 약 150번의 세대가 시행되며, 대략 6시간 정도가 소요된다. Figure 3의 중간 그래프는 ViT 모델에 대하여 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 두 개의 손실 함수 모두 줄어드는 경향을 보이므로 과소적합 현상은 일어나지 않았고, 세대 전반에 걸쳐 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합은 일어나지 않았다. 과적합을 방지하기 위하여 선택한 세대의 기준은 CNN 모델과 동일하다.

3. DeiT (Data-efficient image Transformer)

ViT 모델은 일반적으로 최적의 성능을 달성하기 위해 많은 양의 학습 데이터가 필요하지만, 데이터의 양이 적을 때는 CNN보다 성능이 떨어질 수 있다. 현실적으로 막대한 계산 자원을 필요로 하는 거대구조 시뮬레이션의 경우 많은 양의 데이터를 확보하기가 쉽지 않다. DeiT는 적은 양의 학습 데이터로 최적의 성능을 얻을 수 있는 딥러닝 모델이며, ViT 모델의 문제점을 보완해줄 수 있다. DeiT는 증류(distillation) 메커니즘을 활용하여 한 개의 신경 네트워크(학생)가 다른 네트워크(교사)의 예측을 모방하도록 학습하는 전략을 사용한다.

Figure 5는 DeiT 모델의 전체적인 구조를 나타내며, 하위 구조로 구성된 ViT와 CNN이 각각 학생과 교사 모델의 역할을 수행한다. 적은 수의 데이터로도 효과적인 학습을 할 수 있는 CNN을 교사 모델로 채택함으로써 학생 모델인 ViT가 이러한 장점을 모방하여 성능을 향상시키는 구조이다. DeiT의 학생 모델은 길이가 D=64인 증류 토큰(distillation token) 벡터 xdis를 ViT 모델에서 파생된 임베딩 행렬 z(Eq. (5)) 가장 끝 부분에 행 방향으로 합쳐서 트랜스포머 인코더 모듈에서 사용하게 될 임베딩 행렬 z를 형성한다.

Figure 5. A schematic architecture of DeiT used in this paper.

z=xclsx1xNxdis+Epos(N+2)×D

CNN이 예측한 정보를 참조하여, xdis 벡터는 주의 메커니즘을 통해 클래스 토큰 벡터 xcls 및 임베딩 벡터 xi와 상호 작용하며 이미지에서 중요한 특징을 습득한다. 트랜스포머 인코더 모듈의 과정은 Eqs. (6)–(12)과 동일하다.

MLP Head 모듈에서는 최종 임베딩 행렬 z(l=L)의 가장 끝에 붙어있는 행벡터 zdis(l=L)만 취한 후, 차원이 D×2인 가중치 행렬 Wdis를 곱하여 길이가 2인 출력벡터 pdis를 얻는다. 이와 동시에 최종 임베딩 행렬 z(l=L)의 모든 (N+2)개의 행벡터의 평균을 취하여 길이가 D인 벡터로 통합한다. 여기에 차원이 D×2인 가중치 행렬 Wpred를 곱하여 길이가 2인 최종 출력 벡터 ppred를 얻는다.

pdis=zdis(l=L)Wdis+bdis,ppred=zpred(l=L)Wpred+bpred.(단, zdis(l=L)1×D,zpred(l=L)1×D,WdisD×2,WpredD×2,bdis1×2,bpred1×2)

여기서 bdisbpred는 길이가 2인 편향 벡터를 의미한다. 최종 출력 성분 pdis,0pdis,1는 tanh 함수를 통해 정규화 되고, 각각은 학생 모델인 ViT가 마지막 행벡터 zdis(l=L)만 사용해서 추정한 Ωmσ8 값을 나타낸다.

총 학습 데이터의 수를 Ntot이라고 하자. 이 때, j번째 학습 데이터에 대해서 교사 모델인 CNN이 예측한 Ωmσ8 값을 각각 pCNN,0,jpCNN,1,j이라고 하고 (Eq. (2) 참조) DeiT가 예측한 값을 각각 pdis,0,jpdis,1,j라 하자. 이 때 학생과 교사 모델 사이의 증류 손실 함수는 다음과 같이 주어진다.

Ldis=1Ntot j=1 N tot ((pdis,0,jpCNN,0,j)2+(pdis,1,jpCNN,1,j)2) 

손실함수 Ldis은 학생과 교사 모델이 예측하는 값의 불일치를 최소화하는 방향으로 최적화되며 이 과정에서 학생 모델은 교사 모델의 예측에 더 가까운 예측을 하는 방향으로 학습한다.

한편, 최종 출력 성분 ppred,0ppred,1은 sigmoid 함수를 통해 정규화 되며, 각각은 학생 모델이 모든 행벡터 zdis(l=L)정보를 바탕으로 추정한 Ωmσ8 값을 나타낸다. 마찬가지로 j번째 학습 데이터에 대해서 Ωmσ8의 참값을 각각 t0,jt1,j이라고 하고, DeiT가 예측한 값을 각각 ppred,0,jppred,1,j라 하자. 이 때 학생 모델과 학습 데이터의 참값 사이의 손실 함수는 다음과 같이 주어진다.

Lpred=1Ntot j=1 N tot ((ppred,0,jt0,j)2+(ppred,1,jt1,j)2)

총 손실 함수는 LdisLpred의 선형 결합으로 주어진다.

L=αLdis+(1α)Lpred

여기서 α는 두 손실 함수 사이의 가중치를 나타내며 α=0.2로 설정하였다. 데이터를 학습하는 과정에서 사용한 학습률 및 최적화 함수는 CNN 모델과 동일하며, 교사와 학생 모델의 초매개변수와 배치 크기는 각각 Section III1와 Section III2에서 사용한 초매개변수와 배치 크기를 그대로 활용하였다.

배치 크기는 메모리 제한으로 인해 4로 설정하였으며, 학습 과정에서 사용한 딥러닝 패키지, 학습률, 최적화 함수, 손실 함수는 CNN 모델과 동일하다. NVIDIA A40 그래픽 카드를 사용하여 약 150번의 세대가 시행되며, 대략 13시간 정도가 소요된다. Figure 3의 오른쪽 그래프는 DeiT 모델에 대하여 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 두 개의 손실 함수 모두 줄어드는 경향을 보이므로 과소적합 현상은 일어나지 않았고, 세대 전반에 걸쳐 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합은 일어나지 않았다. 과적합을 방지 하기 위하여 선택한 세대의 기준은 CNN 모델과 동일하다.

Figure 6는 참값 (Ωm,σ8)=(0.3099,0.8484)를 기준(검은색 별표)으로 생성된 1000개의 독립적인 테스트 데이터로부터 CNN, ViT, DeiT 모델이 Ωmσ8을 추정한 결과이다12. 초록색 점은 CNN의 평균값을 나타내며, 초록색 점선(실선)은 68%(95%) 신뢰구간을 의미한다. 마찬가지로 빨간색 삼각형은 ViT의 평균값, 빨간색 점선(실선)은 68%(95%) 신뢰구간을 나타내고, 파란색 사각형은 DeiT의 평균값, 파란색 점선(실선)은 68%(95%) 신뢰구간을 나타낸다.

Figure 6. (Color online) The predicted values of Ωm and σ8 by CNN (green), ViT (red), and DeiT (blue) with dashed (solid) contours representing 68% (95%) confidence intervals. The left panel corresponds to the result with using z=0 redshift data, while the right panel shows the result based on multiple redshift bins (z = 0–3.5). A black asterisk stands for the truth values (Ωm = 0.3099, σ8 = 0.8484), while a green circle, a red triangle, and a blue square represent the average values predicted by CNN, ViT, and DeiT respectively.

Figure 6(왼쪽)은 적색편이가 z = 0인 데이터만 학습했을 때 결과이다. 먼저 σ8을 참값으로 고정했을 때 CNN의 경우 Ωm의 참값과 평균값의 편차는 0.0064로, 참값 기준으로 2.1%의 차이를 보였다. 68% 오차 범위는 참값 기준 0.30990.0111+0.0316으로 오차율은 대략 10.2% 미만으로 나타났다13. ViT의 경우 Ωm의 참값과 평균값의 편차는 0.0083으로, 참값 기준으로 2.6%의 차이를 보였다. 68% 오차 범위는 참값 기준0.30990.0130+0.0210으로 대략 6.8% 미만의 오차율을 얻었다. DeiT의 경우 Ωm의 참값과 평균값의 편차는 0.0022로, 참값 기준으로 0.8%의 차이를 보였다. 68% 오차 범위는 참값 기준0.30990.0007+0.0146을 대략 4.8% 미만의 오차율을 보였다. 따라서, DeiT가 Ωm 값을 가장 정확하게 예측하였다. 다음으로 ViT의 예측 성능이 뒤를 이엇고, CNN의 예측 성능이 가장 좋지 않았다.

이번에는 Ωm을 참값으로 고정했을 때, CNN의 경우 σ8의 참값과 평균값의 편차는 0.0055로, 참값 기준으로 대략 0.6%의 차이를 보였다. 68% 오차 범위는 참값 기준 0.84840.0112+0.0325으로 대략 3.9% 미만의 오차율 보였다. ViT의 경우 σ8의 참값과 평균값의 편차는 0.0060으로, 참값 기준으로 대략 0.7%의 차이를 보였다. 68% 오차 범위는 참값 기준 0.84840.0176+0.0232으로 대략 2.8% 미만의 오차율을 보였다. DeiT의 경우 σ8의 참값과 평균값의 편차는 0.0050로, 참값 기준으로 대략 0.6%의 차이를 보였다. 68% 오차 범위는 참값 기준 0.84840.0006+0.0151으로 대략 1.8% 미만의 오차율을 보였다. 따라서, DeiT가 σ8 값을 가장 정확하게 예측하였다. 다음으로는 ViT의 예측 성능이 뒤를 이엇고, CNN의 예측 성능이 가장 좋지 않았다. 또한, 세 가지 모델 모두 σ8에 대한 정확도가 Ωm에 비해 높은 것을 볼 수 있다.

다음으로, CNN, ViT, DeiT의 성능을 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 분산14을 이용해서 비교해보았다. 분산이 작을 수록 정밀도가 높다고 할 수 있다. CNN, ViT, DeiT 모델의 분산은 각각 0.0337, 0.0402, 0.0271으로 DeiT가 가장 작으며, 그 다음 CNN과 ViT 순서로 나타났다. 요컨대, 적색편이가 z = 0인 데이터만 학습했을 때 ViT은 CNN과 유사한 성능을 보이는 반면, DeiT의 성능은 이 둘보다 두드러지게 좋았다.

Figure 6(오른쪽)는 넓은 적색편이 영역 z=[0,3.5]을 학습했을 때의 결과로 σ8을 참값으로 고정했을 때, CNN과 ViT의 Ωm의 68% 오차 범위는 참값 기준 각각 0.30990.0136+0.02060.30990.0076+0.0209으로 각각 6.7%와 6.8% 미만의 오차율을 보였다. 반면 DeiT의 Ωm의 68% 오차 범위는 참값 기준 0.30990.0061+0.0186으로 6.1% 미만의 오차율을 보였다.

Ωm를 참값으로 고정했을 때, CNN과 ViT의 σ8의 68% 오차 범위는 참값 기준 각각 0.84840.0107+0.02160.84840.0149+0.0195으로 각각 2.6%와 2.3% 미만의 오차율을 보였다. DeiT의 σ8의 68% 오차 범위는 참값 기준 각각 0.84840.0050+0.0150으로 1.8% 미만의 오차율을 보였다. 따라서 시계열 데이터의 상관관계를 학습한 CNN, ViT, DeiT 모두 σ8 예측 정확도를 향상 시킬 수 있었으나, Ωm에 대한 예측 정확도는 크게 개선되지 않았다.

다음으로, CNN, ViT, DeiT의 분산은 각각 0.0206, 0.0206, 0.0164으로 CNN과 ViT는 유사한 예측 정밀도를 보인 반면, DeiT은 앞선 두 모델보다 높은 정밀도를 보여주었다. 또한 시계열 데이터의 상관관계를 학습했을 때, 분산의 크기가 크게 줄어드는 것을 확인할 수 있고, 모든 모델에서 정밀도가 향상되었다.

Figure 6에서 한 가지 주목할 점은 Ωmσ8이 강한 역상관관계(anti-correlation)를 보인다는 것이다. CNN, ViT, DeiT 모두 분할된 이미지들 안에 얼마나 많은 물질이 분포되어 있는지를 탐지한다. 그리고 이 물질의 양은 Ωmσ8의 크기에 모두 비례한다. 따라서 인공 신경망이 특정한 양의 물질을 이미지에서 탐지했을 때, 두 가지 가능성이 존재한다. 첫째, Ωm이 크고 σ8이 작을 때. 둘째, Ωm이 작고 σ8이 클 때. CNN, ViT, DeiT는 이 두 가지 경우를 구별하기 어렵기 때문에 Fig. 6처럼 역상관관계를 이룬다고 해석할 수 있다. 이러한 역상관관계는 정확한 물질 밀도 계수 및 요동 진폭의 크기 추정에 어려움을 주기 때문에 역상관관계를 완화키실 수 있는 방법을 모색하는 것이 중요하다. 이러한 관점에서 넓은 적색편이 영역 z=[0,3.5]을 학습한 오른쪽 그림의 경우, 두 변수가 보이는 역상관관계가 크게 완화되는 것을 볼 수 있다. 따라서 시계열 데이터의 상관관계는 Ωmσ8의 추정 오차를 줄이는데 큰 기여를 할 수 있다.

Table 2는 지금까지의 분석 내용을 정리한 것이다.


Summary of predicted values of Ωm and σ8 by CNN, ViT, and DeiT with 68% (95%) confidence intervals and variances σ. The truth values of Ωm and σ8 are 0.3099 and 0.8484 respectively. The absolute differences between the truth values and averages of predicted values are also shown in the offset columns.


RedshiftsModelsσΩmσ8
Offsets68% intervals
(centered at the average value)
68% intervals
(centered at the truth value)
Offsets68% intervals
(centered at the average value)
68% intervals
(centered at the truth value)
z=0CNN0.03370.00640.31630.0219+0.02180.30990.0111+0.03160.00550.85390.0221+0.02220.84840.0112+0.0325
ViT0.04020.00830.31820.0171+0.01720.30990.0130+0.02100.00600.84240.0211+0.02090.84840.0176+0.0232
DeiT0.02710.00220.31210.0078+0.00770.30990.0007+0.01460.00500.85340.0080+0.00810.84840.0006+0.0151
z=[0,3.5]CNN0.02060.00530.31520.0178+0.01780.30990.0136+0.02060.00020.84860.0161+0.01620.84840.0107+0.0216
ViT0.02060.00820.31810.0145+0.01450.30990.0076+0.02090.00380.84460.0196+0.01950.84840.0149+0.0195
DeiT0.01640.00270.31260.0126+0.01250.30990.0061+0.01860.00400.85240.0102+0.01030.84840.0050+0.0150


Figure 7의 위쪽 그래프는 학습 및 검증 데이터와 같이 격자 구조의 영역에서 생성한 180개의 테스트 데이터 중 Ωm의 평균값 및 68%의 오차를 나타낸 것이다. z = 0인 데이터만 학습한 왼쪽 그래프에 비해서, 넓은 적색편이 영역 z=[0,3.5]을 학습한 오른쪽 그래프의 Ωm 오차가 크게 줄어들었음을 확인할 수 있다. Ωm>0.45 구간부터 |참값 - 평균|의 편차가 커지는 이유는, 학습 데이터에 포함된 Ωm의 영역을 [0.05, 0.5]으로 한정하였기 때문이다. 이 영역을 넓힐 수록 Ωm>0.45 구간에서의 편차를 줄일 수 있지만 학습 데이터의 양이 감당할 수 있는 계산 자원을 초과하기 때문에 포함하지 않았다. 마찬가지로, Fig. 7의 아래쪽 그래프는 학습 및 검증 데이터와 같이 격자 구조의 영역에서 생성한 180개의 테스트 데이터 중 σ8의 평균값 및 68%의 오차를 나타낸 것이다. CNN, ViT, DeiT 모델 모두 σ8의 참값이 변하더라도 높은 정확도로 예측 해내는 것을 확인 할 수 있으며, 넓은 적색편이 영역 z=[0,3.5]을 학습한 오른쪽 그래프의 σ8 오차가 감소하는 것을 확인하였다.

Figure 7. (Color online) Truth and predicted values of Ωm (top panels) and σ8 (bottom panels) by CNN (green), ViT (red), and DeiT (blue) together with 68% error bars. The left panels correspond to the results with using z = 0 redshift data, while the right panels show the results based on multiple redshift bins (z = 0–3.5).

Figure 7의 위쪽 그래프(Ωm 예측)에서 적색편이가 z = 0 및 z=[0,3.5]인 경우 모두, 오차가 크기는 하지만 DeiT가 ViT보다 편향이 적은 것을 확인 할 수 있다. 반면, Fig. 7의 아래쪽 그래프(σ8 예측)에서는 ViT가 DeiT에 비해 더 작은 편향을 보인다. 그 이유를 다음과 같이 생각해 볼 수 있다. σ8를 증가 시키면 물질 요동의 파워 스펙트럼의 크기가 모든 k 모드에서 일정하게 증가한다. 즉, 모든 규모에서 암흑물질의 밀도장이 증가한다. 그런데, ViT는 주의 메커니즘을 활용하여 이미지 전반적인 영역에서 일어나는 변화를 감지 할 수 있는 반면 CNN은 국부적인 영역의 픽셀들의 상관관계를 잘 감지한다. 그러므로, ViT가 σ8 예측을 잘하는 것으로 해석할 수 있다. 그리고 CNN과 DeiT의 편차가 오차범위 안에서 유사하다고 본다면, CNN을 교사 모델로 삼고 있는 DeiT가 ViT에 비해 σ8 예측을 잘 못하는 것으로 해석할 수도 있다. 한편, Ωm을 증가 시키면 파워 스펙트럼의 크기가 상대적으로 높은 k 모드에서 증가한다. 즉, 작은 규모에서 암흑물질의 밀도장 증가가 두드러지기 때문에 CNN을 교사 모델로 삼고 있는 DeiT가 ViT에 비해서 Ωm 예측을 잘 한다고 해석할 수도 있다.

거대구조의 비선형 진화과정 속에는 암흑물질, 암흑에너지, 우주 급팽창 메커니즘 등 다양한 우주론적 정보가 담겨있기 때문에, 이를 정밀하게 탐색하는 일은 현대 우주론에서 중요한 과제 중 하나이다. 하지만, 선형 섭동 방정식으로 기술할 수 없는 비선형 영역에서는 이론값의 오차가 상당히 커서 관측 데이터와의 비교가 단순하지 않다는 문제점이 있다. 그래서 최근 수년간, 전통적인 통계적 분석 방법을 넘어, 딥러닝을 활용하여 직접 3차원 거대구조 이미지로부터 우주론적 매개변수를 추정하는 연구가 활발하게 이루어져왔다.

본 논문에서 특히 주목한 점은 거대구조 데이터는 시간에 따라 진화하는 시계열 데이터이기 때문에 탐색할 수 있는 시계열 구간이 넓고 조밀할수록 자세한 우주론적 정보를 얻을 수 있다는 것이다. 본 논문은 트랜스포머 기반 딥러닝 모델 ViT과 DeiT를 활용하여, 거대구조 시계열 데이터의 상관관계를 효과적으로 학습할 수 있는 인공 신경망 모델을 제시하였다. 이를 바탕으로, 다체 중력 시뮬레이션으로 생성된 거대구조 데이터에서 물질 밀도 계수 Ωm 및 물질 요동 진폭을 정량화한 변수 σ8을 추정하였다.

그 결과 DeiT 모델의 예측 정확도 및 정밀도가 CNN과 ViT보다 확연히 좋았다. 단, CNN과 ViT의 예측 성능은 큰 차이가 없는 것으로 나타났다.

그리고 CNN, ViT, DeiT 모델 모두 시계열 데이터의 상관관계를 학습 했을 때 예측 성능이 크게 향상되었으며, Ωmσ8 사이의 역상관관계 완화에도 도움이 됨을 보였다.

한편, 본 논문에서 활용한 CNN/ViT/DeiT 딥러닝 모델이 실제와 유사한 관측 데이터에서도 작동하는지 확인하기 위해서, 암흑물질 헤일로들로 이루어진 광원뿔 데이터를 바탕으로 분석을 시도하였다. 데이터 생성 방식이 다르기 때문에 본문의 분석결과와 동등 비교하는 것은 어려우나, 딥러닝 모델 사이의 상대 비교를 시도하였다. 그 결과 CNN의 성능이 가장 좋았고 ViT 및 DeiT의 성능은 이에 미치지 못했다. 광원뿔 데이터의 경우 암흑물질 헤일로의 밀도장을 대상으로 하고 특정 적경 및 적위의 범위에 국한된 헤일로 정보를 동일한 픽셀상에 표현하기 때문에 암흑물질 밀도장 대비 0을 갖는 픽셀이 상당히 많다. 이로 인해 트랜스포머 계열의 모델은 광원뿔 데이터의 상관관계를 학습하여 일반화 하는데 어려움을 겪는 것으로 보인다. 이를 보완하기 위해서는 데이터 증강이 필수지만, 계산 자원의 한계로 데이터를 생성하지 못했다. 그러나 CNN은 적은 데이터로도 여러 가정으로부터 효과적으로 일반화할 수 있는 네트워크 구조를 가진다. 따라서 실제 관측에 가까운 광원뿔 데이터를 사용할 경우, 기본적인 CNN 모델만으로도 매개변수 추정에 대해 준수한 결과를 얻을 수 있었다. 또한, 트랜스포머 계열 모델의 성능을 향상시킬 여지가 있을 수 있으며, 이는 후속 연구를 통해 좀 더 깊이 있는 조사를 진행할 예정이다.

이 논문은 2020학년도 충북대학교 학술연구지원사업의 연구비 지원에 의하여 연구되었으며 (This work was supported by the research grant of the Chungbuk National University in 2020), 또한 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(No. 2021R1C1C1005076).

1 허블 상수 H0=100h km/s/Mpc는 축소된 허블 상수 h를 이용해서 정의된다.

2 S8=σ8Ωm/0.3는 우주의 물질 요동 진폭을 정량화한 변수이며, σ8은 반경 8h1Mpc 공간 안의 물질 요동의 크기를 나타내고 Ωm은 물질 밀도 계수를 나타낸다.

3 척도인자와 적색편이 사이의 관계식은 a=11+z로 주어진다.

4 시뮬레이션의 한 변의 길이(L)와 한 변의 메쉬 크기(Nm)을 이용하여 대략적인 최소 및 최대 파수는 (kmin=2πL , kmax=π(L/Nm))으로 계산된다. FastPM의 경우 한변의 메쉬 크기와 입자의 개수 사이의 관계식은 매개 변수B=Nm/N1/3로 주어지며, B=2를 사용했다.

kmin,kmax=0.0628h1Mpc,16.08h1Mpc

5 시뮬레이션에서 사용된 정육면체 가상 우주공간은 주기적 경계조건(periodic boundary condition)을 사용하고 있기 때문에, 한 쪽 면으로 빠져나간 입자는, 반대 쪽 면에서 들어오도록 설정되어 있다. 따라서, 적색편이가 변화함에 따라 정육면체 경계면에 있는 암흑물질 밀도장의 구조는 실제 우주와는 차이가 있다.

6 LeakyReLU 함수의 정의는 다음과 같다.

LeakyReLU(x)=xif x00.01xotherwise

단, 여기서 x는 뉴런의 성분을 의미한다.

7 가중치(weight)라고 부르기도 한다.

8 데이터 세트를 딥러닝에 반복학습 시키는 횟수를 의미한다.

9 딥러닝 모델에서 학습 가능한 변수란 손실 함수를 최소화하는 과정에서 결정되는 초매개변수를 의미한다.

10N개의 원소 x1,x2,,xN가 있을 때, softmax 함수로 정규화된 j번째 원소는 다음과 같이 정의된다. softmax(xj)=exp(xj)/ i=1 i=Nexp(xi).

11 GELU 함수의 정의는 다음과 같다. GELU(x)=12x(1+tanh(2π(x+0.044715x3))).

12 여기서 참값(truth value)이란 1000개의 테스트 데이터를 생성할 때 사용한 ΛCDM 매개변수 (Ωm,σ8)=(0.3099,0.8484)를 의미하며, Planck 2015 데이터를 기반으로 CLASS 프로그램에 설정된 기본값을 기준으로 삼았다.

13 여기서 오차율은 Δ/참값×100 (%)와 같이 정의하였으며 Δ는 참값 대비 68% 편차를 의미한다.

14 여기서 분산은 σ=in|x ixmean|2 n+in|y iymean|2 n와 같이 구하였다. 이 때 xy는 각각 변수 Ωmσ8에 해당하며, n은 데이터의 개수를 의미한다.

본 절에서는 CNN/ViT/DeiT 딥러닝 모델이 실제 천문학적 관측과 유사한 데이터에서도 작동하는지 확인하기 위해서, 암흑물질 헤일로(halo)들로 이루어진 광원뿔(light cone) 데이터를 PINpointing Orbit Crossing Collapsed HIerarchical Objects (PINOCCHIO)[47] 시뮬레이션으로 생성한 후, 분석을 수행하였다. 시뮬레이션에 사용된 매개변수는 Ωch2=0.12, Ωbh2=0.022, h = 0.674, ln(1010As)=3.043, ns=0.965, τreio=0.054으로, 이는 Planck 2018 데이터(Table 1)을 기준으로 하였다.

PINOCCHIO 시뮬레이션은 한 변의 길이가 1h1Gpc인 정육면체 가상 우주공간을 대상으로 하며, 5123개의 암흑물질 입자가 균일하게 분포되어 있다. 초기 우주의 원시 섭동을 반영해 주기 위해, 시뮬레이션 시작 전 각 입자의 초기 속도 및 위치를 라그랑지안 섭동이론을 적용하여 변화시켰다. 선행연구 Ref.[48]를 참조하여 적경과 적위의 범위는 [-20°, 20°], 적색편이 범위는 [0.3, 0.8]인 광원뿔 데이터를 생성하였다. 이러한 광원뿔 데이터는 크게 학습 데이터, 검증 데이터, 그리고 테스트 데이터로 나누어 분류되며 다른 매개변수는 고정한 채 Latin Hypercube Sampling 기법을 활용하여 Ωm = [0.05, 0.5] 및 σ8 = [0.6, 1.0]의 범위에서 900개의 학습 데이터와 270개의 검증 데이터, 180개의 테스트 데이터를 생성하였다. 또한 딥러닝 모델이 제대로 Ωmσ8을 학습했는지 시험하기 위해 (Ωm,σ8)=(0.3158,0.8120)를 기준으로 별도의 테스트 데이터 1000개를 생성하였다.

이렇게 생성된 광원뿔 데이터는 적경, 적위, 적색편이의 삼차원으로 균등하게 1283 픽셀로 나누어 저장하였다. 각 픽셀은 적경 0.3125°과 적위 0.15625°의 크기를 가지며 픽셀 내부의 부피와 그 안에 포함되는 헤일로 질량의 합을 이용하여 밀도를 계산하였다. 단, 헤일로의 수가 0인 픽셀의 밀도는 0으로 계산하였다.

암흑물질 헤일로 질량 함수는 우주론적 매개 변수에 강한 의존성을 가지며, 결과적으로 각 시뮬레이션에서의 암흑물질 헤일로 수는 일정량의 우주 정보를 제공한다. 그러나, 각 시뮬레이션에서 개별 암흑물질 입자의 질량과 관련된 최소 헤일로 질량은 결정적으로 Ωm에 의존한다. 예를 들어, 서로 다른 Ωm 값을 갖는 시뮬레이션은 평균 헤일로 수 밀도에 상당한 차이를 초래한다. 이러한 문제를 방지하기 위해 Ωm=0.5로 설정된 시뮬레이션에서의 최소 헤일로 질량 Mmin=1.03×1013h1M을 모든 시뮬레이션에 일괄적으로 적용한다. Ωm=[0.05,0.5]σ8=[0.6,1.0] 안에서 생성된 총 1350개의 데이터에 대한 평균 헤일로 수 밀도 범위는 1.637×106(hMpc1)3에서 4.912×104(hMpc1)3사이이며, 평균 헤일로 수 밀도는 2.372×104(hMpc1)3이다.

Figure A1은 딥러닝 모델의 학습 데이터(파랑색)와 검증 데이터(주황색)의 세대에 따른 손실 함수의 변화를 나타낸 것이다. 왼쪽 그래프가 CNN, 중간 그래프가 ViT, 오른쪽 그래프가 DeiT 결과를 나타낸다. CNN 모델은 Section III1에서 기술한 내용과 같으며, NVIDIA A40 그래픽 카드를 사용하여 약 120번의 세대가 진행되는 동안, 대략 7시간 정도가 소요된다. ViT 및 DeiT 모델도 각각 Section III2 및 Section III3에서 기술한 내용과 같으며 ViT의 경우 약 150번, DeiT의 경우 약 120번의 세대가 시행되며, 각각 5시간, 9시간 정도가 소요된다. 세 모델 모두 손실 함수가 줄어드는 경향을 보이므로 과소적합 현상은 일어나지 않았다. 전반적으로 학습 데이터의 손실 함수가 검증 데이터의 손실 함수보다 크기 때문에 과적합 현상은 없으나, DeiT를 제외하고 세대가 커질수록 과적합이 시작되는 것을 확인할 수 있다. 과적합을 방지하기 위하여, 본문에서 기술한 기준을 만족하는 세대를 선택하였다.

Figure A1. (Color online) Each graph shows the loss function curves of CNN(left), ViT(middle), and DeiT(right) from lightcone data. The blue line represents the loss of 900 train data, and the orange line represents the loss of 270 validation data.

Figure A2는 참값 (Ωm,σ8)=(0.3158,0.8120)을 기준(검은색 별표)으로 생성된 1000개의 독립적인 테스트 데이터를 바탕으로 CNN, ViT, DeiT 모델이 각각 5번의 독립된 학습과정을 거친 후 얻은 5000개의 Ωmσ8을 추정 값의 오차 영역을 나타낸다. 초록색 점은 CNN의 평균값을 나타내며, 초록색 점선(실선)은 68%(95%) 신뢰구간을 의미한다. 마찬가지로 빨간색 삼각형은 ViT의 평균값, 빨간색 점선(실선)은 68%(95%) 신뢰구간을 나타내고, 파란색 사각형은 DeiT의 평균값, 파란색 점선(실선)은 68%(95%) 신뢰구간을 나타낸다.

Figure A2. (Color online) The predicted values of Ωm and σ8 by CNN (green), ViT (red), and DeiT (blue) with dashed (solid) contours representing 68% (95%) confidence intervals. A black asterisk stands for the truth values (Ωm = 0.3158, σ8 = 0.8120), while a green circle, a red triangle, and a blue square represent the average values predicted by CNN, ViT, and DeiT respectively.

Figure A3은 Latin Hypercube Sampling 방법으로 생성한 180개의 테스트 데이터를 사용하여, 각각의 매개변수 지점에서 학습을 5번 반복한 후 얻은 Ωmσ8의 평균값 및 68% 오차를 나타냈다. 위쪽 그래프는 CNN(왼쪽), ViT(중간), DeiT(오른쪽)이 추정한 Ωm의 평균값 및 68% 오차를 나타낸 것이다. Ωm의 경우, CNN이 ViT와 DeiT에 비해 잘 예측한 것을 볼 수 있는 반면, ViT와 DeiT의 경우 비슷한 예측 성능을 보인다. 아래쪽 그래프는 CNN(왼쪽), ViT(중간), DeiT(오른쪽)이 추정한 σ8의 평균값 및 68% 오차를 나타낸 것이다. σ8 역시, CNN이 ViT와 DeiT에 비해 잘 예측한 것을 볼 수 있는 반면, ViT와 DeiT의 경우 비슷한 예측 성능을 보인다. CNN, ViT, DeiT 모델 모두 σ8에 비해 Ωm에 대한 예측 성능이 높다.

Figure A3. (Color online) Truth and predicted values of Ωm (top panels) and σ8 (bottom panels) by CNN (left), ViT (middle), and DeiT (right) together with 68% error bars.

따라서 광원뿔 데이터로 매개변수를 예측했을 경우, CNN 모델의 결과가 가장 좋은 반면, 본문에서 기술한 암흑물질 밀도장 데이터로 매개변수를 예측했을 경우 DeiT 모델의 결과가 가장 좋게 나왔다. 이처럼 다른 결론이 나온 이유는 다음과 같이 생각할 수 있다. 첫째, 먼저 광원뿔 데이터와 암흑물질 밀도장 데이터를 생성하는 과정에 큰 차이가 있다. 광원뿔 데이터의 경우 Latin Hypercube 샘플링 방식으로 변수를 선택한 반면, 암흑물질 밀도장 데이터의 경우 격자구조의 형식으로 변수를 선택하였다. 이외에도 적색편이의 범위, 시뮬레이션 상자의 크기 및 입자 수 등 여러 부분에서 차이가 있다. 둘째, 본문 및 부록에서 사용한 딥러닝 모델의 구조는 암흑물질 밀도장 데이터에 맞게 최적화된 상태이다. 광원뿔 데이터에 대한 극도의 최적화를 진행할 경우, ViT 및 DeiT의 결과를 개선할 여지가 있을것으로 보이지만, 전반적으로 CNN의 결과가 상대적으로 더 좋은 경향을 보인다. 셋째, 광원뿔 데이터의 경우 암흑물질 헤일로의 밀도장을 대상으로 하고 특정 적경 및 적위의 범위에 국한된 헤일로 정보를 동일한 픽셀상에 표현하기 때문에 암흑물질 밀도장 대비 0을 갖는 픽셀이 상당히 많다. 이로 인해 트랜스포머 계열의 모델은 광원뿔 데이터의 상관관계를 학습하여 일반화 하는데 어려움을 겪는 것으로 보인다. 이를 보완하기 위해서는 데이터 증강이 필수지만, 계산 자원의 한계로 데이터를 생성하지 못했다. 그러나 CNN은 적은 데이터로도 여러 가정으로부터 효과적으로 일반화할 수 있는 네트워크 구조를 가진다. 따라서 실제 관측에 가까운 광원뿔 데이터를 사용할 경우, 기본적인 CNN 모델만으로도 매개변수 추정에 대해 준수한 결과를 얻을 수 있었다. 또한, 트랜스포머 계열 모델의 성능을 향상시킬 여지가 있을 수 있으며, 이는 후속 연구를 통해 좀 더 깊이 있는 조사를 진행할 예정이다.

  1. E. D. Valentino, et al., Class. Quant. Grav. 38, 153001 (2021).
    CrossRef
  2. H. Hildebrandt, et al., Astron. Astrophys. 633, 69 (2020).
    CrossRef
  3. J. F. Navarro, C. S. Frenk and S. D. M. White, Astrophys. J. 462, 563 (1996).
    CrossRef
  4. J. Diemand, et al., Nature 454, 735 (2008).
    Pubmed CrossRef
  5. A. Klypin, A. V. Kravtsov, O. Valenzuela and F. Prada, Astrophys. J. 522, 82 (1999).
    CrossRef
  6. B. Moore, et al., Astrophys. J. Lett. 524, 19 (1999).
    CrossRef
  7. N. Aghanim, et al., Astron. Astrophys 641, A6 (2020). [Erratum: Astron. Astrophys. 652, C4 (2021)].
    CrossRef
  8. M. Levi, et al. (DESI), arXiv: 1308.0847 (2013).
    CrossRef
  9. A. Aghamousa, et al. (DESI), arXiv: 1611.00036 (2016).
    CrossRef
  10. R. Laureijs, et al. (EUCLID), arXiv: 1110.3193 (2011).
    CrossRef
  11. P. A. Abell, et al. (LSST Science, LSST Project), arXiv: 0912.0201 (2009).
    CrossRef
  12. D. Spergel, et al., arXiv: 1503.03757 (2015).
    CrossRef
  13. H. Hildebrandt, et al., Mon. Not. R. Astron. Soc. 465, 1454 (2017).
    CrossRef
  14. M. A. Troxel, et al. (DES), Phys. Rev. D 98, 043528 (2018).
    CrossRef
  15. E. Semboloni, et al., Mon. Not. R. Astron. Soc. 410, 143 (2011).
    CrossRef
  16. L. Fu, et al., Mon. Not. R. Astron. Soc. 441, 2725 (2014).
    CrossRef
  17. T. Kacprzak, et al. (DES), Mon. Not. R. Astron. Soc. 463, 3653 (2016).
    CrossRef
  18. L. Marian, R. E. Smith, S. Hilbert and P. Schneider, Mon. Not. R. Astron. Soc. 423, 1711 (2012).
    CrossRef
  19. L. Marian, R. E. Smith, S. Hilbert and P. Schneider, Mon. Not. R. Astron. Soc. 432, 1338 (2013).
    CrossRef
  20. J. Liu and Z. Haiman, Phys. Rev. D 94, 043533 (2016).
    CrossRef
  21. H. Shan, et al., Mon. Not. R. Astron. Soc. 474, 1116 (2018).
    CrossRef
  22. X. Liu, et al., Mon. Not. R. Astron. Soc. 450, 2888 (2015).
    CrossRef
  23. J. Liu, et al., Phys. Rev. D 91, 063507 (2015).
    CrossRef
  24. A. Peel, et al., Astron. Astrophys. 599, 79 (2017).
    CrossRef
  25. C. Heymans, et al., Mon. Not. R. Astron. Soc. 432, 2433 (2013).
    CrossRef
  26. A. Gupta, J. M. Z. Matilla, D. Hsu and Z. Haiman, Phys. Rev. D 97, 103515 (2018).
    CrossRef
  27. A. Lazanu, J. Cosmol. Astropart. Phys. 2021, 039 (2021).
    CrossRef
  28. M. Ntampaka, D. J. Eisenstein, S. Yuan and L. H. Garrison, Astrophys. J. 889, 151 (2020).
    CrossRef
  29. J. Fluri, et al., Phys. Rev. D 98, 123518 (2018).
    CrossRef
  30. H. J. Hortua. in 35th Conference on Neural Information Processing Systems (2021).
    CrossRef
  31. T. Kacprzak and J. Fluri, Phys. Rev. X 12, 031029 (2022).
    CrossRef
  32. S. Pan, et al., Sci. China Phys. Mech. Astron. 63, 110412 (2020).
    CrossRef
  33. F. Villaescusa-Navarro, et al., Astrophys. J. 929, 132 (2022).
    CrossRef
  34. P. Villanueva-Domingo and F. Villaescusa-Navarro, Astrophys. J. 937, 115 (2022).
    CrossRef
  35. S. Ravanbakhsh, et al., arXiv: 1711.02033 (2017).
    CrossRef
  36. Y. Lecun, L. Bottou, Y. Bengio and P. Ha, Proc. IEEE 86, 2278 (1998).
    CrossRef
  37. F. Lepori, et al. (Euclid), Astron. Astrophys. 663, A93 (2022).
    CrossRef
  38. A. Blanchard, et al. (Euclid), Astron. Astrophys. 642, A191 (2020).
    CrossRef
  39. A. Dosovitskiy, et al., arXiv: 2010.11929 (2021).
    CrossRef
  40. H. Touvron, et al., arXiv: 2012.12877 (2021).
    CrossRef
  41. Y. Feng, M.-Y. Chu, U. Seljak and P. McDonald, Mon. Not. R. Astron. Soc. 463, 2273 (2016).
    CrossRef
  42. J. Lesgourgues, arXiv: 1104.2932 (2011).
    CrossRef
  43. D. Blas, J. Lesgourgues and T. Tram, J. Cosmol. Astropart. Phys. 2011, 034 (2011).
    CrossRef
  44. P. A. R. Ade, et al. (Planck), Astron. Astrophys. 594, A13 (2016).
    CrossRef
  45. D. P. Kingma and J. Ba, arXiv: 1412.6980 (2017).
    CrossRef
  46. A. Paszke, et al., PyTorch: An Imperative Style, High-Performance Deep Learning Library (Curran Associates, Inc., 2019).
  47. P. Monaco, T. Theuns and G. Ta, Mon. Not. R. Astron. Soc. 331, 587 (2002).
    CrossRef
  48. S. Y. Hwang, C. G. Sabiu, I. Park and S. E. Hong, arXiv: 2304.08192 (2023).
    CrossRef

Stats or Metrics

Share this article on :

Related articles in NPSM