npsm 새물리 New Physics : Sae Mulli

pISSN 0374-4914 eISSN 2289-0041
Qrcode

Article

Research Paper

New Phys.: Sae Mulli 2024; 74: 423-431

Published online April 30, 2024 https://doi.org/10.3938/NPSM.74.423

Copyright © New Physics: Sae Mulli.

Analysis of South Korean Presidential Election Results Based on Regional Voter Turnout

지역별 투표율에 기초한 대한민국 대통령 선거 결과 분석

Euseo Gwon, Hyeong-Chai Jeong*

Department of Physics and Astronomy, Sejong University, Seoul 05006, Korea

Correspondence to:*hcj@sejong.ac.kr

Received: January 16, 2024; Accepted: February 8, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

This study investigates the link between regional voter turnout and presidential election outcomes in South Korea. Typically, the realistic prospects of winning are confined to one conservative and one liberal candidate. The country demonstrates a distinct regional pattern, with the southeast supporting the conservative party and the southwest favoring the liberal party. We analyzed regional patterns of voter turnout and political tendencies from the 15th to the 20th elections. Our findings show that election outcomes can be accurately predicted by analyzing voter turnout changes, based on both the data at the end of voting and the final data released before the end. The key insight is that shifts in voter turnout in politically biased regions align with party support changes in neutral areas, indicating their significance in accurately predicting election outcomes.

Keywords: Election data analysis, Election outcome prediction, Social physics

대한민국에서 지역별 유권자 투표율과 대통령 선거 결과 간의 관계를 살펴본다. 대선에서 당선될 가능성은 보수진영 대표 정당과 진보진영 대표 정당의 후보 두 명에 국한된 경우가 대부분이다. 두 진영의 대표 정당에 대한 지지가 뚜렷한 지역적 패턴을 보이는데, 영남 지역은 보수진영 대표당을, 호남 지역은 진보진영 대표당을 주로 지지한다. 제15대부터 제20대 선거까지의 투표율 변동과 정치 성향 데이터를 분석하여, 지역별 투표율로 선거 결과를 예측할 수 있는 지표를 개발했다. 전국적인 투표율 변동 자료보다 정치적 성향이 강한 구시군의 투표율 변동 자료가 선거 결과를 더 정확하게 설명하는 것으로 나타났다. 또한 투표 종료 시 투표율뿐만 아니라 종료 1시간 이전, 마지막으로 발표된 투표율을 이용한 예측도 선거 결과와 모두 일치했다. 이는 정치적 강성향을 가진 지역의 투표율 변화가 전국적인 중도층 표심의 이동과 상관관계가 있음을 시사한다.

Keywords: 선거 데이터 분석, 선거 결과 예측, 사회 물리

대통령 선거 등, 선거 투표가 마감되면 방송사들은 출구조사를 바탕으로 각 후보의 득표율을 예측하며, 이를 통해 선거 결과를 예상한다. 당선인 예측에 활용되는 출구조사는 2000년 4월 13일에 실시된 16대 국회의원 선거에서 처음 소개되었다[1]. 출구조사 외에도 텍스트 마이닝을 통한 SNS 분석[2], 전문가 델파이 조사[3] 등 당선인을 예측하기 위한 방법이 지속적으로 연구 및 개발되고 있다[4-7]. 이러한 연구 노력은 국내뿐 아니라 국제적으로도 오랫동안 이어져 왔으며, 선진국과 개발도상국을 막론하고 중요하게 여겨진다[8-11]. 선거 결과 예측의 다양한 접근 방식이 연구되는 이유는 선거가 국가의 미래를 형성하는 결정적인 역할을 하기 때문이며, 이로 인해 대중의 관심이 지속적으로 높아지고 있다.

대한민국에서는 지난 6차례 대통령 선거 중, 3차례의 선거에서 집권당이 바뀌었다. 이러한 권력 변동을 가져온 선거 결과는 다음 두 가지 모두로부터 기인할 수 있다. 첫째, 여당 후보에서 야당 후보로 지지를 변경한 경우가 그 반대보다 많다. 둘째, 여당 지지자들의 투표율이 감소하고 야당 지지자들 투표율이 증가한다. 첫 번째 상황은 주로 중도층 유권자들이 지지하는 후보의 정당을 변경함으로써 정권이 교체되는 것을 의미한다. 반면 두 번째 상황은 강성 당파 지지자들의 지지 강도 변화에 의해 정권이 바뀌는 경우를 나타낸다. 두 번째 행동이 권력 변동의 주된 원인이거나, 첫 번째 행동과 두 번째 행동에 강한 양의 상관관계가 있다면 두 진영의 대표 정당에 대한 지지율에서 큰 차이를 보이는 지역의 투표율 패턴 분석은 대통령 선거 결과 예측을 위한 통찰력을 제공할 수 있을 것이다. 영호남 지역은 대한민국에서 정치 성향이 가장 두드러지는 곳이다. 이 두 지역은 각각 보수 정당과 진보 정당의 텃밭이라 불릴 정도로 높은 지지율을 보여준다. 영남과 호남 지역에서 두 정당의 지지율의 비대칭성은 워낙 커서, 대통령 선거뿐만 아니라 국회의원이나 지방 선거 등에서 지지도가 낮은 정당이 얼마만큼의 득표율을 보이는지는 매번 관심의 대상이 된다. 따라서 보수 성향이 강한 지역과 진보 성향이 강한 지역의 투표율이 선거 결과와 관련이 있으리라 생각된다. 예를 들어, 보수 성향이 강한 지역의 투표율이 높고 진보 성향이 강한 지역의 투표율이 낮다면 보수 정당의 후보가 당선될 확률이 높아질 것이다. 이에 착안해 전국 각 지역에 대해 투표율 변동과 정치 성향을 조사해 보고 이를 통해 대통령 선거의 결과를 시도 기준, 구시군 기준으로 나누어 분석하여 실제 결과와 일치하는지 확인해 보고자 한다. 대선이 거듭되며 정당의 명칭이 변경됨에 따라 여기서는 대표 보수 정당을 한나라당, 새누리당, 자유한국당, 국민의힘으로, 대표 진보 정당을 새정치국민회의, 새천년민주당, 대통합민주신당, 민주통합당, 더불어민주당으로 규정한다. 이후 내용에서 `보수'와 `진보' 후보는 각각 대표 보수 정당과 대표 진보 정당의 후보를 나타낸다.

각 지역의 투표율 변동과 정치 성향을 통한 대통령 선거 결과 예측을 위해 중앙선거관리위원회 선거통계시스템[12]에서 제공하는 15대부터 20대까지의 대통령 선거 개표 현황 데이터를 활용하였으며 지역은 시도와 구시군을 기준으로 분류하였다. 분석의 통일성을 높이기 위해 시도 기준의 경우 18대 대선부터 신설된 선거구인 세종특별자치시는 충청남도에 포함시켰고, 구시군 기준의 경우 해당 기간 동안 신설되거나 사라진 선거구는 데이터에서 제외하였다. 따라서 15대부터 20대에 걸친 총 여섯 번의 대선 개표 현황 데이터에는 총 16개의 시도와 225개의 구시군에 대한 선거인수, 투표수, 후보자별 득표수가 기록되어 있다. 정치 성향 및 예측에는 보수와 진보에 해당하는 두 후보에 대해서만 분석하였다.

1. 지역별 득표율 및 정치 성향

시도 기준 분석에서는 전국의 16개 시도 집합 P= {서울, 부산, 대구, 인천, 광주, 대전, 울산, 경기, 강원, 충북, 충남, 전북, 전남, 경북, 경남, 제주} }의 데이터를 사용하여 대통령 선거 결과를 분석한다. 반면, 구시군 기준 분석에서는 225개 구시군 중 “진보 성향도” 상위 10개 지역, CL= {광산, 함평, 화순, 완도, 광주북, 목포, 담양, 나주, 무안, 광주서}}와 “보수 성향도” 상위 10개 지역, CC= {군위, 영덕, 대구서, 의성, 문경, 상주, 성주, 청도, 고령, 대구남} }의 데이터만을 사용하여 대통령 선거 결과를 분석한다. (“진보 성향도”와 “보수 성향도”에 대한 정의는 Eq. (5) 아래 주어진다.)

먼저, 지역별 정치 성향에 대한 개괄적 성향을 살펴보기 위해 시도와 구시군에 따른 보수, 진보, 그 외 후보자들의 평균 득표율을 살펴본다. 지역별 평균 득표율은 15대부터 20대까지 6번의 대선에서 보수, 진보, 그 외 후보자들의 받은 득표율의 평균이다. 지역 i에서 t대 대선의 투표수, 보수 후보 득표수, 진보 후보 득표수를 각각 Ti(t), Yi(t), Zi(t)로 나타내기로 하고, Yi(t)/Ti(t)Zi(t)/Ti(t)로 주어지는 보수와 진보 후보의 득표율을 yi(t)zi(t)로 표시하자. 여기서 t{15,16,,20}t=15는 15대 대선, t=16는 16대 대선 등을 나타내며 i는 지역을 나타내는 인덱스로 시도 분석에서는 iP로 16개 중 하나이고, 구시군 분석에서는 전국의 225개 구시군 중 하나를 나타낸다. 그러면, 지역 i에서 보수 후보와 진보 후보의, 6번 선거에 대한 평균 득표율 yi¯zi¯는 각각

yi¯=16 t=15 20yi(t),zi¯=16 t=15 20zi(t)

로 주어진다.

Figure 1(a)와 (b)는 각각 시도 기준과 구시군 기준에서 15대부터 20대까지의 대선의 평균 득표율을 보여준다. 가로축은 지역을 나타냈으며 세로축에는 보수, 진보, 그 이외 후보들의 평균 득표율, yi¯, zi¯, 1-yi¯-zi¯를 표시했다. Figure 1(a) 가로축의 GJ, JN, JB, JJ, DJ ,CN, GG, SE, IC, CB, GW, US, BS, GN, GB, DG는 각각 광주광역시, 전라남도, 전라북도, 제주특별자치도, 대전광역시, 충청남도, 경기도, 서울특별시, 인천광역시, 충청북도, 강원특별자치도, 울산광역시, 부산광역시, 경상남도, 경상북도, 대구광역시를 나타낸다. 붉은색은 보수 후보 득표율의 평균을, 푸른색은 진보 후보 득표율의 평균을, 회색은 나머지 후보들 득표율 합의 평균을 의미한다. 시도 기준의 경우에는 영남 지역에 해당하는 대구, 경북, 경남, 부산, 울산에서 보수 득표율이 높게 나타나는 것을 확인할 수 있으며, 진보 득표율은 호남 지역에 해당하는 광주, 전남, 전북에서 높은 것을 볼 수 있다. Figure 1(b)는 구시군 기준에서 “진보 성향도” 상위 10개 지역과 “보수 성향도” 상위 10개 지역의 보수, 진보, 그 이외 후보들의 평균 득표율을 보여준다. 가로축의 ggg, hpn, hsn, wdn, gbg, mps, dyn, njs, man, gsg, dng, grn, cdn, sjn, sjs, mgs, usn, dsg, ydn, gwn은 각각 광주 광산구, 함평군, 화순군, 완도군, 광주 북구, 목포시, 담양군, 나주시, 무안군, 광주 서구, 대구 남구, 고령군, 청도군, 성주군, 상주시, 문경시, 의성군, 대구 서구, 영덕군, 군위군을 나타낸다. CL로 주어지는 진보 성향도 상위 10개 지역은 모두 전남과 광주 지역에 위치해 있으며, CC로 주어지는 보수 성향도 상위 10개 지역은 모두 경북과 대구 지역에 위치한 지역이다. 구시군 기준의 대선 결과 분석에는 이 20곳, C=CCCL의 데이터만을 사용한다.

Figure 1. (Color online) Average vote shares for each region from the 15th to the 20th presidential elections are shown. Vote shares are represented with colors: red for conservative candidates, blue for liberal candidates, and grey for other candidates. Panel (a) presents results on a provincial basis for all 16 provinces, while panel (b) displays the regions with the highest 10 conservative and 10 liberal vote shares among 225 counties. For detailed province and county names corresponding to acronyms on the horizontal axis, see the main text.

보수나 진보 후보의 절대 득표율은 그 지역의 정치 성향뿐 아니라, 보수나 진보 후보 이외의 무소속이나 군소 후보의 지지율에 따라 크게 변동될 수 있다. 그래서 이 연구에서는 두 진영 후보의 절대 득표율보다 두 진영 후보가 받은 전체 득표율에서 특정 진영 후보가 받은 비율로 정의된 상대 득표율을 가지고 분석한다. 지역 i에서 t대 대선에서 보수 후보가 받은 상대 득표율 Ri(t)

Ri(t)=Yi(t)Yi(t)+Zi(t)

로 정의된다.

각 지역의 보수나 진보의 득표율이 전국 평균에서 벗어난 정도로 각 지역의 정치 성향도를 나타내려고 한다. 정치 성향도를 수로 표시하기 위해, Ri(t)가 전국 평균에서 벗어난 정도,

ΔRi(t)=Ri(t)R(t)

를 지역 it대 선거에서 정치 성향도라고 정의한다. 여기서 R(t)Ri(t)에 대한 전국 평균으로

R(t)=iYi(t)iYi(t)+Zi(t)

로 주어진다.

이제 지역별 평균 정치 성향도 ΔRi¯는 각 선거에서 그 지역이 보인 정치 성향도의 평균으로 정의하여

ΔRi¯=16 t=15 20ΔRi(t)

로 주어진다. 그래서 ΔRi¯가 0보다 크면 지역 i는 보수적 성향을, 0보다 작으면 진보적 성향을 나타낸다고 볼 수 있다. 이제 지역 i의 “보수 성향도”는 ΔRi¯로, “진보 성향도”는 -ΔRi¯로 정의하여 보수/진보 성향도가 클수록 보수적/진보적 성향이 강한 지역을 나타내게 한다.

Figure 2(a)와 (b)는 시도와 구시군 기준에서 각 지역의 15대부터 20대까지의 선거별 정치 성향을 나타내었다. 가로축에는 지역을 명시했으며, 세로축은 정치 성향도를 지역별로 나타낸다. 각 선거별 정치 성향도 ΔRi(t)t=15대에서 20대까지 각각 원, 마름모, 삼각형, 사각형, 오각형, 육각형으로 나타내었고, 이 여섯 번 선거의 평균 정치 성향도 ΔRi¯는 회색 막대로 나타내었다. 각 대선의 보수와 진보 후보는 각각 15대 이회창, 김대중*, 16대 이회창, 노무현*, 17대 이명박*, 정동영, 18대 박근혜*, 문재인, 19대 홍준표, 문재인*, 20대 윤석열*, 이재명이고 *는 당선자 표시이다. Figure 2는 이미 알려진 것처럼 영호남 지역의 정치적 양극화가 강함을 보여주는데, 흥미로운 점은 영남 지역에 비해 호남 지역의 득표율 변화가 적다는 것이다. 이로 미루어 보아 호남 지역의 진보 정당에 대한 지지도가 영남 지역의 보수 정당에 대한 지지도보다 더 일관되게 나타남을 알 수 있다. 또한 19대 대선에서 보수 득표율이 예년에 비해 유독 낮은 것을 확인할 수 있는데 이는 (보수 정당 소속의) 18대 박근혜 전 대통령의 탄핵과 연관된 것으로 보인다.

Figure 2. (Color online) Political tendencies by region for each election. Symbols indicate the political tendency ΔRi(t) in each of the six elections. Grey bars represent the average political tendency ΔRi¯. Positive values denote conservative, negative values indicate liberal tendencies. Panel (a) uses provincial data, while panel (b) focuses on counties with strong political tendencies. For information on conservative and liberal candidates in each election, see the main text.

2. 지역별 투표율 및 투표율 변동

선거 투표율은 투표자 수를 유권자 수로 나눈 양으로 주어진다. 지역 i에서 t대 대선의 투표율을 Xi(t)라고 할 때, 지역별 평균 투표율 Xi¯는 다음과 같이 계산된다.

Xi¯=16 t=15 20Xi(t).

Figure 3은 각 지역의 15대부터 20대까지의 지역별 평균 투표율을 보여준다. 가로축에는 지역을 나타냈으며, 세로축은 각 지역의 15대부터 20대의 평균 투표율이다. (a)는 시도 기준에서 평균 투표율을 보여주고, (b)는 구시군 기준으로 정치 성향이 강한, 진보 성향도 상위 10곳과 보수 성향도 상위 10곳의 평균 투표율을 보여준다. (a)의 붉은 점선은 16개 시도 평균 투표율의 단순 산술 평균을 나타낸 것인데 15대부터 20대 대선까지의 전국의 평균 투표율은 0.742와 거의 일치한다. 정치 편향성이 강한 호남과 영남의 투표율이 높은 편인데 그중에서도 진보 성향이 강한 호남 지역의 평균 투표율이 특히 높으며, 보수 성향이 강한 영남 지역도 부산을 제외하고는 전국 평균보다 높다. 반면에 평균 투표율이 가장 낮은 지역은 충남이고 전국 평균에 가장 가까운 값을 갖는 지역은 서울이다. (b)의 붉은 점선은 정치 성향이 강한 지역 평균 투표율의 단순 산술 평균인데, 0.773으로 전국의 평균 투표율보다 상당히 높은 값을 가진다. 정치 성향이 강하게 드러나는 지역의 투표율이 높게 나타나는 이유는 지역 유권자들이 정치적 의사를 투표로 좀 더 적극적으로 표시했기 때문으로 생각한다. 즉, 정치 성향이 강한 지역에서의 기권 비율이 중도 지역에서의 기권 비율보다 적은 것으로 보인다.

Figure 3. (Color online) Average voter turnout for each region from the 15th to the 20th presidential elections. (a) shows the average voter turnout by province, (b) the average voter turnout in counties with strong political tendencies. The dotted lines represent the national average voter turnout in (a) and the average turnout in 20 districts with strong political tendencies in (b).

특정 대선에서의 특정 지역의 투표율이 전국 평균과의 차이를 보이는 것은 두 가지 요인으로 나누어 분석해 볼 수 있다. 하나는 선거가 이루어지는 때의 정치 상황이나 후보에 따라 변화하는 요인이고, 다른 하나는 구체적 선거 상황에 상관없는 지역적 특성에 의한 것이다. 이 연구에서는 각 대선의 지역별 투표율에서 그 지역의 평균적인 특성에 의한 투표율 편차를 제거하여 각 선거의 투표율에 반영된 정치 상황 정보를 얻고자 한다. 이를 위해 먼저 지역 it대 선거에서의 투표율 편차

ΔXi(t)=Xi(t)-X(t)

를 정의한다. 여기서 X(t)t대 선거의 전국 투표율이다. 지역 i의 평균적 투표율 특성을 나타내는 지표로 ΔXi(t)의 평균, ΔXi¯을 계산한다.

ΔXi¯=16t=1520ΔXi(t)

이제, 선거 때의 정치 상황 정보가 투표율로 반영됐을 것으로 추정되는 지역 it대 선거 투표 선호도 X^i(t)를 다음과 같이 정의한다.

X^i(t)=ΔXi(t)Δ Xi¯.

투표 선호도가 양수 (X^i(t)>0)이면 해당 지역의 투표율이 (전국적인 투표율 변동 요인을 제거했을 때) 평소보다 증가했음을 뜻하고, 반대로 음수 (X^i(t)<0)이면 감소했음을 의미한다.

Figure 4는 전국 16개 시도에 걸쳐 15대부터 20대까지 대통령 선거의 지역별, 선거별 (a) 투표율과, 이로부터 계산된 (b) 투표율의 편차와 (c) 투표 선호도를 시각적으로 제시한다. 이 그림의 가로축은 각 시도를 진보 성향도가 높은 순서대로 배열한다. (a)에서는, t대 대선에서, 각 시도 지역 i의 투표율 Xi(t)를 기호로 나타내고, 해당 선거의 전국 평균 투표율을 점선으로 표시한다. (b)에서는 Eq. (7)에 따라 계산된 각 지역 i의 투표율의 편차 ΔXi(t)을 보여준다. 마지막으로, (c)에서는 Eq. (9)에 정의된 각 지역의 선거별 투표 선호도 X^i(t)를 제공한다.

Figure 4. (Color online) Voter turnout, deviations in turnout, and voting preferences for presidential elections from the 15th to the 20th across 16 national provinces. The horizontal axis arranges provinces by average liberal vote share. (a) displays the voter turnout for each province for each election, with the national average indicated by a dotted line. (b) shows the deviation in voter turnout for each region. (c) presents the election-specific voting preferences for each region.

(a)로부터 투표율을 살펴보면 15대가 높고 16대와 17대가 낮음을 알 수 있다. 15대 대선의 경우, 선거에 의한 정권 교체가 처음 이루어진 경우로 전국적으로 대선에 대한 관심이 높아, 지난 6번의 선거 중 가장 높은 투표율이 나온 것으로 보인다. 이명박 후보와 정동영 후보가 대결한 17대의 경우 두 후보의 전국 득표율이 48.67% 대 26.14%로 큰 차이를 보였는데, 선거 전 지지도에서 이미 큰 차이를 보여 투표 참여도가 떨어진 것으로 보인다. 홍준표 후보와 문재인 후보가 대결한 19대 대선 역시 전국 득표율이 24.03% 대 41.08%로 큰 차이를 보였지만, 이 경우는 박근혜 전 대통령의 탄핵이라는 특수 상황이 유권자들로 하여금 예견된 선거 결과에 상관없이 자신의 정치 의사를 표현하도록 만들어 투표율이 많이 떨어지지는 않은 것으로 보인다. 이와 같은 선거별 전국 투표율 변동 요인과 그 지역의 평균 투표율 요인을 제거한 지역별 선거별 투표 선호도를 보면 선거를 치를 당시의 정치 상황 정보를 유추해 볼 수 있는 것으로 보인다. (c)를 보면 투표 선호도가 호남 지역이 높고 영남 지역이 낮게 나타난 경우인 15대, 16대, 19대에서는 진보 정당의 후보가 당선된 것을 알 수 있다. 반면에 호남 지역의 투표 선호도가 낮고 영남 지역이 높게 나타난 17대와 18대에서는 보수 정당의 후보가 당선되었다. 20대 선거의 경우 이러한 경향이 확연하게 보이지는 않는데 이는 보수 정당 후보와 진보 정당 후보의 득표율 격차가 매우 작았기 때문인 것으로 보인다.

Figure 5는 정치 강성향 구시군 20개 지역에 대하여 15대부터 20대까지 대통령 선거의 지역별, 선거별 (a) 투표율, (b) 투표율의 편차, (c) 투표 선호도를 제시한다. 지역을 나타내는 인덱스 i가 전국 시도가 아니고, 정치 강성향 구시군 20개 지역이라는 점을 제외하면, 사용된 심볼 등, 나머지는 Fig. 4의 경우와 같다. (c)를 보면 진보 정당의 후보가 당선된 15대, 16대, 19대 선거에서는 진보 강성향 구시군의 투표 선호도가 높고 보수 정당의 후보가 당선된 17대, 18대, 20대 선거에서는 투표 선호도가 보수 강성향 구시군이 높은 것을 볼 수 있다. 이 차이는 전국적인 시도 투표율로 나타낸 Fig. 4의 경우보다 더 확실히 나타난다.

Figure 5. (Color online) Voter turnout, deviations in turnout, and voting preferences for presidential elections from the 15th to the 20th in 20 counties with strong political tendencies. (a) displays the voter turnout for each county for each election. (b) shows the deviation in voter turnout for each county. (c) presents the election-specific voting preferences for each county.

특정 대통령 선거의 결과 분석을 위해 각 지역의 평균 정치 성향도에 그 지역의 특정 선거에 대한 투표 선호도를 곱한 값의 전국 평균을 계산한다. 지역 iP의 정치 성향도를 ΔRi¯, t대 선거에서 그 지역의 투표 선호도를 X^i(t)라 할 때, 시도 기준 투표 선호도에 의한 t대 선거의 당선 분석 지수 IP(t)

I(t)= iwi(t)X^i(t)ΔRi¯

로 정의한다. 여기서 P는 II장 지역별 현황에서 정의한 16개의 시도를 모두 포함하는 집합이고, wi(t)t대 선거에서 지역 i의 가중치로 지역 i의 유권자 수를 나타낸다. t대 선거에서 보수 성향이 강한 지역의 투표율이 평소보다 높고 진보 성향이 강한 지역의 투표율이 평소보다 낮으면 당선 분석 지수 IP(t)는 양수가 되고 그 반대이면 음수가 된다. 그래서 IP(t)가 양수이면 보수 후보가 당선될 확률이 높고 음수이면 진보 후보가 당선될 확률이 높은 것으로 해석한다.

Figure 6(a)는 Eq. (10)로 주어지는 시도 기준 당선 분석 지수를 15대부터 20대까지의 선거에 대하여 나타낸 그래프이다. 진보 후보가 당선된 15대와 16대의 경우 음수, 보수 후보가 당선된 17대와 18대의 경우 양수 값을 가져 분석이 대선 결과와 일치한다. 그러나 19대와 20대의 경우 진보 후보가 당선된 19대는 양수, 보수가 당선된 20대는 음수 값을 가져 대선 결과와 일치하지 않는다.

Figure 6. (Color online) Winning Probability Analysis Index. (a) Analysis index IP(t) based on provincial voter turnout data. (b) Analysis index IC(t) based on 20 districts with strong political tendencies. A positive analysis index suggests a higher probability of a conservative candidate winning, while a negative index indicates a higher probability for a liberal candidate. Matches with actual presidential election outcomes are marked in green, mismatches in orange. In (a), 4 (from the 15th to the 18th elections) out of 6 cases matched, whereas in (b), all 6 cases were consistent with the election results.

19대와 20대의 경우, 선거 결과가 분석 지수와 일치하지 않은 이유를 당시의 정치적 상황으로 설명하는 것은 가능할 것이다. 예를 들어 다음과 같은 설명이다. 19대 대선 당선인 문재인 전 대통령은 진보 정당 후보이지만, 그의 고향이 보수 성향이 강한 경남이라 경남과 그 주위의 부산, 울산의 투표율이 상대적으로 높다. 또한 19대 대선은, 18대 대통령인 박근혜 전 대통령의 탄핵으로 인해 치르게 된 선거로 탄핵된 보수 대통령을 심판하려는 성향으로 인해 전국적으로 고르게 진보 후보가 표를 평소보다 더 받았다. 반면, 이런 사실이 사전 여론 조사에 알려져 정권 교체가 기정사실화되었고 (실제로 19대 대선의 경우 득표율 차이는 17.05%p로 압도적인 차이를 보였다.) 이 때문에 평소 진보적 정치 영향력을 상대적으로 높게 나타내던 호남 지역의 투표율이 감소해서 투표 선호도에 (진보) 후보 선호도 정보를 담을 수 없었다. 20대 선거는 보수 후보와 진보 후보 사이에서 치열한 경쟁이 벌어졌으며, 전국 득표율을 보수 후보가 48.56% 진보 후보가 47.83%를 획득하여, 보수 후보가 약 0.73%p의 미세한 차이로 당선된 경우로 선거 분석이 매우 힘든 경우로 보인다. 특히, 보수 정당에서 상대적으로 진보 성향을 보이는 젊은 당대표를 내세워 진보가 강세인 호남 지역에서 평소보다 높은 보수 득표율을 얻었다.

이 논문에서 추구하는 것은 선거가 끝난 후, 왜 그런 결과가 나왔는가에 대한 내러티브 기술이 아니고 지역별 투표율로부터 당선자를 분석할 수 있느냐 하는 것이다. 그런 관점에서 보면 시도 기준 분석 지수는 선거에 대한 분석력이 충분하지 않은 것으로 보인다. 그 이유 중 하나는 선호 후보 때문에 나타나는 지역별 투표율 변동 요인보다 위에 내러티브 하게 기술한 것과 같은 예외적 요인이 더 큰 경우도 있기 때문이다. 그런데, 선호 후보 때문에 나타나는 지역별 투표율 변동 요인이 충분히 커서 예외적 요인이 상대적으로 미미한 것이 되는 지역이 있다면 그 지역의 정보만 이용하여 결과를 분석해 볼 수 있을 것이다. 이를 확인하기 위해, 정치적 성향이 보수와 진보로 강한 각각 10개 지역만의 정치 성향도와 투표 선호도를 이용하여 “강성향” 구시군 기준 t대 선거의 분석 지수 IC(t)

I(t)= iwi(t)X^i(t)ΔRi¯

를 계산한다. 여기서 C는 II장 지역별 현황에서 정의한 20개의 구시군 집합이다. Equation (11)로 주어지는 강성향 지역 분석 지수 IC(t)Fig. 6(b)에 나타내었다. 이 경우는 15대부터 20대까지 모든 대선의 결과를 정확히 설명한다.

지금까지의 분석의 경우는 지역별 정치 성향도 ΔRi¯을 계산할 때나 또 이를 이용하여 정치적 성향이 강한 20개 구시군을 선택할 때, 15대에서 20대 대선까지의 선거 결과 정보를 이용한 것이어서 당선 분석 지수 IC(t)가 선거 전에 대선 결과를 예측하는 것은 아니다. 이제, 15대부터 t-1대까지의 대선 선거 결과를 이용하여 t대 대선의 결과를 예측하는 당선 예측 지수

Pt(t)= i t wi(t)X^i(t)  ΔRi ¯ t

PCt(t)를 고려한다. 여기서 CtΔRi¯t는 이전과 같은 방법으로 구하는데 다만, 15대부터 20대까지의 선거 결과를 이용하는 것이 아니라, 15대부터 t-1대까지의 대선 선거 결과를 이용하여 계산한다. 예를 들어, 18대 선거 결과를 예측하기 위해서는 15대, 16대, 17대 대선의 선거 결과를 이용하여 CtΔRi¯t를 계산하였고, wi(t)X^i(t)는 18대 선거 값을 사용한다. 18대, 19대, 20대 선거 결과 예측을 위해 각각 15대부터 17대, 18대, 19대까지의 대선 결과를 이용하여 구한 전체 강성향 구시군은 C18= {광산, 화순, 완도, 담양, 함평, 광주북, 나주, 순창, 목포, 곡성, 대구중, 수성, 대구서, 대구남, 달서, 김천, 문경, 대구북, 상주, 대구동} }, C19= {광산, 광주북, 함평, 화순, 나주, 광주서, 완도, 목포, 담양, 광주남, 대구서, 대구중, 영덕, 문경, 김천, 대구남, 상주, 수성, 성주, 달서} }, C20= {광산, 광주북, 화순, 광주서, 함평, 나주, 목포, 광주남, 완도, 담양, 영덕, 군위, 대구서, 문경, 의성, 상주, 성주, 청도, 예천, 대구남} }로 주어진다. 이를 이용하여 Eq. (12)로 계산한 당선 예측 지수를 Fig. 7(a)에 나타내었는데 보수 후보가 당선된 18대와 20대 대선은 양수 값을 진보 후보가 당선된 19대 대선은 음수 값을 예측하여 선거 결과와 일치한다. 이때 사용한 wi(t)X^i(t)t대 선거의 값으로 선거 마감 시간에 바로 알 수 있는 데이터이다. 즉, 선거 마감과 동시에 PCt(t)를 계산할 수 있어서 마감 시간에 당선 후보를 예측할 수 있다.

Figure 7. (Color online) Winning Prediction Index PCt(t) for the 18th, 19th, and 20th elections, utilizing vote results from the preceding elections and voter turnouts from the respective elections. (a) Index based on voter turnout at election closing time. (b) Index using the last voter turnout data announced before closing (1 hour or 1 hour 30 minutes prior). Both Index accurately predict conservative victories in the 18th and 20th elections with positive values and a liberal victory in the 19th election with a negative value.

마감 시간 이전에 당선 후보를 예측할 수 있는지를 확인하기 위해, 대통령 선거의 마감 시간 전 마지막으로 공개된 투표율로부터 당선 예측 지수를 계산한다. 마감 시간 전 마지막으로 공개된 투표율은 마감 시간 1시간 또는 1시간 30분 전에 공개된 투표율이다. 이 때 공개된 투표율로 wi(t)X^i(t)를 계산하여 PCt(t)를 구한 결과를 Fig. 7(b)에 보여준다. 이 경우도 18대와 20대는 양수 값을 19대는 음수 값을 보여 선거 결과와 예측이 일치한다. 다시 말해, 선거가 종료되기 전의 투표율 정보를 이용하여 예측한 결과가 선거 결과와 세 경우 모두 일치했다는 것이다.

본 분석에서는 각 지역의 투표율 변동, 정치 성향과 대통령 선거 결과 사이의 연관성을 조사하는 것을 목적으로 하였다. 먼저 지역을 시도 기준으로 분류하여 전국의 모든 데이터를 활용해 분석을 진행했으며, 이후 시도 기준에서 구시군으로 지역의 범위를 좁혀 특정 지역 20곳의 데이터만을 분석에 사용했다. 특정 지역을 선발하는 기준은 15대부터 20대까지의 보수 성향도 상위 10곳과 진보 성향도 상위 10곳을 선정하였다. 시도 분석 결과는 15대부터 18대까지의 4번의 선거 결과와 일치하였고 정치 강성향 구시군 분석 결과는 15대부터 20대까지의 6번의 선거 결과와 모두 일치하였다.

정치적으로 보수나 진보의 성향이 강한 지역의 투표율 변동으로 세 차례의 정권 교체를 모두 설명할 수 있었다는 것이 여당 지지자들의 투표율이 감소하고 야당 지지자들 투표율이 높아져 정권 교체가 이루어졌다는 결론으로 바로 귀결되는 것은 아니다. 중도층에서 이전 선거에서 여당 후보에 투표했던 유권자가 이번 선거에서 야당 후보 지지자로 변경한 숫자가, 정치 성향이 강한 지역의 투표율 변동과 강한 상관관계를 보이면 투표 결과를 투표율 변동으로 설명할 수 있기 때문이다. 주목할 점은, 전국적인 투표율 변동의 데이터 대신 정치 성향이 강한 지역의 투표율 변동 데이터만을 사용했을 때, 선거 결과를 더 잘 설명한다는 것이다.

본문에서 제시된 결과는 각 선거의 최종 투표 참여율을 기반으로 하고 있다. 그러나, 흥미롭게도 투표 마감 직전, 즉 마감 1시간이나 1시간 30분 전의 투표 참여율을 활용하여도 예상되는 당선자에 대한 변화는 관찰되지 않았다. 이는 투표가 종료되기 전에 공개되는 시간별 투표 참여율 데이터만으로 투표 종료 이전에 당선자를 예측하는 것이 가능할 수 있음을 시사한다.

후속 연구에서는 정치적 성향이 뚜렷한 지역의 투표 참여율 변화가 선거 결과를 예측하는 데에 유의미한 지표로 활용될 수 있는지에 대한 가설을 대한민국의 다양한 선거 데이터와 다른 나라의 국가 지도자 선거 데이터를 활용하여 검증할 계획이다. 서울특별시 시장 선거 결과에 대한 예비 연구 결과를 보면, 이러한 경향이 해당 대선에 한정된 것이 아님을 알 수 있다. 서울특별시 전체 구를 대상으로 한 분석보다는, 정치적으로 진보적 또는 보수적 경향이 강조되는 특정 지역의 투표 참여율 변화를 중심으로 한 분석이 서울특별시 전 지역의 투표 참여율 데이터에 기반한 분석보다 선거 결과와 더 정밀하게 일치함을 보여준다. 또한, 여러 차례의 정권 교체가 이루어졌으며, 정치적 성향이 명확하게 구별되는 지역이 존재하는 국가들을 대상으로 국가 지도자 선거 데이터를 분석하는 방향으로 연구를 확장할 예정이다. 이를 통해 본 연구에서 제시된 가설이 국제적 맥락에서도 유효한지를 탐구하는 데 초점을 둘 것이다.

저자들은 본 연구에 귀중한 조언을 제공해 주신, 카톨릭대학교 조항현 교수님, 서울대학교 손윤규 교수님, 그리고 세종대학교 채선희님, 이나현님께 감사를 드립니다. 이 성과는 대한민국 교육부와 한국연구재단의 일반공동연구지원사업(융복합)의 지원(NRF-2022S1A5A2A03051182)과 과학기술정보통신부와 한국연구재단의 지원(NRF-2021R1F1A1063238)을 받아 수행된 연구입니다.

  1. J.-B. Ryu, Surv. Res. 4, 31 (2003).
  2. D.-H. Seo, J. Kim and C.-K. Kim, J. Intell. Inf. Syst. 24, 199 (2018).
  3. J. Cho and J. Yoon, J. Future Politics 2, 63 (2012).
    CrossRef
  4. R. Kennedy, S. Wojcik and D. Lazer, Science 355, 515 (2017).
    CrossRef
  5. D. A. Linzer, J. Am. Stat. Assoc. 108, 124 (2013).
    CrossRef
  6. J. R. Lax and J. H. Phillips, Am. J. Political Sci. 53, 107 (2009).
    CrossRef
  7. Y. Ghitza and A. Gelman, Am. J. Political Sci. 57, 762 (2013).
    CrossRef
  8. T. M. Holbrook and J. A. DeSart, Int. J. Forecast. 15, 137 (1999).
    CrossRef
  9. R. J. Jones, Jr., Int. J. Forecast. 24, 310 (2008).
    CrossRef
  10. G. Shin and J. Future, Politics 2, 5 (2012).
    CrossRef
  11. D. S. Hillygus, Public Opin. Q. 75, 962 (2011).
    CrossRef

Stats or Metrics

Share this article on :

Related articles in NPSM