npsm 새물리 New Physics : Sae Mulli

pISSN 0374-4914 eISSN 2289-0041
Qrcode

Article

Research Paper

New Phys.: Sae Mulli 2022; 72: 594-604

Published online August 31, 2022 https://doi.org/10.3938/NPSM.72.594

Copyright © New Physics: Sae Mulli.

Google Trends as a Predictor of Presidential Elections and Analysis of the Korean Presidential Election in 2022

Chae-Hyun Yoon*, Jubin Park, Myung-Ki Cheoun

Department of Physics and Origin of Matter and Evolution of Galaxies (OMEG) Institute, Soongsil University, Seoul 06978, Korea

Correspondence to:*E-mail: chhbv@naver.com
†E-mail: honolov77@gmail.com

Received: March 17, 2022; Revised: May 25, 2022; Accepted: May 31, 2022

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Big data in the form of Internet searches can provide simple and effective analysis and forecasting compared with previous traditional polls. In particular, Google, which has the largest number of users worldwide, provides a dynamic website called Google Trend, which investigates searched keywords and provides trends in the region. This study analyzed the results of the 17th-19th Korean presidential elections using Google Trend and showed that the winners of each presidential election can be predicted. In addition, we found a remarkable correlation between the difference in the average Google Trend value and the difference in the voting rate during a given election period. The recent 20th presidential election was also analyzed.

Keywords: Traditional Polls, Google Trends, Presidential Election, Winner, Forecasting

인터넷 검색 형태의 빅 데이터는 이전의 전통적인 여론조사와 다르게, 매우 간단하고 효과적인 분석 및 예측을 제공할 수 있다. 특히 전 세계적으로 가장 사용자가 많은 구글은 구글 트렌드라는 동적 웹 사이트를 제공함으로써, 검색된 키워드를 조사하고 그 지역의 트렌드를 제공한다. 이 연구에서는 구글 트렌드를 사용하여, 앞선 한국의 17대-19대 한국 대통령선거(대선)의 결과를 분석하였고, 각 대선의 승자를 예측할 수 있음을 보여주었다. 또한 주어진 선거기간 동안, 대선 후보 간 평균 구글 트렌드 값의 차이와 실제 후보 간 득표율 차이에 유의미한 상관관계가 존재함을 입증하였으며, 최근 치러진 2022년 20대 대선을 분석하였다.

Keywords: 전통적인 여론조사, 구글 트렌드, 대통령선거, 당선인, 예측

인터넷을 통한 디지털 채널은 정치인들에게 유권자와의 손쉬운 의사소통 창구가 되었을 뿐 아니라, 선거에서 대중의 정보를 수집, 관리, 모니터링을 하는 중요한 수단이 되었다. 특히 전통적인 선거 캠페인의 디자인 및 메시지 전달 방법에 큰 영향을 끼치게 되었고, 소셜 네트워크와 같은 새로운 형태의 정치적 참여가 나타나게 되었다. 특히 2002년 한국의 대통령 선거(대선)에서 20대와 30대의 유권자들에게 큰 지지를 받았던 노무현 후보의 대선 승리는 이러한 인터넷 선거운동 전략의 중요성과 역할을 보여주는 계기가 되었다[1]. 근래에는 이런 디지털 채널에서 이용되는 정보의 힘이 여론 형성에 어떻게 영향을 미치는지 고려하는 Googleocracy 또는 Googlearchy에 관한 논의가 지속적으로 이루어져 왔고[2], 다른 매체에 비해 구글 검색 형태의 빅 데이터가 정치적 행동의 가장 강력한 예측 인자로써 작용할 수 있음을 보여주었다[3].

이 연구에서는 이런 빅 데이터 중 매우 간단하고 효과적인 구글 트렌드(Google Trends)를 이용하여, 이전 선거의 결과 및 2022년 3월 9일 치러진 20대 대선을 분석하고자 한다. 구글 트렌드는 검색된 키워드를 조사하고 순위를 정하는 동적 웹 사이트이므로, 실시간으로 정해진 지역을 기반으로 지역의 트렌드를 알 수 있다[4]. 이러한 방식으로 생성된 데이터는 그 지역 사람들의 태도 및 의도를 실시간으로 반영하므로 설명적이고 예측적인 성격을 띄게 된다. 최근 여론조사의 신뢰성이 의심받는 상황에서1, 구글 트렌드를 바탕으로한 합리적인 분석 및 예측은 여론조사의 한 가지 대안이 될 수 있거나, 보완적인 방법론이 될 수 있다는 점에서 매우 중요하다.

본 논문의 차례는 다음과 같다. 우선 이 논문에 사용된 샘플과 분석방법을 II절에서 소개한다. 앞선 17-19대 한국 대선과 관련된 구글 트렌드 데이터를 소개하고, 실제 대선의 승자가 선거기간 내내 더 많은 관심을 받았고, 선거일 무렵에는 다른 후보들에 비해 더 큰 구글 트렌드의 상승을 얻었음을 보여주었다. 또한 18대(19대) 대선의 지역별 비교 분석을 통해, 일반적인 여론조사에서 잡히지 않는 “샤이 박근혜(문재인)”2 존재를 짐작할 수 있음을 소개한다. 20대 대선의 경우, 선거 하루 전(D-1)까지 얻은 구글 트렌드 데이터를 바탕으로, 이재명 후보가 윤석열 후보에 비해 선거기간 내내 더 많은 관심을 받았음을 보여 주었고, ‘샤이 이재명’의 존재를 시사하는 지역별 비교 분석을 소개하였다. 더불어 주어진 선거기간 동안, 구글 트렌드와 득표율 사이의 상관관계를 조사하기 위해 필요한 변수들을 도입하였다.

III절에서는 각 대선마다, 선거 기간별로 분석된 평균 구글 트렌드 값의 변화를 보여주고, 각 대선의 승자가 전 선거기간 내내 가장 높은 평균 구글 트렌드 값을 가졌음을 보여주었다. 또한 주어진 선거기간 동안, 대선 후보 간 평균 구글 트렌드 값의 차이와 실제 두 후보간 득표율 차이에 유의미한 상관관계가 존재함을 입증하였다. 그리고 최근 20대 대선의 많은 여론조사가 윤석열 후보의 당선 가능성을 크게 점치는 반면, 구글 트렌드의 예측 결과는 이재명 후보의 당선을 시사한다는 점을 발견하였다.

IV절에서는 20대 대선 결과를 소개하고, 앞선 세 번의 대선과 다르게 구글 트렌드 예측이 실패한 첫 번째 사례임을 언급한다. 그리고 이전 성공한 구글 트렌드의 예측과 다르게, 왜 이번 대선에서 구글 트렌드 예측이 틀렸는지에 대하여 분석하고 논의한다.

마지막으로 V절에서는 주요 후보 사퇴 및 후보 간 단일화에 의한 구글 트렌드 분석, 여론조사와 구글 트렌드 간의 상관관계, 한국에서 제공하고 있는 네이버 및 카카오 트렌드3, 그리고 베이지안 통계 분석 및 인공지능을 통한 연구 결과 개선에 대하여 간략히 논의하였다.

1. 샘플

먼저 한국 2007(17대), 2012(18대), 2017(19대) 대선의 구글 트렌드 자료를 내려받아, 선거전 3개월부터 선거일까지 각 후보에 대한 웹 검색량을 비교하였다. 제20대 대통령 재외선거의 경우 국외부재자 및 재외선거인에 의한 투표가 있지만, 검색은 지리적으로 한국으로만 제한하였다.

1) 17–19대 대선

Figure 1은 구글 트렌드 검색량 결과를 보여준다. 구글 트렌드에서는 주어진 기간에 가장 높은 위치를 100으로 기준삼아 상대적인 비율을 나타낸다. Figure 1의 위 그림은 2007년(17대) 대선에서 정동영 후보(파란색)와 이명박 후보(빨간색)의 (2007년 9월 19일 부터 2007년 12월 19일까지) 구글(Google)의 검색량을 보여준다. 또한 그림 옆에 히스토그램과 숫자는 상대적인 평균 검색량을 나타낸다. 이 경우 정동영 후보는 4, 이명박 후보는 17에 해당한다. 이는 3개월 동안 평균적으로 100명 중 이명박 후보를 17명이 검색한 반면, 정동영 후보는 단지 4명만에 그쳤다는 사실을 보여준다. 이것을 통해 이명박 후보가 정동영 후보보다 더 많은 관심을 받았고, 실제 대선에서 승리했다는 사실에 주목할 필요가 있다. Figure 1의 중간은 2012년 18대 대선에서 문재인 후보(파란색)와 박근혜 후보(빨간색)간의 검색량 결과를 보여준다. 흥미롭게도 18대 대선에서 여론조사는 여론조사 공표 금지 기간 전까지 두 후보 박빙이었지만, 구글 검색량은 선거기간 전후 박근혜 후보가 사람들로 하여금 더 많은 관심을 받았다는 사실을 보여준다. Figure 1의 밑의 패널은 2017년 19대 대선에서 문재인 후보(파란색), 홍준표 후보(빨간색) 그리고 안철수 후보(노란색)의 검색량 결과를 보여준다. 앞선 결과와 유사하게 이 선거기간동안 문재인 후보가 다른 후보들을 압도하고 있음을 보여주고, 실제 선거에서 많은 차이로 압승하였다.

Figure 1. (Color online) Results of Google Trends in Korea's 2007 (17th), 2012 (18th), and 2017 (19th) presidential elections from three months before the election to the election day. Interestingly, Google Trends is showing the winners of each presidential election on election day.

Figure 2는 왼쪽(오른쪽) 패널에 2012년 18대(2017년 19대) 대선 지역별 비교 분석을 보여준다. 흥미롭게도 18대 대선에서 민주통합당의 텃밭인 호남지역에서 박근혜 후보(새누리당, 빨간색)가 예상과 다르게 많은 관심을 받았다는 사실을 보여준다. 마찬가지로 19대 대선에서 문재인 후보(더불어 민주당, 파란색)가 자유한국당의 텃밭인 경남,북지역에서 홍준표 후보(빨간색)보다 더 많은 관심을 받았음을 보여준다. 이는 실제 투표에서 전통적인 민주당(호남) 및 자유한국의 지역(경남북)에서 ‘샤이 박근혜’ 및 ‘샤이 문재인’ 표가 예상보다 많았음을 짐작하게 한다. 그리고 실제로 박근혜 후보는 그 당시 비민주당 후보로는, 제6공당화국 출범 이후 처음으로 호남에서 10 % 내외의 득표율을 받았다.

Figure 2. (Color online) Comparative analysis by region of the 18th presidential election in 2012 (left) and of the 19th presidential election in 2017 (right). Interestingly, it shows that in the 18th presidential election Geun-hye Park (red) received much attention in the Honam region, unexpectedly. Similarly, in the 19th presidential election, Jae-in Moon (blue) received more attention than Jun-pyo Hong (red) in the Gyeongnam and Gyeongbuk regions. This suggests that in the actual vote, `Shy Park Geun-hyé and `Shy Moon Jae-in' voted more than expected in the traditional Democratic Party (Honam) and Liberty Korea Party regions (Gyeongsangdo).

2) 20대 대선

Figure 3 위쪽 패널은 20대 대선에서 선거일(3월 9일) 하루 전(D-1)까지 검색한 구글 트렌트 결과를 보여준다. 3월 3일 안철수 후보와 윤석열 후보(빨간색, 국민의 힘) 간의 단일화 결과로 갑작스러운 윤석열 후보의 검색량 증가를 볼 수 있다. 하지만 전체적으로는 이재명 후보(파란색, 더불어민주당)가 윤석열 후보보다 더 많은 관심을 받고 있음을 알 수 있다. 아래쪽 패널에서는 20대 대선 지역별 비교 분석을 보여주며, 국민의 힘의 전통적 강세지역인 경남에서 이재명 후보가 큰 관심을 받고 있으며, 이 지역에서 ‘샤이 이재명’의 존재 및 예상보다 더 많은 경남에서의 득표율을 기대하게 한다.

Figure 3. (Color online) Google Trend Results (top panel) searched a day before the 20th presidential election (March 9) (D-1). On March 3, Candidate Cheol-soo Ahn and Candidate Seok-yeol Yun (red) were unified (Danilhwa), at this point Yun's search volume increased significantly. Google Trends shows that candidate Jae-myung Lee (in blue) is receiving more attention than candidate Seok-yeol Yun, except for the vicinity of Danilhwa on March 3. Looking at the comparative analysis by region, which is the lower panel, it is possible to estimate the existence of `Shy Lee Jae-myung' in Gyeongnam, a region where People Power Party is strong.

2. 분석방법

이전 17대-19대 대선 데이터를 바탕으로, 구글 트렌드와 득표율 사이의 상관관계를 조사한다. 이를 위해 선거일 전 3개월, 2개월, 1개월, 2주, 1주일의 기간을 선정하였다. 그리고 상관관계 분석을 위해 사용된 변수들은 다음과 같다:

  • 구글 트렌드 평균 검색 값 gx : 주어진 기간동안 x,후보자의 평균 트렌드 값으로 데이터의 수치는 0에서 100까지 제공된다. 짧은 기간에 나타나는 갑작스러운 변화(예로, 후보들 간의 단일화 및 중요한 정치적 이벤트)의 영향들을 평균값을 취함으로써 분산시키는 효과가 있다.

  • 두 후보 간 구글 평균 검색의 차이 Δg : 파란색(blue) 후보(대통합민주신당(17대), 민주통합당(18대), 더불어민주당(19대))의 구글 트렌드 평균에서 빨간색(red) 후보(한나라당(17대), 새누리당(18대), 자유한국당(19대))의 구글 트렌드 평균 값의 차이, 즉 Δggblue - gred.

  • 득표율 yX : 선거일 대선 투표에서 각 후보자(X)가 획득한 실제 득표율.

  • 선거 결과에서 두 후보가 획득한 득표율의 차이 Δy : 파란색 후보 득표율에서 빨간색 후보의 득표율을 뺀 양, 즉 Δyyblue - yred. 따라서 Δy > 0 경우는 파란색 후보가 선거를 이긴 경우에 해당하고, Δy < 0 경우는 빨간색 후보가 선거에 이긴 경우에 해당한다.

1. 17 – 19대 대통령 선거결과의 분석

첫 번째로 우리는 최근 3개의 앞선 한국 대통령 선거(17,18 그리고 19대 대선)의 결과를 정리하였다 (Table 1 참조). 만약 한국 대선의 승자를 예측할 때, 어떤 후보의 구글 검색량이 가장 높다고 가정하면, 구글 트렌드가 그 후보를 이전 선거의 승자라고 예측했을 것이다. 실제로 Fig. 1에서 각 대선에서 승리한 후보가, 대부분의 선거기간 동안 많은 검색량을 바탕으로 다른 후보들을 압도하고 있음을 알 수 있다4. 또한 선거 당일 근방으로 대선의 승리 후보가 다른 후보들에 비해 압도적인 관심(더 경사가 급한 구글 트렌드의 기울기)을 받았다는 사실에 주목할 필요가 있다. 18대 대선에서는 문재인 후보와 박근혜 후보가 여론조사에서 박빙이었고, 최종적으로 3.53 %에 차이밖에 나지 않았지만, 평균 구글 트렌드 및 선거일 전후에 구글 트렌드의 형태를 보면, 박근혜 후보의 당선을 예측할 수 있었다. 이와 유사하게 2022년 20대 대선에서 승리할 것으로 예상되는 후보도, 사람들에게 가장 큰 관심을 받고, 가장 많은 구글 검색을 생성했을 것이라고 생각된다. 특히 앞선 대선들의 구글 트렌드 경향을 고려해보면, 사람들의 검색량이 각 후보들의 (부정적인 뉴스 및 관심에도 불구하고) 긍적적인 뉴스 및 관심에 비례할 것으로 기대할 수 있다.

Table 1 . During three months, two months, one month, two weeks and one week before the election day, the average Google trend values (g) and differences (Δg) of major presidential candidates. In each presidential election, blue and red candidates are corresponded to 17th: Dong-young Jeong (blue), Myung-bak Lee (red), 18th: Jae-in Moon (blue), Geun-hye Park (red), 19th: Jae-in Moon (blue), Jun-pyo Hong (red).

Presidential election17th18th19th
Search period
3 Monthsgblue4712
gred17105
Δg-13-3+7
2 Monthsgblue5915
gred22138
Δg-17-4+7
1 Monthgblue71421
gred342213
Δg-27-8+8
2 Weeksgblue71927
gred412918
Δg-34-10+9
1 Weekgblue72435
gred513723
Δg-44-13+12


두 번째로 구글 트렌드 평균 변화를 선거일 전, 3달, 2달, 1달, 2주 그리고 1주일 동안 조사하였다. Table 1에서 확인된 바와 같이, 분석된 3개의 대통령 선거(17대-19대)에서 선거일에 다가갈수록 평균 구글 트렌드의 값이 커지는 경향이 있는데, 이는 일반적으로 선거일을 기준으로 후보들의 구글 트렌드가 가장 커지기 때문이다(즉 당선자 및 후보들에 대한 검색량이 선거일에 가파르게 증가한다). 또한 이는 각 진영에서 각 후보들을 지지하는 지지층들이 선거날 당일까지 점차적으로 집결하는 경향을 반영하는 것이기도 하다. 17대-19대 대선의 경우에도 평균 구글 트렌드의 차이가 선거일에 접근할수록 커지는데, 앞에서 언급하였듯이 구글 트렌드가 앞선 후보들이 역전을 허용하지 않고 대선 끝까지 앞서 있었음을 의미한다.

세 번째로 Fig. 4는 선거일 전 3개월, 2개월, 1개월, 2주 그리고 1주일 전 구글 트렌드의 평균값의 변화를 보여준다. 맨 왼쪽 패널은 2007년 17대 대통령선거 당시, 정동영 후보와 이명박 후보사이의 평균 구글 트렌드 변화를 보여주며, 이명박 후보가 대선기간 내내 정동영 후보를 큰 차이로 앞서 있음을 보여준다. 중간 패널은 2012년 18대 대선의 경우이며, 박근혜 후보가 문재인 후보에 비해 선거기간 내내 더 많은 관심을 받았음을 보여준다. 오른쪽 패널은 2017년 19대 대선의 경우이며, 이 경우에도 문재인 후보가 다른 후보들에 비해 선거기간 내에 더 많은 관심을 받았다는 사실을 보여준다. 흥미로운 점은 3개월 전에는 홍준표 후보가 안철수 후보보다 약간 적은 관심을 받았지만, 1개월 전부터 안철수 후보를 넘어서고 있음을 알 수 있다. 그리고 실제로 19대 대선에서 안철수 후보 (21.41%) 보다 더 많은 득표수 24.03%를 획득하였다.

Figure 4. (Color online) In the 17th-19th presidential elections, changes in the average Google Trends value, three months, two months, one month, two weeks, and one week before the election day. In the left (17th), middle (18th), and right (19th) panels, it can be seen that the winner of each presidential election had the largest average Google Trends value during the entire election period. In addition, in the 19th presidential election, Jun-pyo Hong had an average Google trend value slightly less than Cheol-soo Ahn at first, but in the final actual vote rate Hong surpassed Ahn's (21.41%) with a vote of 24.03%.

네 번째로, 양자 간의 대결에서, 두 후보 간의 평균 구글 트렌드 차이Δg와 실제 최종 득표율 차이Δy와의 상관관계를 조사하였다. 이를 위해 선형회귀를 사용하였고, 이 상관관계를 Fig. 5에 선거일 전, 3개월(파란색), 2개월(노란색), 1개월(녹색), 2주(주황색) 그리고 1주일(보라색)에 따라 표시하였다. 흥미롭게도, 세 번의 대선결과들은 주어진 각 기간동안 선형의 상관관계를 보여주었다. 이는 실제로 평균 구글 트렌드 차이Δg가 실제 득표율 차이Δy를 반영할 수 있다는 사실을 입증하며, 선거일에 다가갈수록, 기울기가 줄어드는 경향이 있음을 발견하였다. 이 경향은 각 대선에서, 당선자들이 선거일 전후에 다른 후보들에 비해 더 큰 구글 트렌드 값(즉 유권자들의 더 많은 관심)과 변화(기울기)를 얻기 때문에 후보 간의 구글 트렌드 차이Δg가 늘어남으로 이해할 수 있다. 또한 직선의 기울기가 양수이기 때문에, 구글 트렌드의 증감이 실제 득표율 증감을 나타낸다는 사실, 즉 사람들의 관심(또는 검색율)이 실제 득표율 획득에 유리했음을 의미한다 하겠다. 한편 Fig. 5에서 음수의 기울기가 존재 할 수 있으며, 이는 구글 트렌드가 반드시 샤이 지지자를 의미하지 않는 경우라고 할 수 있다.

Figure 5. (Color online) In each of the three presidential elections (17th-19th) the average Google trend difference Δg versus their actual vote rate difference (Δy), depending on the three months (blue) before the election day, two months (yellow), one month (green), two weeks (orange), and one week (purple). The linear regression is used to indicate the obtained straight lines according to the given period.

2. 20대 대통령 선거결과 예측

선거일(2022년 3월 9일) 하루 전(D-1)까지 얻어진 구글 트렌드 데이터를 바탕으로, 평균 구글 트렌드를 3개월, 2개월, 1개월, 2주 그리고 1주일 전에 대해서, Fig. 6에 나타내었다. 이를 보면 이재명 후보가 다른 후보들에 비해 선거기간 내내 더 많은 관심을 받고 있었으며, 평균 구글 트렌드가 윤석열 후보에 뒤쳐진 적이 없음을 보여준다. 이는 선거 일주일 전, 여론조사 공표금지 전에 이루어진 마지막 여론조사들을 고려해 볼 때 매우 흥미로운 결과이다. 왜냐하면 현재 몇몇 여론조사에서는 많게는 10%, 적게는 1∼2 % 정도로 윤석열 후보의 당선을 강하게 지지하기 때문이다. 더불어 동적선형모형(dynamic linear model) 베이지안 통계기법을 통한 여론조사 추정 값도 윤석열 후보(43.6%)가 이재명 후보(41.2%)를 약 2.4% 앞서고 있다는 점을 분명히 한다[8]5.

Figure 6. (Color online) Average Google Trends values based on Google Trends data which obtained up to the day before election day (D-1). It shows that Jae-myung Lee received more attention than other candidates during this period. Also, considering the Google Trends results of the previous three presidential elections (17th-19th), it suggests that candidate Lee is highly likely to win the 20th presidential election. (Before the 20th presidential election day)

결론적으로 구글 트렌드는 이재명 후보의 당선을, 여론조사는 윤석열 후보의 당선을 강하게 시사한다고 결론내릴 수 있다. 하지만 한 가지 간과해서는 안되는 점이 있는데, 3월 3일 여론조사 공표금지 바로 직전에 안철수 후보와 윤석열 후보의 단일화가 이루어 졌다는 사실이다.6 단일화 이전, 안철수 후보가 강한 대선 완주 의지를 거듭 밝혀 왔기 때문에, 여론조사 기관들도 이재명, 윤석열, 두 후보간의 양자 대결보다는 안철수 후보를 포함한 다자대결을 조사해 왔다. 그러므로 많은 여론조사 결과들은 양자대결에 적용하기에는 어려움이 있고, 단일화로 인한 효과들을 선거 전 공표 금지 기간 내에 추론하기가 쉽지 않다. 반면, 구글 트렌드의 경우 선거 바로 전날(D-1) 및 선거 당일에도 데이터를 이용할 수 있고, 대선과 관련된 대중의 흐름을 따라가 볼 수 있다는 점에서 큰 이점이 있다.

2022년 3월 9일 치러진 대통령 선거에서, 윤석열 후보가 48.56%를, 이재명 후보가 47.83%를 획득함으로써, 윤석열 후보가 신승하였다. 흥미롭게도 7-8일, 양일간 실시된 여론조사에서 한국갤럽 “윤석열 46%·이재명 40% (6% 차이)”, 리서치뷰 “윤석열 52.1%·이재명 44.5% (7.6% 차이)”, 리얼미터는 “윤석열 50.2%·이재명 47.1% (3.1% 차이)”의 득표율을 예상하였다. 하지만 3 8 % 득표율 차이를 기대한 것과 다르게, 실제 두 후보 간 차이는 0.73%의 초박빙이었다7.

결과적으로 앞선 세 번의 대선(17-19대 대선)과 다르게 이번 대선에서는 구글 트렌드의 예측이 맞지 않았다. Figure 7을 보면, Fig. 6에서 나타나는 이재명 후보의 구글 트렌드상 우세가 선거당일까지도 지속되었음을 알 수 있다. 따라서 한국 대선의 경우, 구글 트렌드만으로 선거 당선자를 예측하는 것은 무리가 있어 보인다. 한 가지 짚고 넘어갈 점은, 이전 세 번의 대선에서는 당선자가 선거 전후에 구글 트렌드를 지배하는 경향이 있었지만, 이번에는 그런 일이 일어나지 않았다. 그럼 왜 구글 트렌드의 예측이 실패한걸까? 우리는 이에 대해 몇 가지 이유을 추론할 수 있었다. 첫 번째, 우리나라에서 구글은 (2022년 현재) 약 33% 정도의 점유율을 차지하고 있다[9]8. 반면, 전 세계적으로는 시장의 약 92%를 점유하고 있고[10], 미국의 경우에는 (2020년 9월 기준) 컴퓨터에선 82%, %% 2022 2월 기준 미국 87.61% 모바일 기기에선 무려 94%에 이른다[11]. 또한 캐나다의 경우에도 (2022년 2월 기준으로) 무려 91%에 검색 엔진 시장 점유율을 차지하고 있다[12]. 둘째로, 구글 사용자들은 상대적으로 10-20대 남성 사용자가 더 많고, 다음은 40대 이상에서, 네이버는 여성 사용자가 더 많다[13]. 이런 차이는 구글 트렌드에 특정 연령 및 성별의존성과 같은 편향을 가져오게 된다. 셋째로, 많은 사용자가 PC에서 모바일 환경으로 넘어가면서 인스타그램(Instagram)과 같은, 다양한 온라인 사진 공유 및 소셜 네트워크 서비스의 사용량이 대폭 증가하였다. 결국, 30% 가량의 작은 구글 점유율, 특정 사용자 편향, 다양한 모바일 환경 등이 구글 트렌드의 예측력을 약화 시켰을 것으로 예상할 수 있다. 넷째로 이번 대선은 다른 대선에 비해 역대급 비호감 선거로 치러졌다[14]. 이는 후보에 대한 관심 중, 후보 득표율에 도움이 되지 않거나 부정적인 관심들이 많았음을 의미하다. 이는 곧 구글 트렌드와 득표율 사이의 긍정적인 상관관계를 약화시켰을 가능성이 있다. 다섯 번째로는, 앞 선 세번의 대선에 경우에 선거일 전후로 당선자들이 여론조사 및 구글 트렌드 상에 항상 앞서있었지만, 이번 대선에서는 여론조사 상으로는 윤석열 후보가, 구글 트렌드 상으로는 이재명 후보가 앞서있는 특별한 상황을 맞이하였다. 결국 이런 점들이 전부 맞물려서 20대 대선에서는 구글 트렌드만의 당선인 예측이 실패하였다.

Figure 7. (Color online) Google Trends data for one week on election day. It can be seen that Lee is slightly ahead of the entire race, including election day (March 9). Also, recall that Lee was ahead of Yun in the average trend values in Fig. 6. (After the 20th presidential election day)

후보자가 유권자에게 투표하도록 설득해야 하는 정치 마케팅과 선거 캠페인에서, 다양한 미디어의 사용은 일반적이다. 특히 디지털 미디어의 사용과, 유권자들의 능동적인 정보 요구는 인터넷 검색엔진의 출현으로 더욱 촉진되었다. 선거 관리자 및 후보자 역시도 이런 새로운 수단을 빠르게 받아들이고 이용해야만, 미래의 선거에서 최적의 결정을 내리고 선거에 승리할 수 있음은 자명하다. 본 연구에서는 이런 새로운 방법 중, 검색 매트릭을 제공하는 구글 트렌드를 바탕으로 이전 한국의 대통령 선거를 분석하였으며, 실제로 구글 트렌드가 이전 선거의 당선자들을 정확하게 예측할 수 있었음을 언급하였다. 더불어 이 예측의 밑바탕에는 구글 트렌드와 실제 득표율 사이에 유의미한 상관관계가 존재함을 입증하였다. 이를 통해 2022년 치러지는 20대 대선에서 많은 여론조사 결과와 다르게 이재명 후보의 대선 승리를 예측할 수 있었다. 하지만 실제 20대 선거에서는 윤석열 후보가 이재명 후보를 누르고 당선되었고, 구글 트렌드의 선거 예측이 맞지 않는 첫 번째 사례가 되었다. 이에 다음의 다섯 가지 이유을 추론하였다: 1) 약 30% 적은 구글 검색 점유율, 2) 편향된 구글 사용자 비율, 3) 모바일 환경으로의 변화 및 다양한 소셜네트워크 서비스의 증가, 4) 역대급 비호감 선거로 인한 상관관계의 약화, 5) 선거 전 여론조사와 구글 트렌드 사이의 불일치

마지막으로, 20대 대선의 흐름과 결과를 되짚어 보면, 여론조사 상에서 앞서 있던 윤석열 후보를, 구글 트렌드 상 앞서있던 이재명 후보가 쫓아가는 꼴이 되었다. 이는 흥미롭게도 여론조사가 잡지 못하는 “샤이 후보” 및 숨겨진 요소를 구글 트렌드가 잘 반영할 수 있음을 암시하며, 실제로 20대 대선에서 윤석열 후보와 이재명 후보의 득표율 차이는 0.73%에 지나지 않았다. 그러므로 여론조사를 바탕으로한 구글 트렌드의 보정이 이루어지면 가장 정확한 선거 예측이 가능 할 것으로 기대할 수 있다[15].9 본 연구에서는 빅 데이터인 구글 트렌드의 분석에 중점을 두었지만, 베이지안 통계 및 기계 학습을 사용하여, 여론조사 및 구글 트렌드의 분석 작업이 더 필요한 것으로 보인다.

1. 주요 후보 사퇴 및 후보간 단일화에 의한 구글트렌드 분석

여기서는 주요 후보의 사퇴 및 후보간 단일화가 일어나는 경우, 구글 트렌드 상의 변화를 간략히 분석하고 논의하고자 한다. 이를 위해 우선 18대 대선에서 안철수 후보의 중도 사퇴 경우를 고려하였다. 그 당시 안철수 후보와 문재인 후보 간의 공식적인 단일화는 결렬되었으나, 2012년 11월 23일 안철수 후보가 정권교체를 위해 백의종군하겠다며 중도 사퇴하였다. Figure 8의 왼쪽 패널은 안철수 후보의 사퇴 전 1주일부터 선거날 하루 전까지의, 주요 세 후보들(문재인(파란색), 박근혜(빨간색) 그리고 안철수(녹색))의 구글 트렌드 변화를 보여주고 있다. 확실한 것은 11월 23일 안철수 후보 사퇴일에 구글 트렌드 값의 변화 및 크기가 세 후보 중 가장 눈에 띄게 변화했다는 것이다. 안철수 후보 사퇴일 이후 후보의 구글 트렌드가 잠깐 커지는 경향을 보였으나 선거일로 다가갈수록 안철수 후보의 구글 트렌드 값이 지속적으로 감소하고 있음을 볼 수 있다. 흥미롭게도 문재인 후보와 박근혜 후보 간의 구글 트렌드 차이가 15일 이후 평균적으로 많이 줄어들고 있고, 선거 하루 전인 18일에는 거의 같은 값을 갖게 되었다. 물론 구글 트렌드 상의 이런 변화가 안철수 후보 지지자들이 문재인 후보 지지로 넘어갔다고 단정짓기에는 무리가 있으나, 이 시점에서 안철수 후보의 구글 트렌드 값이 가장 낮아졌음에는 주목할 필요가 있다.

Figure 8. (Color online) Google Trends during the period of resignation of major candidate(left panel) and unification of candidates(right panel). The left panel shows the case in which Ahn resigned midway in the 18th presidential election, and the right panel shows the case where Ahn unified with Yoon in the 20th presidential election. Note that in both cases, Ahn's change in Google trend value increased sharply on the day of resignation and unification, and that he had the biggest Google trend value.

20대 대선의 경우에는 안철수 후보와 윤석열 후보 간의 공식적인 단일화가 이루어졌고, 앞에서와 마찬가지로, 단일화 1주일 전(2월 24일)부터 선거 하루 전(3월 8일)까지의 구글 트렌드 값의 변화를 Fig. 8의 오른쪽 패널에 나타내었다. 앞선 분석을 고려해 볼 때, 3월 3일 단일화 발표 시기에 안철수 후보의 구글 트렌드 값의 변화 및 크기가 가장 클 것으로 예상되었고, 실제로 그러하였다. 하지만 18대 대선과 다르게 몇 가지 특이한 점을 발견하였다. 첫째로 18대 대선에서는 안철수 후보의 사퇴가, 다른 두 후보들의 구글 트렌드 값( 20)에 비해 엄청난 관심( 100)을 받았음에 비해, 이번 20대 대선의 경우에는 그러지 않았다. 이 시기에 안철수 후보의 구글 트렌드 값(88)은 두 후보의 값( 70)에 비해 그다지 크게 차이가 나지 않았다. 둘째로 단일화 당일을 제외하고는 윤석열 후보와 이재명 후보 간의 차이가 줄어들지 않았다. 이는 단일화 사건이 많은 유권자들에게 큰 영향을 주지 않았고, 윤석열 후보에게 큰 도움이 되지 않았음을 예상하게 한다. 실제로 마지막 여론조사 상에서 3% 8% 윤석열 후보가 앞서 있었지만, 단일화 이후 선거결과는 0.73%의 박빙이었다. 세 번째로는 단일화 이후 선거일까지의 기간이 너무 짧아서인지, 안철수 후보의 구글 트렌드 값의 요동이 보이지 않았다. 18대 대선의 경우에는 단일화 이후에 약 1달 정도의 기간이 있어서, 안철수 후보의 구글 트렌드 상의 요동이 있었다. 이는 단일화 이후에도 안철수 후보 지지자들의 관심이 여전히 존재했음을 의미한다. 결론적으로, 20대 대선의 단일화는 이전에 비해 큰 관심을 얻지 못했고, (이전 지지후보를 변경하는) 단일화 효과가 일어나기에는 기간이 너무 짧았다고 여겨진다.

2. 여론조사와 구글 트렌드의 상관관계

이 절에서는 여론조사와 구글 트렌드간의 상관관계를 간략히 논의하고자 한다. 이를 위해 2021년 4월 25일 이후, 여론조사 공표 금지기간 전(3월 2일)까지 조사된 696개의 여론조사 데이터[16,17]를 사용하였다. 구글 트렌드 데이터의 경우, 2021년 4월 25일부터 2022년 3월 5일까지 데이터를 6일 간격으로 제공했기 때문에, 여론조사 데이터도 같은 방식으로, 동일한 기간 동안 해당하는 값들을 전부 더 하여 평균하였다. 사실 이런 평균화 작업은 보통 여론조사기관들의 정치적 좌/우 편향을 상쇄시킬 수 있기 때문에, 유권자들의 뜻을 정확히 반영할 수 있는 이점이 있다. 더불어 상관관계 조사를 위해 두 가지 새로운 변수가 도입되었다. ΔSSi+1Si로, Sii번째 기간 동안의 각 후보들의 여론조사 값으로 정의하였다. 즉 ΔS는 이전 기간을 기준으로, 증가되거나 감소된 여론조사 값의 변화를 반영한다. 이와 유사하게, 이전 기간을 기준으로 구글 트렌드 값의 증감을 나타내기 위해, Δg¯ g ¯ i+1 g ¯ i를 정의하였다.

Figure 9는 이 두 변수 (Δg¯, ΔS)의 산점도(scatter plot)와 선형모델(linear model, 파란색 직선)을 보여준다. 이재명 후보의 경우를 왼쪽 패널에, 윤석열 후보의 경우를 오른쪽 패널에 나타내었고, 선형 모델은 이 흩어진 점들을 이용한 선형 회귀(linear regression)를 통해 결정되었다. 얻어진 선형 모델 결과는 이재명 후보(윤석열 후보)의 경우 ΔS=+0.051Δg0.116 (ΔS=+0.034Δg0.176)이었다. 두 경우 다, 양의 상관관계를 보여주었고, 이재명 후보의 경우가 약간 더 컸다. 하지만 주의할해야 할 점이 있는데, 구글 트렌드의 경우 선거일에 다가갈수록 각 후보들의 관심도가 증가함으로, 조사된 마지막 날의 구글 트렌드 값이 가장 크다 (이때의 값을 최대 100으로 잡는다). 따라서 구글 트렌드의 값의 변화량이 선거일에 다가갈수록 커지고, 이 근방의 데이터 값들이 상관관계에 더 큰 영향을 미치게 된다. 특히 흥미롭게도 윤석열 후보의 경우에 Δg가 작은 영역(선거일에서 멀어지는 경우)에서는 음의 상관관계를 보여주었고, 이재명의 후보의 경우에는 조사기간 내내 안정적인 양의 상관관계를 보여주었다. 이는 윤석열 후보의 주된 지지층이 고령에 속하므로 여론조사 초기 구글 트렌드에는 잘 반영되지 않은 반면, 이재명 후보 지지층들은 인터넷 환경에 자주 노출되는 젊은 층이 좀 더 비중을 차지했기 때문이라고 추론해 볼 수 있다. 특히 선거일에 다가갈수록, 두 후보 모두 산점도에서 강한 양의 상관관계를 보여주었다. 이는 선거일에 임박할수록 여론조사상의 늘어나거나 줄어드는 수치들이 유의미하게 구글 트렌드에 반영될 수 있음을 보여준다.

Figure 9. (Color online) Scatter plots via the percentage change in opinion polls versus the change in Google Trends in the 20th presidential election. The left (right) panel shows the scatter plot and linear model (blue, straight line) of Lee (Yun). Each linear model is determined through linear regression using the points of each scatter plot. Interestingly, a positive correlation is found for both candidates (see text for a more detailed explanation).

3. 네이버 트렌드와 카카오 트렌드

구글 트렌드와 유사한 검색 매트릭으로 한국에는 네이버 트렌드와 카카오 트렌드가 있다. 한국에서 네이버는 현재 검색엔진 점유율의 57% 이상을 차지하는 반면, 구글은 약 33% 근방이다[9]. 하지만 구글 트렌드와 다르게 네이버와 카카오의 트렌드는 대통령선거 예측에 좋은 도구가 되지 못함을 발견하였다. 이는 여러가지 이유가 있겠지만, 네이버의 주 사용자층이 40대 이상이고 주로 보수적인 유권자들의 사용량이 많기 때문이라고 추측된다[5,6]. 실제로 2022년 대선 전 네이버 트렌드를 보면, 윤석열 후보가 이재명 후보를 약간 상회하는 트렌드 양을 보여주고 있다. 카카오 트렌드는 네이버에 비해 매우 작은 트레픽 수를 포함하고 있지만, 흥미롭게도 네이버 트렌드와 비슷한 경향이 있음을 발견할 수 있었다. 이는 두 트렌드를 사용하는 이용자들의 공통점이 많거나, 트렌드를 처리하는 방법의 유사점에서 기인하지 않나 추측된다. 이의 자세한 분석은 이 논문의 취지를 벗어나 있기 때문에, 이 논문에서 더 이상 자세히 고려하지는 않았다.

4. 인공지능을 이용한 결과의 개선

이 논문에서는 구글 트렌드를 이용하여, 구글 트렌드 평균값의 차이Δg와 실제 최종 득표율 차이Δy간의 상관관계를 조사하였고, 유의미한 관계를 발견하였다. 하지만 구글 트렌드 값의 모양 및 변화를 직접적으로 고려하지는 않았다. 앞에서 간단히 언급하였지만 구글 트렌드 값의 모양 및 변화는 짧은 기간 동안의 일어나는 정치적 이벤트(예로 단일화 및 선거자체)에 매우 민감하게 반응한다는 사실을 알 수 있다. 따라서 인공지능에 다양한 정치적 이벤트들을 포함한 지난 대선 데이터를 이용함으로써, 결과 및 예측을 개선할 수 있을 것이라 기대한다. 더불어 여론조사와 구글 트렌드 사이의 연관관계에도 인공지능을 사용한 연구가 큰 도움을 줄 것으로 예상할 수 있다. 예로, 여론조사에 잡히지 않는 ‘샤이 후보’ 유권자들의 존재를 구글 트렌드를 통해 정량적으로 잡아내거나, 단일화와 같은 매우 민감한 정치적 이벤트의 영향을 미리 예측하는 등, 흥미롭고 중요한 일들이 가능하게 될 것이다. 결론적으로 미래선거에서는 검색량을 기반으로 한 검색 매트릭(metric)의 사용과 인공지능의 응용이 중요한 방법 중 하나로 자리잡을 가능성이 매우 크다.

본 연구는 한국연구재단 (2018R1D1A1B07051126)의 지원을 받아 수행되었습니다.

12016년 58대 미국 대통령 선거에서 도널드 트럼프 (Donald Trump)는 힐러리 클린턴 (Hilary Clinton)을 승자로 예측한 수많은 여론 조사에도 불구하고 힐러리 클린턴을 누르고 대통령 선거에 승리하였다.

2‘샤이(shy) 후보이름’은 전통적인 (더불어민주당 및 국민의힘) 지역에서 다른 당 후보를 지지함을 쉽게 밝히기 어려운 유권자를 의미한다.

3네이버 트렌드[5]는 네이버 데이터랩에서, 카카오 트렌드[6]는 kakao datatrend에서 제공하는 트렌드 서비스를 의미한다.

4미국 2004-2016년 사이에 치루어진 4번의 미국 대선 및 2004-2019년 사이 5번의 연방 선거(federal election)에서도 역시 같은 결과를 볼 수 있다[7]. 2020년 미국 대선의 경우엔 트럼프가 바이든을 구글 트렌드상에서 줄곧 앞서 있었지만, 선거 당일 근처에서 바이든이 트럼프의 구글 검색량을 넘어섰음을 알 수 있다.

5앞서 언급한대로 여론조사에 잘 잡히지 않는 ‘샤이 이재명’(Fig. 3 참조)의 존재가 박빙의 대선 판세에 매우 중요하고 결정적인 영향을 미칠 수 있음에 주목하라.

62012년 18대 대선에서도 20대 대선과 유사한 사례가 있었다. 선거기간 동안 이런 중요한 정치적 이벤트들이 구글 트렌드에 어떤 영향을 끼치는지 조사하고, 이를 통해 실제 선거 결과에 얼마나 영향을 미치었는지 분석하는 것은 흥미로운 연구주제이다. 본문 “V.결론 및 논의”의 “1. 주요 후보 사퇴 및 후보간 단일화에 의한 구글 트렌드 분석”을 참조하라.

7방송 3사(KBS, MBC, SBS) 출구조사에 따르면 이재명 후보는 47.8%, 윤석열 후보는 48.4%의 득표율을, 반면 JTBC 출구조사에 의하면 이재명 후보는 48.4%, 윤석열 후보는 47.7%의 득표율을 얻을것으로 예측되었다. 두 출구조사는 이 승부가 1%안에서의 초박빙임을 나타내고 있다.

8검색엔진 유입 점유율은 현재 2022년 1월1일부터 3월 6일까지, 네이버(NAVER)는 약 57%, 구글은 약 33%, 다음(DAUM)은 약 6%의 점유율을 가지고 있다.

9본문에서 언급한 구글 트렌드 편향과 관련해서 세대별, 연령별, 지역별로 후보자 지지 비율을 빅데이터를 바탕으로 보정 할 수 있다.

  1. S. Yun, Korean Political Sci. Rev. 37, 71 (2003).
  2. S. J. Westwood, IFIP International Federation for Information Processing 2010, IFIP AICT 328, 150 (2010).
    CrossRef
  3. C. Ma-Kellams, B. Bishop, M. F. Zhang and B. Villagrana, Psychol. Rep. 121, 726 (2018).
    Pubmed CrossRef
  4. Kakao Data Trend, https://datatrend.kakao.com.
  5. NAVER DataLab.homepage, https://datalab.naver.com.
  6. C. Prado-Román, R. Gómez-Martínez and C. Orden-Cruz, Am. Behav. Sci. 65, 666 (2021).
    CrossRef
  7. MBC-survey-M (Poll mbc), http://poll-mbc.co.kr/.
  8. Opensurvey, Social media and Poral site, homepage, https://blog.opensurvey.co.kr/trendreport/socialmedia-2022/.
  9. Research in progress.
  10. National Election Commission, https://www.nesdc.go.kr/portal/main.do.
  11. Namu.wiki, "After the 20th Presidential Election/Public Poll/Candidate Confirmation", https://namu.wiki/w/제20대 대통령 선거/여론조사/후보 확정 후.

Stats or Metrics

Share this article on :

Related articles in NPSM