10일, 정훈 와세다대학교 정치경제학부 준교수는 자신의 페이스북에 '2020년 한국의 의회선거에서 나타난 통계적 이상수치와 선거부정(Anaomalies and Frauds in the Korea 2020 Parliamentary Election)'이라는 제목의 Walter Mebane(월터 미베인) 교수의 '업데이트'된 결과보고서를 공개했다. 월터 미베인 교수는 볼리비아, 이란 등 8개국에서 일어난 부정선거를 밝히는데 기여한 부정선거 통계분석의 최고 권위자로 평가받는 인물이다.
앞서 YTN은 '팩트체크'라는 명목으로 미베인 교수와 인터뷰를 진행했지만, 수개표의 필요성에 대해 강조한 대목보다 '월터 미베인 "투표 조작으로 단정할 수 없다"', '"사기(Fraud)는 통계학적 용어"…확대 해석 경계'라는 소제목을 달며 자신들이 오히려 확대해석해서 보도했다.
이같이 자신의 보고서가 오용되자 미베인 교수는 제목 자체를 '2020년 한국의 의회선거에서 나타난 통계적 이상수치와 선거부정'이라고 붙였다.
또한 "이포렌직과 EFT 그리고 스파익스 테스트 등 모든 내용을 종합한 결과, 2020년 대한민국의 국회의원 선거 데이타는 부정한 방법으로 조작됐다는 사실을 매우 강력하게 시사하고 있다."("Taken together the eforensics estimates and EFT and spikes tests exhibit anomalies that strongly suggest the Korea 2020 legislative election data were fraudulently manipulated.")고 강조했다. 이는 앞서 발표했던 보고서에는 없던 내용이다.
정 준교수는 이날 이같은 내용의 보고서를 공개하면서 "이번에 새로 업데이트된 보고서에서는 그동안 서울대 박원호 교수님과 카이스트의 이병태 교수님 등이 지속적으로 지적해주신 '잘못된 데이터를 사용한 문제(이른바 "garbage in, garbage out" 문제)'를 해결하기 위해, Mebane 교수님이 보다 완전한 데이터(updated complete data, p.1)를 사용하였다"면서 "통계분석결과의 타당성 강화를 위해 여러가지 추가적인 통계적 테스트도 수행하였다"고 했다.
이어 "결론은 기존에 제기되었던 이번 21대 총선에서의 선거부정 의혹은 재확인되었고 (오히려) 강화되었다는 것("The suspicious picture is reinforced.")"이라고 덧붙였다.
재밌는 사실은 정치적 성향이 정반대인 YTN과 이병태 교수, 박원호 교수의 의견은 결론적인면에서 일치한다. 이들이 미베인 교수의 보고서를 확대해석하지 말라는 취지의 의견을 내자 오히려 미베인 교수는 이를 정면 반박하는 내용이 담긴 보고서를 공개한 것이다.
다시한번 정리하자면 해당 보고서에서 미베인 교수는 "선거부정 의혹은 재확인되었고, 오히려 강화되었다"면서 "2020년 의회선거에서는 선거 데이터가 조작되었을 것이라는 의혹이 ‘강하게 (strongly suggest)’ 제기된다"고 밝혔다.
그러면서 "(결정적 증거를 위해서) 통계적 분석 이후에는 반드시 추가적인 정보수집과 조사가 이루어져야 할 것"이라고 '수개표의 필요성'을 설명했다. 아래는 정 준교수가 정리한 업데이트된 미베인 교수의 보고서이다. 원문 주소도 아래 함께 공개됐다.
---------------------------------------------------------------------
0.도입부
이번 페이퍼에서는 보다 완전한 데이터를 사용하였고, 여러가지 추가적인 통계적 테스트를 수행하여, 기존에 공개한 페이퍼를 개선한 것이다.
그 결과 통계모형의 추산치와 테스트의 결과 모두 이번 21대 총선 데이터가 조작되었다(fraudulently manipulated)는 의혹을 준다.
1. '선거부정 탐지 통계모형(eforensics)'에 의한 분석
본 페이퍼에서 사용된 “선거부정 탐지 통계모형” (https://github.com/UMeforensics/eforensics_public)은 이번에 실시된 한국의 21대 총선에서 선거의 결과를 바꿀 수 있었던 “부정투표(fraudulent votes)”가 존재했을 수 있다는 의혹/증거(evidence)를 제공한다.
통계프로그램에서 정의하는 “선거부정” 혹은 “부정투표”는 다음과 같다. (1) 제조된 표(manufactured votes): 기권/무효표를 가지고 특정 후보자의 표를 새롭게 만들어 주는 행위, (2) 훔친 표 (stolen votes): 다른 후보자의 표를 빼앗아서 그것을 당선자에게 주는 행위.
중요한 점은 통계모형에서 추정하고 있는 이러한 “선거부정”이 반드시 현실세계에서 일어난 부정 혹은 불법행위의 결과로 나오게 된 것이 아닐 수도 있다는 것이다. 통계모형의 결과는 그 자체로 선거부정이 발생했다는 것에 대한 ‘확증적 증거 (definitive evidence)’가 될 수 없으며, 정말로 한국의 21대 총선에서 불법적인 선거부정이 발생했는지는 추가적인 조사를 통해서 밝혀져야 할 것이다.
Figure 4 (민주당 후보가 승리한 지역구)와 Figure 5 (당 무관하게 당선자가 승리한 지역구)는 (a) 당일투표(지역구), (b) 당일투표(투표소), (c) 재외투표, (d) 사전투표와 같은 4개의 투표방식에서 부정투표가 나타난 비율을 산점도로 나타낸 것이다. ‘파란 점’은 ‘정상투표’를 나타내고, ‘빨간 점’은 ‘부정투표’를 나타낸다.
민주당 후보자가 승리한 지역구에서 부정투표가 발견된 비율은 다음 순서로 높았다: 사전투표 (43.1%), 당일투표(지역구) (3.14%), 당일투표(투표소) (0.925%), 재외투표에서는 부정투표가 발견되지 않았다. (Figure 4 참조)
정당과 무관한 지역구의 당선자에게 초점을 맞추게 될 경우, 부정투표가 발견된 투표소의 비율은 다음 순서로 높았다: 사전투표 (22.6%), 당일투표(지역구) (2.09%), 당일투표(투표소) (0.92%), 재외투표에서는 부정투표가 발견되지 않았다. (Figure 5 참조)
http://www-personal.umich.edu/~wmebane/efslides.pdf
에서 설명한 '반사실적 추론(counter factual) 방법'으로 (95%와 99% 신뢰도구간으로) 계산된 부정 투표수는, 민주당이 승리한 지역구의 경우, 전체투표수의 9.6% (1,030,562개의 표)가 부정투표에 의한 것으로 나타났으며, 정당과 무관한 지역구 당선자 지역에서는, 전체투표수의 8.7% (1,105,458개의 표)가 부정투표에 의한 것으로 나타났다.
아울러, 총 253개의 지역구 중, 무려 27개의 지역구에서 부정투표에 의해 당선자가 뒤바뀌었다는 결과가 나타났다. 이 중에서 14개의 지역구는 민주당이 승리를 가져갔고, 11개의 지역구는 통합당이 승리를 가져갔으며, 2개의 지역구에서는 무소속 후보가 승리를 가져가게 되었다.
주의: 다시 한번 강조하지만, 통계모형에서 추정하고 있는 이러한 “선거부정” 혹은 “부정투표가”가 반드시 현실세계에서 일어난 부정 혹은 불법행위의 결과로 나타난 것은 아닐 수 있다. 사전투표와 당일투표 사이에 존재하는 현저한 투표양상의 차이는 불법적인 선거부정 때문이 아니라, (전략적 투표행위와 같은) 다른 사회적 요인으로부터 비롯되었을 가능성도 분명 있다. 따라서, 통계모형의 결과는 이번 21대 총선에서 불법적인 선거부정이 일어났다는 것에 대한 확증적인 증거가 될 수는 없다. 하지만, 이러한 통계적 결과는 21대 총선에서 실제로 불법적인 선거부정이 일어났는지에 대해 조사를 해볼 필요성을 제기한다.
2. 타당성 검토를 위한 여러 통계적인 테스트
Election Forensics Toolkit (EFT)에 포함된 여러 테스트를 통해서 통계분석 결과의 타당성을 검토해보았다. EFT 테스트 결과는 선거결과가 조작되었다는 의혹을 더욱 강화한다. (The EFT results add to the impression that the election results are manipulated. p. 14)
투표율에 대한 DipT 테스트는 다수의 최빈값이 존재하는(multimodal한) 분포를 뚜렷하게 보여주고 있다. (필자주: Mebane교수의 통계모형에서는 다수의 최빈값이 존재하는 분포를 선거부정으로 감지한다.)
P05 테스트 결과는 0.2라는 기대되는 수치에 비해 수치가 상당히 낮으며, 이러한 수치가 자연적 현상에 의해 발생했다고 생각하기는 힘들다. (“it is difficult to think of natural processes that would produce frequencies of percentages that end in 0 or 5 that are too low”, p. 14). 투표율과 투표에 있어서 통계적으로 유의미하게 나온 이상수치(anomaly)들이 상당수가 나타났다는 것은 선거데이터가 (인위적으로) 조작되었다는 것을 함축한다. (“The many significant P05s statistics suggest the data are artificial”, p.15)
2BL 테스트에서는 4.187이라는 기대수치에 비해 상당히 차이를 보인 건 사실이나, 이러한 수치는 다당제 상황에서의 전략적 투표 행위를 통해서도 발생할 수 있기 때문에, 이것 자체만으로는 선거부정이 있었다는 가설을 지지해준다고 보기는 어렵다. 하지만, Figure 6에 나온 2BL 테스트의 산점도를 보면, 유권자들의’ 전략적 투표행위 (필자주: 민주당 유권자들이 사전투표에 결집하고 통합당 후보들이 당일투표에 결집하는 행위)’에 의해 설명되기에는 그 수치가 지나치게 크거나 지나치게 작은 수치가 다수 발생했다는 것을 보여준다.
LastC 테스트의 결과 역시 상당한 수치들이 지나치게 크거나 (too-large) 지나치게 작다 (too-small)는 것을 보여준다.
Spikes 테스트의 결과(Figure 7 참조)는 P05 테스트 결과를 재확인시켜준다.
3. 결론
1절에 소개된 ‘선거부정 탐지 통계모형(eforensics)’으로부터 도출된 부정투표 추산치 결과들과, 2절에서 시행된 EFT와 spikes 과 같은 여러가지 통계적 테스트에서 나타난 통계적 이상수치(anomalies)를 종합적으로 고려할 때, 한국의 이번 2020년 의회선거에서는 선거 데이터가 사기적으로 조작되었을 것이라는 의혹이 ‘강하게(strongly suggest)’ 제기된다. (“Taken together the eforensics estimates and EFT and spikes tests exhibit anomalies that strongly suggest the Korea 2020 legislative election data were fraudulently manipulated.”, p. 18)
이와 같은 통계적 분석 이후에는 반드시 추가적인 정보수집과 조사가 이루어져야 할 것이다. 왜냐하면 통계적 분석 결과만으로는 선거에서 실제로 무슨 일이 일어났는지에 대한 ‘결정적 증거(definitive evidence)’로 작용할 수 없기 때문이다.
'정치 기사' 카테고리의 다른 글
더불어민주당 정성호... 당선 후 그가 달려간 곳은? '룸살롱' (0) | 2020.05.11 |
---|---|
[경악] 4.15 총선 개표에 중국인 참여...선관위 "한국 이름이라서 위촉" (8) | 2020.05.11 |
[충격] 수상한 이병태? 증거사진까지 '폄훼'... 이쯤되면 공범? (0) | 2020.05.09 |
[경악] "사전투표 보관함 누가 몰래 열어봤다" (0) | 2020.05.08 |
[충격] 또? '삼립빵 박스'에 사전투표 용지 보관... 이번엔 '경기 안산 단원을' (0) | 2020.05.08 |