돌아오는 6월 2일은 지방선거의 날이다. 각 후보자에 대한 여론조사 결과가 발표되고 그 정점은 투표종료 직후에 발표되는 여론조사 결과가 될 것이다. 방송 언론사에서 발표하는 후보자의 지지도가 40%이고 95%의 신뢰도에서 표본오차는 3%포인트라는 말은 무엇을 의미하는 것일까? 모든 유권자에게 후보자의 지지 여부를 알아보면 이는 정확한 지지도가 될 것이고, 헌데 이것은 선거의 결과가 아닌가? 또한 조사하다가 선거가 벌써 끝나 버릴 수도 있을 것이다. 조사비용도 엄청 들 것이다. 그래서 모든 유권자 대신에 유권자의 일부인 표본을 추출하여 조사한다. 유권자 중 일부인 표본을 조사하여 알고 있는 지지도로서 모르고 있는 전체 유권자의 지지도를 추정하기 때문에 신뢰도, 표본오차라는 개념이 필요한 것이다.

원래의 물음으로 다시 가서 이 의미는 표본들의 후보자 지지도가 40%이지만 유권자 전체의 지지도는 40%3% 즉 37%에서 43%에 있을 것이라고 95%의 확신을 가지고 말할 수 있다는 것이다. 신뢰도가 커지고 표본오차가 작아질수록 표본의 지지도(알고 있는)는 전체 유권자의 지지도(모르고 있는)에 가까울 것이라고 커진 신뢰도로 확신할 수 있을 것이다. 동일한 조건에서 신뢰도와 표본오차는 반비례한다. 신뢰도가 낮거나 표본오차가 크면 의미가 없다. 지지도가 30%에서 50%일 것이라고 99.9% 확신한다는 것도 지지도가 39%에서 41%에 있을 것이라고 40% 확신한다는 것도 의미가 없다. 보통 사용되는 95% 신뢰도에서 표본오차는 와 같이 구한다. 여기서 1.96은 신뢰도에 상응하는 계수이고, 신뢰도가 커지면 이 계수도 커질 것이라 예상할 수 있다. 은 표본수로서 표본수가 커지면 표본오차가 작아짐을 알 수 있고, 0.5는 지지도의 퍼짐의 크기인 표준편차의 최대값이다.

1000명의 표본을 추출하여 지지여부를 조사한 바 A후보는 400명이 지지하였고 B후보는 380명이 지지하였다고 하자. 이 경우 A후보가 당선된다고 말할 수 있겠는가? 표본수가 1000명이므로 95% 신뢰도에서 표본오차는 3%이다. 따라서 유권자 전체의 A후보의 지지도는 37%에서 43%, B후보의 지지도는 35%에서 41%으로 A후보와 B후보의 지지도의 차이는 오차범위 내에 있으므로 A후보가 당선된다고 말할 수 없다.

1997년 제 15대 대통령선거의 여론조사는 우리나라 여론조사의 높은 수준을 보여주었다. 투표 종료 즉시 발표한 어느 방송사에서는 김대중 후보 39.9% 이회창 후보 38.9% 득표로 김대중 후보의 대통령 당선을 예측하였고 결과는 김대중 후보 40.3% 이회창 후보 39.7% 득표로 예측과 거의 일치했다. 이 때 전 국민 20세 이상 유권자 수는 3천2백2십9만여명이었고 표본수는 2천5백명이었다. 단 0.008%의 표본만으로 거의 정확한 결과를 예측한 것이다. 그런데 이 때 95% 신뢰도에서 표본오차는 2%포인트이다. 즉 두 후보자간의 예상득표율 차는 오차범위 안에 있으므로 누가 대통령에 당선된다고 말할 수 없다. 만약 어느 방송사의 예측과는 다른 결과가 나타났다면 그 당시의 여론의 분열 상황에서 예기치 못한 사고가 발생했을지도 모른다. 정보의 신속한 제공, 여론조사의 자신감 등으로 투표종료 즉시 여론조사 결과를 발표한 방송사와, 동일한 여론조사 결과를 얻었지만 최초의 여야 정권교체라는 중대한 사안에 비추어 예상득표율 차가 오차범위 안에 있으므로 발표를 유보하고 개표가 어느 정도 진행된 후 여론조사 결과를 발표한 타 방송사들, 이 가운데 어느 방송사가 제 역할을 충실히 했다고 할 수 있을까?

저작권자 © 건대신문 무단전재 및 재배포 금지