05 декабря 2011

Альтернативные выборы - опросы в интернете

Смотрю, сейчас многие активно репостят ссылки на голосование типа "за кого ты проголосовал на выборах". Видимо, с благими намерениями в попытках выяснить "честный" результат выборов. Если посмотреть на результат голосования, видно, что Единая Россия отстаёт с большим отрывом. Не скрою, смотреть на такой результат приятно. Но нужно помнить, что результаты такого опроса говорят только о том, как проголосовали те люди, которые участвовали в опросе. И ни о чём больше. Если пытаться экстраполировать этот результат, заявив, что таков был бы честный исход выборов в целом, то вы совершите весьма распространённую ошибку в статистических исследованиях: нерепрезентативность выборки.

Это примерно как "по опросам, проведённым в интернете, 100% россиян пользуются интернетом".

Если отбросить в сторону шутки, и обратиться к историческим фактам, то вот вам классический пример подобной ошибки (который приводят практически каждому студенту при изучении мат.статистики на лекциях и в учебниках).


В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936г. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, людям, выбранным по телефонным книгам всей страны, и людям из регистрационных списков автомобилей. В 25% вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом: 57% отдавали предпочтение кандидату-республиканцу Альфу Лэндону, 40% выбрали действующего в то время президента-демократа Франклина Рузвельта.

На действительных же выборах, как известно, победил Рузвельт, набрав более 60% голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счет людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали еще больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и верхнего класса (то есть большинство республиканцев, а не демократов).


Ну теперь можете подумать догадаться, что выборка голосующих стостоит из:
1) пользователей интернета, т.е. людей в, основном городских, более того, скорее, из мегаполисов или крупных городов. В ней нет "бабушек" и "колхозников" и т.п., которые на выборы ходят довольно массово.
2) пользователей ВКонтакте (или других соц.сетей и т.п.) - т.е. принадлежат к некоему достаточно связному графу, что является весьма сильным условием, т.к. есть нечто, что голосующих связывает.
3) преимущественно неравнодушных к выборам и их результатам

Думаю, дальнейшие объяснения по поводу несостоятельности экстраполяции излишни?

А вот как можно правильно определить честный результат методами математической статистики.

UPD.: А вот и "скорректированные" результаты от автора предыдущей статьи!

Комментариев нет: