Výsledek voleb oznámili za pár minut. „Věděli jsme, že je náš model přesný“

Článek

Řekni upřímně, byla jsi nervózní, jestli se vaše predikce, vyhlášená v okamžiku, kdy bylo sečtených pouhých 0,6 % hlasů, opravdu potvrdí, jestli jste někde neudělali chybu?

Upřímně - nebyla. Věděli jsme s Michalem Škopem, že model, na němž predikce stojí, je opravdu přesný. A vyzkoušeli jsme ho hodně poctivě: Nasimulovali jsme průběhy předchozích voleb z otevřených dat ČSÚ a predikce vycházela naprosto přesně - jak pro prezidentské volby 2018, tak pro sněmovní 2021. Pro zajímavost, kdybychom ji v této podobě nasadili v prezidentské volbě 2018, přesný výsledek duelu Zeman–Drahoš bychom také věděli během pár minut. Výsledek tehdejších kandidátů byl velmi těsný a lišil se jen o necelé tři procentní body, takže by predikce byla jen o pár minut napínavější než letos.

Druhé kolo 2023 bylo relativně snadné, volební zisky se ve finále lišily o 16 procentních bodů a vítěze šlo určit v podstatě od začátku sčítání. Jediné, na čem to mohlo ztroskotat, bylo online načítání dat ze statistického úřadu. Ale i to jsme měli zajištěné ze dvou zdrojů, kdyby jeden vypadl.

Predikce výsledků druhého kola nebyla vaše první. Které byly ty předešlé?

Výpočet předpovědi jsme měli nejpřesnější a nejrychlejší už v prvním kole prezidentské volby. Poprvé jsme ji nasadili při komunálních volbách 2022 - pro patnáct největších českých měst. Model zafungoval naprosto výborně, znali jsme složení městských zastupitelstev o mnoho hodin dřív, než byly sečteny oficiální výsledky. Věděli jsme například o tři hodiny dřív, než to bylo jasné ze sčítání hlasů, že na pražském magistrátu zasednou také tři zastupitelé za uskupení SPD, Trikolora a PES.

V Praze zbývá rozdělit 5 ze 65 křesel na magistrátu.
SPOLU jich mají jistých 18
ANO 14
Piráti 13
PRAHA SOBĚ 10
STAN 5

Co není moc vidět, ale může se ještě projevit: v závěru vykukuje SPD+Trikolora. Není vyloučeno, že z těch 5 zatím nepřidělených křesel připadnou 3 právě jim.
— 🔎 Katerina Mahdalova (@data_zurnalist) September 24, 2022

Stačí tedy tak malý vzorek ke spočítání spolehlivé predikce i ve volbách, kterých se účastní více než dva subjekty, nebo u nich je potřeba přece jen počkat na větší počet sečtených hlasů? Tedy například parlamentní volby?

Záleží, na co se ptáme. Dá se to ukázat na příkladu minulých voleb, kdy jedna z otázek zněla, jestli koalice Spolu a Piráti plus STAN dají dohromady „stojedničku“ ve Sněmovně. Když jsme model testovali, použili jsme k tomu právě i open data ze sněmovních voleb a změřili, v kolik hodin bychom věděli, kdo bude mít šanci sestavit vládní koalici.

Zhruba půl hodiny po uzavření volebních místností jsme z predikce věděli, že se Piráti oproti průzkumům výrazně propadnou a že voliči naopak výrazně podpořili koalici Spolu. Kolem 15. hodiny (1,25 % sečtených hlasů) jsme věděli, že se do Sněmovny nedostanou komunisté. V 15:30 hodin (sečteno necelých 15 % hlasů) už model spočítal, že se do Sněmovny nedostanou Přísaha a v 15:50 ani ČSSD a že logicky obě koalice budou mít pohodlně přes sto hlasů. O chvíli později predikce zpřesnila, že budou mít kolem výsledných 108 křesel.

Můžeš se pokusit vysvětlit i nám laikům, jak je možné z tak malého počtu hlasů spočítat s konečnou jistotou výsledek? Co všechno k tomu musíte vědět?

Je nutné znát chování voličů v předešlých volbách, ovšem až na úroveň čtrnácti tisíc okrsků. Predikčních modelů je víc, některé pracují s každým jednotlivým okrskem, některé zase okrsky slučují do takzvaných clusterů. Predikce je vypočtena jako vážený průměr již sečtených hlasů a váhy jsou zvoleny tak, aby vyrovnávaly výsledky i za doposud nesečtené okrsky. Jinými slovy výsledky v okrscích, které ještě nejsou sečteny, se modelují podle těch, které už sečteny jsou, a přihlíží se mimo jiné k tomu, jak spolu výsledky v jednotlivých okrscích a obcích korelovaly v předešlých volbách.

Českou republiku čekají další volby nejspíš až za rok a půl. Budete během té doby na vašem systému pracovat, nebo už predikce nelze více zpřesnit nebo zrychlit?

Samozřejmě se učíme pořád, zlepšují se technologie, zrychluje se spojení. Co se týče modelu samotného, ten v principu vychází z výsledků prvních sečtených okrsků. Když jich je velmi málo, musíme počkat na další várku dat, kterou uvolní statistický úřad. V jednom případě se stalo, že první dávka dat obsahovala pouze dva sečtené okrsky, a z toho kvalitní predikci nejde vytvořit. To je ale věc náhody, jak zrovna postupuje sčítání a kolik okrsků se vejde do prvních várek dat.

Po uzavření volebních místností členové a členky volebních komisí otevírají urny s hlasy a začínají sčítat. U prezidentské volby je to relativně snadné: Celá republika je jeden volební obvod, v prvním kole bylo osm kandidátů a ve druhém už logicky pouze dva. Hlasy jsou pak - zvláště v menších okrscích - sečteny rychle. U sněmovních nebo komunálních voleb je to složitější a náročnější na čas. Jenom v posledních komunálních volbách kandidovaly stovky politických subjektů.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Volby

„Nemyslím, že někdy napíšu další.“ Knihou roku je překvapivý debut Machoninové

Senátorka a ministrovi náměstci zasahovali podle soudu do živé kauzy

„Vzali mě jako kluka do počtu,“ vzpomíná pěvec Plachetka

Warhorse představilo pokračování Kingdom Come. Naučí hráče na nové hry?

Bonusy z říše snů. Miliardy pro Muska i vánoční dárky

Jak zajistit pacientům nejnovější léčbu? Ministerstvo chce rychlost s pojistkou

Výsledek voleb oznámili za pár minut. „Věděli jsme, že je náš model přesný“

Článek

Postranní panel

Doporučované

Hlavní zprávy

Pavel představí svůj odborný tým za týden

Porota pro proces s Trumpem je kompletní. Chybí jen náhradníci

Spojené státy nepodpoří palestinskou žádost o plné členství v OSN

Zápas Fiorentina–Plzeň 2:0, plzeňští fotbalisté podlehli v prodloužení

V Keni zahynulo při pádu vojenského vrtulníku deset lidí

Zřítila se hlavní fasáda historické budovy kodaňské burzy

Glosa: Sebrat církvím, přidat kuchařkám. ANO znovu vytahuje téma restitucí

Semjon Byčkov v roce 2028 skončí na postu šéfdirigenta České filharmonie

Postranní panel