June 3, 2014
Korelace politických stran na Facebooku s výsledky voleb do Evropského parlamentu

Když jsem počítal mapu vzájemné podobnosti českých politických stran na Facebooku před letošními volbami do Evropského parlamentu, byl jsem trochu nervózní, jak mapa dopadne. Výsledek mě překvapil. Srovnání s výsledky stejné analýzy před parlamentními volbami v roce 2013 mi prozradilo mnoho nejen o Facebooku, o názorovém spektru a politických stranách u nás, ale také možná naznačilo validitu metody i pro “offline svět”

Mapa samotná stojí na jednoduché myšlence: Stránky na Facebooku jsou si tím podobnější, čím více mají společných aktivních fanoušků při zohlednění celkového počtu fanoušků. Formalizací a aplikací, jak počítat takovou podobnost, existuje celá řada1. Já osobně jsem si oblíbil koncept Normalized Google Distance (viz třeba aplikace Mechanická popelka), který lze snadno extendovat na jiné oblasti.

V našem případě se počítá podobnost politických stran takto: Na vstupu je pro každou stranu připraven seznam uživatelů Facebooku, kteří se na stránce dané strany nějak zapojili (lajkem, komentem, vlastním příspěvkem) během určitého období. Porovnáním těchto seznamů zjistíme průniky uživatelů mezi dvojicemi stran a na základě průniků pak vypočteme vzdálenost pomoci (Normalized Facebook Distance) následujícího vzorce:

NFD = max(log(x),log(y)) - log(x,y)/ log(M) - min(log(x),log(y))

Přičemž x je počet aktivních uživatelů na jedné stránce,
y vyjadřuje počet aktivních uživatelů na stránce druhé,
x,y počet aktivních uživatelů na obou stránkách
M je celkový počet uživatelů českého Facebooku.

Výsledné vzdálenosti mezi stránkami se potom nanesou do grafu pomoci techniky tzv. vícerozměrného škálování (Multidimensional Scaling dále jen MDS). Technika MDS se snaží zobrazit údaje o vztazích aktérů na základě jejich blízkosti a vzdálenosti. Pokud tedy vložíte na vstupu skutečné vzdálenosti v kilometrech, získáte rozmístění jako na skutečné mapě. (viz příklad zde).

Mapy vytvořené pomocí MDS lze v další interpretaci nahlížet z hlediska toho, co plní jednotlivé dimenze, jinými slovy, jaké obecnější zákonitosti stojí za rozdílnou polohou aktérů na mapě.

Vraťme se nyní zpět k našim volbám.

Při podzimních volbách 2013 vyšla ze sledovaného období čtyř týdnů (12. srpna až 12. září 2013) tato mapa:

image
větší obrázek

Tehdy jsme s Honzou Schmidem navrhovali interpretovat její dvě dimenze jako dimenze věku (vertikální osa) a vzdělání (horizontální osa). Tedy kupříkladu mladší a níže vzdělaní voliči DSSS, spíše středního věku a vyššího vzdělání voliči TOP 09 atd. I když navrhovanou interpretaci ex-post nepřímo podpořily sociologické výzkumy voličů, nenapadlo nás, jak adekvátnost zachycených vztahů ověřit v offline světě. Zatímco na Facebooku prostě mapa jen jinak vizualizuje skutečně probíhající interakce, není a nebylo jisté, jak se má k světu mimo sociální síť. Ostatně tato naprosto fundamentální otázka vztahu sociálních sítí a reality visí prakticky nad každým výzkumem sociální sítí a bývá většinou nezodpovězena.

Když jsem v úterý před volbami dopočetl mapu pro posledních 6 týdnů před volbami do Evropského parlamentu, byl jsem poměrně spokojen. Předvolební mapa do EU parlamentu z roku 2014 vykazovala totiž minimální změny v rozložení oproti mapě z loňského roku.

image
větší obrázek

Stabilita rozložení může znamenat, že MDS mapa skutečně zaznamenává stabilní rozdíly mezi stránkami na Facebooku. Důležité ale také je, kolik aktivních uživatelů zůstalo z podzimu 2013 do měření na jaře 2014. Neznamená stabilita výsledků pouze to, že na Facebooku jsou aktivní totožní jedinci? I když se strany různily, tak překryv aktivních uživatelů téže strany z prvního a z druhé měření byl obvykle kolem 30 %. Jedná se tedy o indikátor toho, že model vyjadřuje obecnější hodnotové rozdíly mezi stranami, než přímo závislost na konkrétním seznamu uživatelů.

Pro Českou televizi jsem připravil celkem deset takovýchto map, z nichž některé měly diváci možnosti vidět v příjemnější grafice, než je surový výstup v Rku. Po mém vystoupení se (nejen) ve studiu ČT rozvinula krátká debata o relevantnosti takovýchto map mimo online prostředí. Mohou tyto mapy reprezentovat nějaké nevirtuální rozložení politických sil? Zvlášť se zřetelem k tomu, že demografie Facebookové populace je oproti populaci České republiky vychýlená? Přiznám se, že mne tato otázka trápí již od prvních experimentů s touto metodou z času prezidentských voleb (viz Mapa blízkosti prezidentských kandidátů). Mapy blízkosti se mi osvědčují jako nástroj marketingového výzkum v oblasti sociálních médií, ale jejich extenze mimo virtuální prostředí byla vždy špatně ověřitelná.

Dva dny po skončení voleb mne ale napadla zajímavá možnost, jak ověřit, zda vzdálenosti měří “něco z reality”. Úvaha sama je relativně prostá, byť v některých aspektech kontraintuitivní. Stojí na využití korelace volebních výsledků stran ve skutečných volbách.

Zjednodušený model vypadá takto: český volební systém poměrného zastoupení s relativně vysokým počtem stran způsobuje, že se strany ucházejí často o podobné voliče, či voliče z podobných skupin2. Voliči samotní jsou sice sloučeni do volebních okrsků, ale okrsky samotné většinou představují poměrně koherentní skupinu voličů. O tom svědčí už i pouhý pohled na volební mapu České republiky, která nemá jednolitou barvu nejúspěšnější strany ale je naopak poměrně barevně pestrá. Jak to v praxi vypadá s oněmi korelacemi? Kupříkladu při podzimních volbách 2013 obvykle platilo, že výsledky KSČM a Úsvitu spolu silně pozitivně korelovaly napříč volebními obvody s alespoň 5.000 voliči. Když byly v daném volebním obvodu výsledky dobré pro komunisty, zpravidla byly dobré pro Okamuru a naopak. (viz http://databoutique.cz/post/66175359703/housle-a-mrizky-z-voleb-do-parlamentu). Vysvětlení v tomto případě zřejmě může být, že Okamura i komunisté oslovují především nespokojené voliče, a tak získávají i podobné výsledky. Dalším příkladem je TOP 09 a Strana Zelených, které cílí na podobného voliče: vzdělanější, bohatší a městský volič.

Pokud facebookové mapy blízkosti skutečně odráží realitu podobnosti stran, měly by korelovat se vzájemnou korelací výsledků stran z voleb (velký díky Honzovi Schmidovi za ujasnění metody a Michalu Škopovi za data!).

Na vstupu máme tedy dvě matice. Jednu se vzájemnou vzdáleností stránek politických stran na Facebooku a druhou s korelacemi stran na základě volebních výsledků v okrscích nad 5.000 obyvatel.

image
větší obrázek

Čím lépe odráží mapa z Facebooku reálný svět, tím by měla být korelace s korelační maticí z reálných voleb nižší (maximálně provázaný vztah vyjadřuje hodnota -1). Naopak hodnota 0 vyjadřuje naprostou nezávislost a data z Facebooku by pak neměla žádný vztah k offline světu. V sociálních vědách pak již korelace menší než -0.2 obvykle poukazuje na existující vztah (aspoň soudě dle přednášek pro sociology:-)) A skutečně: pro Českou republiku vyšla korelace -0.71 což je na sociální vědy číslo nebývale dobré. (Poznámka, korelace mají zápornou hodnotu, protože vztahy stran na Facebooku jsou vyjádřené jako blízkost – čím nižší tím bližší, zatímco vztahy na základě volebních dat jsou vyjádřeny jako korelace – čím vyšší, tím bližší).

Zkusil jsem za podobných podmínek dopočítat korelace z podobných celků pro Polsko (velké díky pro Víta Tučka za scraping), Německo (díky pro Matěje Vaněčka) a Slovensko (opět díky pro Michala Škopa). A výsledky jsou opět překvapivě dobré a podobné.

Pro mapu polské politické scény:

image
větší obrázek

korelace -0.79 (počítáno na výsledky z krajů).

Pro mapu slovenské politické scény:

image
větší obrzázek

je to korelace -0.67.

A konečně pro Německo a jeho politickou scénu

image
větší obrázek

to byla korelace -0.71

Ve všech případech jsme tedy naměřili poměrně úzkou shodu. Spočetl jsem analýzu zatím pro všechny země, k jejichž volebním datům se mi podařilo získat přístup.

Co s tím? Je asi ukvapené tvrdit, že facebookové analýzy měří přesně to, co se děje mimo virtualitu, zdá se ale, že měří docela slušně některé její aspekty, a nejde je tedy zamítnout máchnutím rukou. Je jasné, že například počet fanoušků nekoreluje s volebními preferencemi, ale v odkrývání obecnějších vztahů mezi politickými subjekty se zdá, že nám může být Facebook užitečný.

Hranice mezi online světem a offline světem vypadá zase o něco méně jasná. Berte tenhle blogpost jako takovou průběžnou zprávu o stavu výzkumu. Zkusím teď dopočítat další evropské země a následně pak zveřejnit kompletní datasety.

Josef Šlerka
(special thnx pro Honzu Schmida a Petra Koubskýho)



Poznámky:

1. V podstatě je to modifikována idea informační teorie podobnosti, která se snaží formalizovat tři běžné intuice, které o podobnosti máme. Tedy:
Intuition 1: The similarity between A and B is related to their commonality. The more commonality they share, the more similar they are.
Intuition 2: The similarity between A and B is related to the differences between them. The more differences they have, the less similar they are.
Intuition 3: The maximum similarity between A and B is reached when A and B are identical, no matter how much commonality they share.

2. Kupříkladu hypotetická Protestní radikální strana A (PRSA) a hypotetická Méně radikální protestní strana B (MRPSB) jsou strany, které cílí na silně nespokojené voliče, kteří preferují jednodušší řešení a mají nižší vzdělání. Takových voličů je ve společnosti určité procento. Ve volbách ho pak vyjádříme jedním číslem, procentuálním výsledkem pro tento typ protestních stran. Intuitivně vzato by měla být korelace procentncích hlasů mezi oběma stranami negativní. Zisky pro PRSA jsou ztrátami pro MRPSB. Jenže strany obvykle nezískávají náhodné výsledky z celkového podílu voličů. Zpravidla bývá jedna úspěšnější při lovení nespokojených než druhá. PRSA získají celostátně třeba 14% a MRPSB třeba 6%. Důležité je, že jejich individuální výsledky jsou obvykle s nízkou mírou směrodatné odchylky a oslovené skupiny se ve volebních okrscích nevyskytují rovnoměrně. Díky tomu existuje velmi slušná šance na pozitivní korelaci mezi stranami, nikoli negativní (ostatně tady je malý simulátor a velké díky pro Dana Prokopa, že mne dokopal k té simulaci)

  1. databoutique posted this
Blog comments powered by Disqus