Jak lhát se statistikou | EkonTech.cz


Jak lhát se statistikou

Ekonom / misleading graphs / statistika
26. 4. 2015 - 20:55

Politici často chodí do diskusních pořadů s tabulkami a grafy, kterými se často snaží deklasovat své oponenty, zmást moderátora a oklamat diváky. „Nevěřím statistice, kterou si sám nezfalšuji,“ prohlásil údajně Winston Churchill. Zdá se, že se toto heslo ujalo.

Hned na začátek vám položím jednu otázku. Když vystřelíte dvakrát na divoké prase a poprvé minete o metr doprava a podruhé o metr doleva, jak je pravděpodobné, že si z něj uděláte guláš? Vždyť jste ho v průměru trefili. Byť tato otázka uráží každého logicky myslícího jedince, je stále velké množství lidí, kteří se zřejmě domnívají, že v tomto případě prase skutečně trefili. Dovolil jsem si tuto metaforu použít v reakci na bohužel stále ještě poměrně častou praxi ohýbání, překrucování a manipulace s daty. Otázkou je, zdali se ve většině případů jedná o pouhou neznalost a nedbalost, nebo hůře o záměrnou snahu autorů takových textů či grafů uvést někoho v omyl. 

Již v roce 1954 napsal Darrell Huff knihu „Jak lhát se statistikou“, ve které se pokusil popsat nejčastější chyby v interpretaci statistiky a jak tyto chyby mohou vést k mylným závěrům. Kniha se stala jednou z nejlépe prodávaných knih o statistice v historii a byla standardním zdrojem, který se používal na vysokých školách v kurzech úvodu do statistiky. Mezi hlavní témata knihy se řadí vztah korelace a kauzality, náhodného výběru či manipulace s grafy.

Noční můra 

Než se vrhneme na samotné příklady z praxe, uveďme nejčastější případy problémů. Již samotný sběr dat při dotazníkovém šetření skrývá obtíž v samotné formulaci otázek. Uveďme příklad z Nového Zélandu, kde probíhalo referendum o tom, zdali se mají zakázat fyzické tresty při výchově dětí. Otázka byla formulována: „Mělo by být proplesknutí jakožto součást dobré rodičovské výchovy trestným činem?“ Jistě jste si všimli, že podezření vzbuzuje spojení, které říká, že proplesknutí je součástí dobré rodičovské výchovy.

Dalším neduhem sběru dat je nereprezentativnost vzorku. Pokud se jedná o telefonický průzkum, vyloučíte tím lidi, kteří nepoužívají telefon. Těchto chyb se zpravidla děsí výzkumníci při experimentech nejvíce.

Se samotnou interpretací dat jsou pak spojeny praktiky vynechávání nepříjemných dat, která jsou v kontradikci s tím, co se snažíme dokázat. Jde o rozšířenou praxi u tabákových společností nebo například prodejců „zázračných“ pilulek. Další příčinou špatné interpretace jsou generalizace, kterých se často dopouštějí masmédia či záměna korelace s kauzalitou, což je chyba, která se taktéž objevuje často.

Poměrně oblíbenou kratochvílí politiků je nošení různých grafů a tabulek do diskusních pořadů, kde se jimi ohánějí a snaží se přesvědčit diváky o své pravdě. Bohužel tyto grafy často naplňují kritéria, o nichž píše Darrell Huff ve své knize. Ohýbání dat u grafů můžeme rozdělit do několika kategorií. Nejčastěji se jedná o špatnou vizualizaci, nevhodné škálování či seříznutí grafu. Se špatným zacházením s daty se seznámíme využitím grafů převzatých ze stránek jedné české politické strany, na něž upozornil Demagog. cz  a server Datová žurnalistika.

Nezaměstnanost

První graf je skutečně odstrašujícím příkladem. Došlo zde o seříznutí grafu, kdy osa x nezačíná na nule, což je důvod, proč sloupeček za leden je dvakrát vyšší než sloupeček za listopad. Ve skutečnosti došlo v lednu k nárůstu počtu nezaměstnaných o necelých 7,5 % oproti listopadovému stavu.  Je nutné podotknout, že další přitěžující okolností je neuvedení dat na ose y, která by alespoň na tuto praktiku mohla upozornit.

Dalším, možná ještě horším nedostatkem tohoto grafu je, že ukazuje de facto přesný opak skutečnosti. Graf srovnává neporovnatelná období, neboť neuvažuje sezónnost. Nezaměstnanost s blížícím se koncem roku a začátkem nového roku vždy roste. Dobíhají uzavřené pracovní smlouvy, vycházejí absolventi a je zde mnoho dalších faktorů.

Pokud tedy chceme objektivně srovnávat nezaměstnanost, musíme použít stejné měsíce minulého roku. Pokud tak učiníme, dojdeme k závěru, že naopak došlo k poklesu nezaměstnaných o 11,5 %.

Neuvedení všech měsíců je taktéž jednou z častých chyb. Tvrzení, že po půl roce je nezaměstnanost na svém maximu, je sice z pohledu oněch 6 měsíců pravdivé, ovšem z již zmíněného důvodu absurdní. Poměrně okaté je také to, že je použita modrá barva v měsících, kdy docházelo k poklesu, a oranžová v měsících, kdy nezaměstnanost rostla.

Korelace x kauzalita

Další graf ze stejných stránek je opět odstrašujícím příkladem. Problémem zde je to, že jsou záměrně vybrány země, které jsou konformní s tvrzením, že v zemích, kde je vysoká minimální mzda, je i vysoká nezaměstnanost. Pokud se podíváme do statistik, zjistíme, že země s nejvyšší minimální mzdou v EU jsou Belgie (nezaměstnanost 8,8%), Francie (10,2%) a Lucembursko (4,9%).Země s nejnižší minimální mzdou jsou pak Bulharsko (11,6%), Rumunsko (7,3%) a Litva (12,4%).

Tedy tvrzení, že je zde závislost mezi minimální mzdou a mírou nezaměstnanosti, je opět principiálně špatné. Pokud opomineme účelový výběr hodících se dat, jedná se o zaměnění korelace s kauzalitou. Tímto netvrdím, že zde tato kauzalita neexistuje, nýbrž říkám, že graf níže ji nijak nedokazuje.

Podobné ohýbání dat se neděje jen u nás, nýbrž i ve světě a často v renomovaných médiích. Na internetu naleznete podobné grafy i například z proslulých The New York Times. Nakonec uvedu ještě jeden již sofistikovanější příklad matení.  Graf níže ukazuje prudké zvyšování nezaměstnanosti a počtu nepojištěných osob. I u tohoto grafu je třeba si dát pozor na škálování. Pokud bychom extrahovali data pro oba jevy zvlášť, dojdeme tomu, že nezaměstnanost vzrostla ze 4,5% na 7,5%, zatímco množství nepojištěných osob se zvýšilo o necelé 1%.