Kvantita dat nestačí

Zdroj: Pixabay

„Paradox velkých dat“ ve své nejnovější verzi formuloval harvardský statistik Xiao-Li Meng v roce 2018. Dostupnost dat svádí k přesvědčení, že čím víc, tím líp, a současně že tím více se na výsledky získané z těchto dat můžeme spolehnout. Do jisté míry je to samozřejmě pravda, nicméně tento přístup může vést i k řadě omylů. Následující studie srovnává více průzkumů a to, jak výsledně korespondovaly s realitou.

Seth Flaxman, Unrepresentative big surveys significantly overestimate US vaccine uptake, Nature (2021). DOI: 10.1038/s41586-021-04198-4. www.nature.com/articles/s41586-021-04198-4
Zdroj: Harvard University / Phys.org

Samotné téma studie je specifické, týká se očkování proti koronaviru. Jak se ukázalo, průzkumy zahrnující větší množství lidí vůbec nedávaly přesnější výsledky (v průzkumech vycházelo větší podpora očkování). Podobně selhávají předvolební odhady (americké prezidentské volby 2016). Zčásti jde o výsledek situace, kdy hlavní média mají nějaký názor a prohlašují ho za celkový „společenský konsensus“. Jeho odpůrci pak raději v průzkumech volí neutrální formulace, prohlašují se za „nepřesvědčené“, vůbec se odmítnou účastnit apod.
V této souvislosti by se samozřejmě dalo začít lamentovat nad tím, jak se vlastně i ve svobodné společnosti lidé mnohdy cítí zastrašeni a zdráhají se otevřeně se přihlásit ke svým názorům. To je ale jen část pravdy, paradox velkých dat funguje mnohem univerzálněji. Hlavní je, že průzkum vždy zachytí pouze určitým způsobem vybraný vzorek. Technicky vzato třeba předvolební průzkumy se s výsledkem voleb míjely často. Oslovena byla např. specifická skupina obyvatel (ve 30. letech v USA telefonický průzkum k prezidentským volbám – to ovšem už znamenalo určitou skupinu respondentů, ty, kdo měli telefon). Dnes si ale mnoho lidí myslí, že více respondentů znamená automaticky vyšší shodu se skutečností a vzorek je nutně reprezentativní („Internet/sociální sítě používá přece skoro každý“). To ale není pravda, jak ukázala právě výše zmíněná selhání.
Závěr zní, že např. firma jako prodejce potřebuje znát názor relevantního vzorku zákazníků. Nějaká data se dají sebrat snadno i velkém množství, jenže ta právě reprezentativní nejsou skoro nikdy. A už vůbec nejsou relevantní/relevantnější jen proto, že jich je relativně hodně. Článek (viz výše) vysvětluje, že vzorek zahrnující 5 % populace může být klidně cennější než vzorek 90 %, ovšem s neznámými zkresleními.

Exit mobile version