Simpsonův paradox a problém slučování dat

Matematika |

V nemocnici A přežije procentuálně více pacientů přijatých v relativně dobrém stavu. V nemocnici A přežije procentuálně více pacientů přijatých v kritickém stavu. V nemocnici B je ale přesto celkově nižší úmrtnost. Není v tom rozpor?




***pravidelné páteční „přetištění“ staršího článku

 

Kupodivu ne, jde o tzv. Simpsonův paradox.

Ukažme si problém na konkrétních datech:
Pacienti v dobrém stavu
Nemocnice A… zemřelo 10 pacientů ze 600, tj. 1,6 %
Nemocnice B… zemřelo 30 pacientů z 900, tj. 3,3 %

Pacienti v kritickém stavu
Nemocnice A… zemřelo 190 pacientů ze 400, tj. 47 %
Nemocnice B… zemřelo 70 pacientů ze 100, tj. 70 %

Pro obě skupiny pacientů je nemocnice A zjevně bezpečnější. Jenže…

Data po sloučení obou skupin
Nemocnice A… zemřelo 200 pacientů z 1 000, tj. 20 %
Nemocnice B… zemřelo 100 pacientů ze 1 000, tj. 10 %

Takže – jaká nemocnice poskytuje kvalitnější péči? Samozřejmě nemocnice A. Obě „počáteční“ menší a oddělené skupiny dat popisují realitu (srovnání kvality obou nemocnic) mnohem lépe. Přitom se jedná o menší soubory.
„Ve statistice platí, že čím větší je množství dat, tím dosahujeme spolehlivější výsledky. Simpsonův paradox jako by toto pravidlo zpochybňoval,“ vysvětluje Jan Hendl. Ostatně – právě proto se celý jev označuje jako paradox…

Podstatou toho, co se stalo při sloučení dat, je ztráta informace o tom, že do nemocnice A směřuje více pacientů v kritickém stavu. Mechanickým spojením-sečtením dat nám tato informace vypadne ze zorného pole a stane se skrytou proměnou.

Zdroj: Jan Hendl: Přehled statistických metod zpracování dat, Portál, Praha, 2004

Obdobný článek na toto téma: Pásy a smrt na silnicích
http://www.scienceworld.cz/sw.nsf/ID/D6D0E406995E0B00C1256ED3005C7611?OpenDocument&cast=1








Související články




Komentáře

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.