Aviva Petrie, Caroline Sabin - Statystyka Medyczna w Zarysie. Tłumaczenie Jerzy Mroczko.pdf

zaneta_l 02 Medical Books

Użytkownik zaneta_l wgrał ten materiał 7 lata temu.

Komentarze i opinie (0)

Transkrypt ( 25 z dostępnych 159 stron)

STRONA 2

Medical Statistics at a Glance Aviva Petrie Head of Biostatistics Unit and Senior Lecturer Eastman Dental Institute University College London 256 Grays Inn Road London WC1X 8LD and Honorary Lecturer in Medical Statistics Medical Statistics Unit London School of Hygiene and Tropical Medicine Keppel Street London WC1E7HT Caroline Sabin Prof essor of Medical Statistics and Epidemiology Department of Primary Care and Population Sciences Royal Free and University College Medical School Rowland Hill Street London NW3 2PF Second edition

STRONA 3

Aviva Petrie, Caroline Sabin Statystyka medyczna w zarysie Ttumaczenie prof. dr hab. J e r z y M o c z k o

STRONA 4

© Copyright by Wydawnictwo Lekarskie PZWL, Warszawa 2006 Tłumaczone z Aviva Petrie, Caroline Sabin, Medical Statistics at a Glance, Second edition © 2005 Aviva Petrie and Caroline Sabin Published by Blackwell Publishing Ltd Blackwell Publishing, Inc., 350 Main Street, Malden, Massachusetts 02148-5020, USA Blackwell Publishing Ltd, 9600 Garsington Road, Oxford 0X4 2DQ, UK Blackwell Publishing Asia Pty Ltd, 550 Swanston Street, Carlton, Victoria 3053, Australia The right of the Authors of this Work has been asserted in accordance with the Copyright, Design and Patents Act 1988. This edition is published by arrangement with Blackwell Publishing Ltd, Oxford. Translated by Wydawnictwo Lekarskie PZWL from the original English language version. Responsibility of the accuracy of the translation rests solely with the Wydawnictwo Lekarskie PZWL and is not the respon- sibility of Blackwell Publishing Ltd. Wszystkie prawa zastrzeżone. Przedruk i reprodukcja w jakiejkolwiek postaci całości bądź części książki bez pisemnej zgody wydawcy są zabronione. Redaktor ds. publikacji medycznych: Anna Plewa Redaktor merytoryczny: Anna Nowosielska-Tiuryn Redaktor techniczny: Małgorzata Chmielewska Korekta: Zespół Projekt okładki i stron tytułowych: Magdalena Kaczmarczyk ISBN 83-200-3312-8 Wydanie I Wydawnictwo Lekarskie PZWL 00-251 Warszawa, ul. Miodowa 10 tel. +48(22) 695-40-33 Księgarnia wysyłkowa: tel. +48(22) 695-44-80 infolinia: 0-801-142-080 www.pzwl.pl e-maił: promocia@pzwl.pi Skład i łamanie: Mater, Warszawa Druk i oprawa: Drukarnia Narodowa S.A., Kraków

STRONA 5

SPIS TREŚCI Przedmowa tłumacza 6 Wstęp 8 Opracowywanie danych 1 Rodzaje danych 10 2 Wprowadzanie danych 12 3 Kontrola błędów i wartości odskakujące . . . 14 4 Graficzna prezentacja danych 16 5 Opis danych: wartość przeciętna 18 6 Opis danych: rozproszenie 20 7 Rozkłady teoretyczne: rozkład normalny . . . 22 8 Rozkłady teoretyczne: inne rozkłady 24 9 Transformacje 26 Próbkowanie i estymacja 10 Próbkowanie i rozkłady próbkowania 28 11 Przedziały ufności 30 Planowanie badania 12 Planowanie badania I 32 13 Planowanie badania II 34 14 Eksperymenty kliniczne 36 15 Badania kohortowe 39 16 Badania przypadek-kontrola 42 Testowanie hipotez 17 Testowanie hipotez 44 18 Błędy w testowaniu hipotez 46 Podstawowe techniki analizy danych Dane numeryczne 19 Dane numeryczne: pojedyncza grupa 48 20 Dane numeryczne: dwie grupy powiązane . . 51 21 Dane numeryczne: dwie grupy niepowiązane . 54 22 Dane numeryczne: więcej niż dwie grupy . . 57 Dane kategorialne 23 Dane kategorialne: pojedyncza proporcja . . . 60 24 Dane kategorialne: dwie proporcje 64 25 Dane kategorialne: więcej niż dwie kategorie . 66 Regresja i korelacja 26 Korelacja 69 27 Teoria regresji liniowej . . . ., 72 28 Przeprowadzanie analizy regresji liniowej . . 74 29 Wielokrotna regresja liniowa 78 30 Wyniki binarne i regresja logistyczna . . . . 81 31 Częstości i regresja Poissona 84 32 Uogólnione modele liniowe 88 33 Zmienne wyjaśniające w modelach statystycznych 90 34 Zagadnienia związane z modelowaniem statystycznym 93 Ważne zagadnienia 35 Sprawdzanie założeń 96 36 Wyznaczanie wielkości próby 98 37 Prezentacja wyników 101 Zagadnienia dodatkowe 38 Narzędzia diagnostyczne 104 39 Szacowanie zgodności 107 40 Medycyna poparta dowodami 110 41 Metody dla danych klasteryzowanych . . . . 112 42 Metody regresji dla danych klasteryzowanych 115 43 Przeglądy systematyczne i metaanaliza . . . . 118 44 Analiza przeżycia 121 45 Metody Bayesowskie 124 Dodatki A Tablice statystyczne 126 B Nomogram Altmana do obliczeń wielkości próby 133 C Typowe wydruki komputerowe 134 D Słowniczek terminów statystycznych 146 E Skorowidz 156 5

STRONA 6

6 PRZEDMOWA TŁUMACZA White lie, damned lie, statistics (Małe kłamstwo, wielkie łgarstwo, statystyka) — te słowa przypisywane Markowi Twainowi, w których opisał stopnie nieprawdy, chyba najle piej oddają stosunek większości „normalnych ludzi" do sta tystyki. Uważa się ją za narzędzie do manipulowania dany mi, pozwalające na pseudonaukowe udowadnianie swoich racji. Wielu z nas, obserwując prognozy statystyczne prezen towane w środkach masowego przekazu, stwierdza, że wie lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi my sytuacje jasne, niedwuznaczne, z których moglibyśmy wywnioskować, że „białe jest białe, a czarne — czarne". Ma ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo dobrym i precyzyjnym działem matematyki jak algebra, try gonometria czy rachunek różniczkowy i całkowy. Stanowi ona część rachunku prawdopodobieństwa i bez problemu stosuje się ją w fizyce, chemii i naukach technicznych. Sto sowanie statystyki w ekonomii (np. prognozowanie kursów giełdowych, analizy ubezpieczeniowe) również nie budzi większych zastrzeżeń. Nieco inaczej przedstawia się sytu acja z zastosowaniem statystyki w naukach medycznych. Dane medyczne charakteryzuje duży stopień zmienności zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do datkowym problemem jest uzyskanie próby o wystarczają cej liczebności (rzadkie jednostki chorobowe, kosztowne procedury badawcze, zagadnienia etyczne w leczeniu inwa zyjnym) i z tego względu standardowe techniki statystyczne często nie mogą być stosowane. Dlatego też w ramach staty styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie ku, aczkolwiek wykorzystuje ona również teorie opracowa ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie ma roku, by nie pojawiły się nowe techniki analizy danych biomedycznych, istotnie wzbogacane przez rozwój technolo gii komputerowej. Bez użycia komputerów trudno wyobra zić sobie użycie takich metod, jak bootstrapping, jackkni- fing, metoda Monte Carlo. Próbę przedstawienia aktualnego stanu wiedzy z tej dzie dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo- pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona — ogromne dzieło o ponad sześciu tysiącach stron zapisa nych drobnym drukiem. Niestety wiedza ta ma charakter hermetyczny i jest niemal całkowicie niedostępna dla prze ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu diując artykuły naukowe ze swojej dziedziny, napotka takie sformułowania jak przedział ufności, regresja logistyczna czy rozkład Poissona? Próba poszukiwania tych terminów w wydawnictwach encyklopedycznych lub fachowych z za kresu statystyki z miejsca stawia go na przegranej pozycji z uwagi na sformalizowany język i kompletnie niezrozumia łe dla niego wzory. Na całym świecie w szkolnictwie medycznym wykładane są metody biostatystyki. Niestety, z reguły przedmiot ten zo staje umiejscowiony na początkowych latach studiów w ra mach tzw. przedmiotów podstawowych. Powoduje to najczę ściej, że student traktuje go jako jeszcze jeden niepotrzebny kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli niki. Prawdziwa potrzeba użycia statystyki pojawia się na wyższych latach, np. przy pisaniu pierwszych prac w ra mach studenckich towarzystw naukowych. Wtedy to po raz pierwszy student staje przed problemem, jak sformułować hipotezy badawcze, jak zebrać materiał do analizy, jak powi nien być on obszerny, co oznacza termin reprezentatywność, jakiego użyć testu statystycznego, jak zinterpretować wyni ki itd. Powszechny dostęp do komputerów i zainstalowanych w nich pakietów statystycznych znakomicie ułatwia sytu ację, lecz niestety tylko pozornie. Pojawiają się prace „na ukowe", w których niezdarne próby użycia statystyki gene rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę. Podobna sytuacja przydarza się słuchaczom studium dokto ranckiego. Przygotowywana rozprawa doktorska wymaga bowiem rygorystycznego podejścia metodycznego, z reguły surowo ocenianego przez recenzentów pracy. Również próba publikowania swoich wyników w czasopismach medycznych często kończy się zwróceniem pracy w celu wykonania po prawek dotyczących użytych technik statystycznych. W tej sytuacji pozostaje jedynie zlecenie wykonania analiz staty stykowi, albo też ambitna próba odkurzenia notatek z biosta tystyki i przegryzienia się przez trudny materiał. Na polskim rynku wydawniczym nie ma niestety dużego wyboru książek poświęconych tej tematyce. Z reguły są to albo dość stare pozycje, nie uwzględniające najnowszych dokonań w tej dziedzinie, albo przeładowane wiedzą teore tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa skorzystania z najlepszych wzorców dydaktycznych dostęp nych w literaturze obcojęzycznej. Jedną z takich pozycji jest książka Avivy Petrie i Caroline Sabin, pt. Statystyka me dyczna w zarysie, wydana po raz pierwszy przez Blackwell Publishing w roku 2000 w ramach serii książek przezna czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo stała wydana w przeredagowanej i uzupełnionej wersji. W Stanach Zjednoczonych jest polecana przy przygotowa niach do zdania egzaminu państwowego USMLE step 1. Jej niezwykła popularność bierze się stąd, że Autorkom udało się w znakomity sposób wyważyć ilość wiedzy teore tycznej niezbędną do zrozumienia podstawowych pojęć sta tystycznych i zastosowania praktyczne pojawiające się w pracy lekarza. Opisane prostym, lecz precyzyjnym języ kiem rzeczywiste problemy z różnych dziedzin medycyny bardzo dobrze ilustrują sposób użycia rozmaitych technik statystycznych przedstawionych w tekście. Autorki w roz sądny sposób podają wzory (tam, gdzie to rzeczywiście ko nieczne) i całkowicie pomijają dowody potrzebne matematy kom, a nie lekarzom. Nie ogranicza to jednak w żaden sposób precyzji przekazywanej informacji. Autorki przy wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą cych u podstaw stosowania rozmaitych technik statystycz nych, nie wdając się niepotrzebnie w ich uzasadnianie. Na książkę tę zwróciłem uwagę już w roku 2000 po jej pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla studentów anglojęzycznych w Akademii Medycznej im. Ka-

STRONA 7

rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen tów potwierdzają jej niezwykłą przydatność przy przygoto waniu zarówno do testów w okresie studiów, jak i egzami nu USMLE step 1. Ucieszyła mnie zatem propozycja Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ ki na język polski i udostępnienia tej cennej pozycji polskie mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak tu, iż tłumaczenie jest jak kobieta — „wierna nie jest piękna, a piękna nie jest wierna". Problem stanowią nie tyl ko nieprzetłumaczalne na język polski (ale w pełni zrozu miale dla naukowców) słowa, takie jak bootstrapping, jack- knifing, ale i specyfika językowa uniemożliwiająca krótkie, jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły angielski termin virological Jailure po konsultacji z wiruso logami rozrósł się do „braku efektu terapeutycznego po le czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom lekarzom za poświęcenie mi czasu na skonsultowanie termi nologii medycznej i będę wdzięczny za wszystkie uwagi, które mogłyby udoskonalić prezentowaną pracę. Książka Avivy Petrie i Caroline Sabin, pt. Statystyka medyczna w zarysie jest polecana zarówno kolejnym rocz nikom studentów wydziałów lekarskich i stomatologicznych, jak i słuchaczom studiów doktoranckich na akademiach me dycznych. Jako niezwykle przydatną znajdą ją również stu denci wydziałów fizyki uniwersytetów i politechnik tam, gdzie otwarte zostały kierunki fizyki medycznej. Może ona stanowić również znakomity materiał dydaktyczny dla pro wadzących wykłady i ćwiczenia z biostatystyki na wspo mnianych kierunkach studiów. Może też stanowić nieocenio ne źródło fachowych informacji dla każdego lekarza, zarówno naukowca pracującego w akademickich klinikach, jak i lekarza praktyka pragnącego poprzez samokształcenie poszerzać i doskonalić swoje umiejętności. W sprawdzeniu zdobytej wiedzy z zakresu biostatystyki może pomóc test za mieszczony na stronie internetowej www.medstatsaag.com (niestety nie został jeszcze spolszczony). Mam nadzieję, że książka ta zdobędzie podobną popularność u polskiego Czy telnika, jak w krajach zachodnich, i dostarczy mu dużo war tościowych i przystępnie podanych informacji. Jerzy A. Moczko

STRONA 8

8 WSTĘP Książka Statystyka medyczna w zarysie jest skierowana do studentów akademii medycznych, badaczy medycznych, słuchaczy studiów podyplomowych w zakresie dyscyplin biomedycznych oraz personelu przemysłu farmaceutyczne go. Oni wszyscy na pewnym etapie życia zawodowego zetkną się z wynikami ilościowymi (własnymi lub innych ba daczy), które będą wymagały krytycznej analizy i interpre tacji. A niektórzy będą oczywiście musieli zdać ten straszli wy egzamin ze statystyki! Z tego powodu nieocenione jest właściwe zrozumienie statystycznych koncepcji i metodolo gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm Czytelnika dla statystyki co dostarczyć mu praktycznej wie dzy. W tym nowym wydaniu, podobnie jak to było w wyda niu poprzednim, naszym celem jest zapewnienie studentowi i badaczowi, jak również klinicyście napotykającemu w lite raturze medycznej koncepcje statystyczne, książki, która jest solidna, łatwa w czytaniu, wszechstronna, związana z tematem i użyteczna w praktycznym zastosowaniu. Wierzymy, że książka Statystyka medyczna w zarysie będzie szczególnie użyteczna jako pomoc dla wykładowców statystyki, również jako źródło odnośników. Struktura wy dania drugiego pozostaje taka sama jak wydania pierwsze go. Tak jak inne książki z serii ...w zarysie składa się z od rębnych, dwu-, trzy- lub rzadko czterostronicowych rozdziałów, z których każdy omawia inny aspekt statystyki medycznej. Z naszych własnych doświadczeń dydaktycz nych znałyśmy trudności, jakie napotykali nasi studenci podczas zgłębiania statystyki medycznej, i starałyśmy się wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się ograniczyć teoretyczną zawartość książki do poziomu wy starczającego do zrozumienia użytych procedur, lecz który nie zaciemnia jeszcze ich praktycznych zastosowań. Statystyka medyczna jest obszernym przedmiotem obej mującym wielką liczbę zagadnień. W książce podajemy pod stawowe koncepcje statystyki medycznej i przewodnik po najczęściej stosowanych procedurach statystycznych. Epidemiologia jest ściśle powiązana ze statystyką medycz ną, omawiamy więc podstawowe zagadnienia tej dziedziny, związane z planowaniem i interpretacją badania. Załączamy również rozdziały, którymi Czytelnik zainteresuje się jedy nie okazjonalnie, lecz które mimo wszystko są fundamental ne dla wielu obszarów badań medycznych; na przykład me dycyna oparta na dowodach, przeglądy systematyczne i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu maczymy zasady leżące u podstaw tych zagadnień tak, by Czytelnik był w stanie zrozumieć i zinterpretować ich wyni ki, jeżeli takowe zostaną zamieszczone w literaturze. Porządek pierwszych 30 rozdziałów tego wydania odpo wiada wydaniu pierwszemu. Większość tych rozdziałów po została nie zmieniona w nowym wydaniu. Niektóre zawierają stosunkowo małe zmiany, uwzględniające ostatnie zdobycze, oraz odwołania, zmiany wynikają również z reorganizacji materiału. Większe dodatki odnoszą się do stosunkowo zło żonych form analizy regresji, które obecnie są używane sze rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie, częściowo dlatego, że związane z tym oprogramowanie jest bardziej dostępne i efektywne, niż było w przeszłości. Zmo dyfikowałyśmy rozdział o wynikach binarnych i regresji lo gistycznej (rozdział 30), włączając nowy rozdział o często ściach i regresji Poissona (rozdział 31) oraz znacząco rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz ne", tak że składa się on teraz z trzech rozdziałów: „Uogól nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające w modelach statystycznych" (rozdział 33) oraz „Zagadnienia związane z modelowaniem statystycznym" (rozdział 34). Zmodyfikowałyśmy również rozdział 41, który opisuje róż ne podejścia do analizy danych sklasteryzowanych, i doda łyśmy rozdział 42, o różnych metodach regresyjnych, które mogą być użyte do analizy tego typu danych, W wydaniu pierwszym zamieszczono krótki opis analizy szeregów cza sowych, z czego zdecydowałyśmy się zrezygnować w dru gim wydaniu, jako że wydawał się zbyt skrótowy, aby być praktycznie użytecznym, a jego rozwinięcie wymagałoby wyjścia poza przyjęte granice trudności. Z powodu usunię cia, jak i dodania pewnych rozdziałów, numeracja rozdzia łów w wydaniu drugim różni się od tej z poprzedniego wy dania, począwszy od rozdziału 30. Większość rozdziałów w dalszej części książki, które były również w wydaniu pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie, Opisowi każdej techniki statystycznej towarzyszy przy kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy ze wspólnych badań, w których uczestniczyłyśmy my lub na si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze czywiste dane z wydanych publikacji. Tam, gdzie było to możliwe, użyłyśmy tych samych danych w więcej niż jednym rozdziale, aby odzwierciedlić rzeczywistość analizy danych, która rzadko jest ograniczona do jednej techniki lub podej ścia. Chociaż uważamy, że należy podawać wzory i wyja śniać logikę postępowania, starałyśmy się unikać szczegółów złożonych obliczeń — większość Czytelników ma dostęp do komputerów i jest mato prawdopodobne, że będą Oni do konywali ręcznie obliczeń, może poza tymi najprostszymi. Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika jest umiejętność interpretacji wyników z pakietu kompute rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania wyników wybrałyśmy wydruki komputerowe. W pewnych sytuacjach, gdy podejrzewałyśmy trudności interpretacyj ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po wszechnym użyciu istnieje wiele pakietów statystycznych; chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać postać wyników, nie ograniczyłyśmy się do wydruku z ja kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze znanych - SAS, SPSS oraz Stata. W całym tekście jest wiele odwołań mających Czytelniko wi ułatwić dotarcie do różnych procedur. Podstawowy ze staw tablic statystycznych jest zawarty w Dodatku A. Książ ki Neave H. R.: Elementary Statistical Tables, Routledge 1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd., Blackwell Publishing, Oxford 1970, obok wielu innych, za wierają wersje pełniejsze, których Czytelnik potrzebuje przy bardziej precyzyjnych obliczeniach przeprowadzanych

STRONA 9

bez użycia komputera. Słowniczek terminów (Dodatek D) po daje przystępne wyjaśnienia większości użytej terminologii. Wiemy, że największą trudnością, jaką napotyka niesta- tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto wałyśmy dwa schematy blokowe, których można użyć za równo w celu podjęcia decyzji co do odpowiedniej metody w danej sytuacji, jak i w celu znalezienia jej w prezentowa nej książce. Oba schematy blokowe zamieszczono przezor nie na wewnętrznej stronie okładek, aby zapewnić do nich łatwy dostęp. Jako narzędzie pomocne w ocenie własnych postępów Czytelnik znajdzie interaktywne ćwiczenia zamieszczone na naszej stronie internetowej (www.medstatsaag.com). Strona ta zawiera również pełny zestaw cytowań (niektóre z nich prowadzą bezpośrednio do Medline) uzupełniających odnośniki zawarte w tekście i pozwalających odnaleźć bazowe informacje dotyczące przykładów. Czytelnikom, któ rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta tystyki medycznej, możemy polecić następujące książki: Altman D. G.: Practical Statistics for Medical Research. Chapman and Hall, Londyn 1991. Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods in Medical Research. Blackwell Science, Oxford 2001. Pocock S. J.: Clinical Trials: A Practical Approach. Wiley, Chichester 1983. Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi i Jonathanowi Sterne'owi, którzy opracowali nieocenione komentarze i sugestie do drugiego wydania, oraz Richardo wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro- wi za ich uwagi na temat pierwszego wydania. Chcemy podziękować każdemu, kto pomógł nam zdobyć dane do przykładów. Oczywiście, bierzemy pełną odpowiedzialność za jakiekolwiek błędy, które pozostały w tekście lub przy kładach. Chcemy również podziękować Mikowi, Geraldowi, Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili nasze przygotowania do wydania pierwszego i żyli z nami podczas trudnych prób opracowania wydania drugiego. Aviva Petrie Caroline Sabin Londyn

STRONA 10

1 RODZAJE DANYCH DANE I STATYSTYKI Celem większości prowadzonych prac badawczych jest ze branie danych na temat określonego obszaru badań. Dane Obejmują obserwacje jednej lub wielu zmiennych. Każda wielkość podlegająca zmianom nosi nazwę zmiennej. Na przykład możemy zbierać podstawowe informacje kli niczne i demograficzne o pacjentach z określonym schorze niem, Interesujące nas zmienne mogą obejmować płeć, wiek i wzrost pacjentów. Dane uzyskuje się zazwyczaj z próby, która reprezentu je interesującą nas populację. Naszym celem jest znaczące skondensowanie danych i wydobycie z nich użytecznej in formacji. Statystyka obejmuje metody zbierania, podsumo wywania, analizy i wyciągania wniosków z danych: w tym celu stosujemy techniki statystyczne. Dane mogą przyjmować rozmaite formy. Przed podję ciem decyzji co do wyboru najbardziej odpowiedniej meto dy statystycznej musimy wiedzieć, z jakim typem danych mamy do czynienia. Każda zmienna i odpowiadająca jej da na może być albo kategorialna, albo numeryczna (ryci na 1.1). DANE KATEGORIALNE (JAKOŚCIOWE) Ten typ danych pojawia się, gdy każda jednostka może na leżeć wyłącznie do jednej z pewnej liczby oddzielnych kate gorii danej zmiennej. • Dane nominalne — kategorie nie są uporządkowane, lecz mają po prostu nadane nazwy. Przykładami mogą być grupy krwi (A, B, AB i 0) lub stan cywilny (żonaty/wdo wiec/kawaler itp). W ostatnim przypadku nie zakładamy, że małżeństwo jest lepsze (lub gorsze) od pozostawania w sta nie bezżennym. • Dane porządkowe — kategorie są w pewien sposób uporządkowane. Jako przykład można podać stan zaawan sowania choroby (zaawansowany, umiarkowany, łagodny, brak choroby) lub natężenie bólu (ciężki, umiarkowany, ła godny, brak bólu). Zmienna kategorialna jest binarna lub dychotomiczna, jeżeli może przyjmować jedynie dwie kategorie. Przykłada mi mogą być odpowiedzi „tak/nie", „zmarł/żyje", „pacjent jest chory/pacjent jest zdrowy". DANE NUMERYCZNE (ILOŚCIOWE) Ten typ danych pojawia się w chwili, gdy zmienne przyjmu ją wartości numeryczne. Dane numeryczne możemy podzie lić na dwa typy. • Dane dyskretne — występują, gdy zmienne mogą przybierać jedynie wartości całkowite. Przykładem mogą być liczby zdarzeń, takie jak liczba wizyt u lekarza rodzin nego w ciągu roku lub liczba epizodów chorobowych w cią gu ostatnich pięciu lat. • Dane ciągłe — występują, gdy nie ma innych ograni czeń wartości, jakie może przyjmować zmienna, niż te, któ re ograniczają nas w trakcie wykonywania pomiaru, np. masa ciała lub wzrost. ROZRÓŻNIANIE TYPÓW DANYCH Często wykorzystujemy różne metody statystyczne w zależ ności od tego, czy dane są kategorialne, czy też numerycz ne. Chociaż rozróżnienie między danymi kategorialnymi a numerycznymi jest zazwyczaj proste, w pewnych sytu acjach może się okazać niejasne. Na przykład, gdy mamy do czynienia ze zmienną o dużej liczbie uporządkowanych kategorii (np. skala stopnia bólu z siedmioma kategoriami) może być trudno ją odróżnić od dyskretnej zmiennej nume rycznej. Rozróżnienie między dyskretnymi i ciągłymi dany mi numerycznymi może być jeszcze mniej oczywiste, choć w ogólności ma ono znikomy wpływ na wyniki większości analiz. Przykładem zmiennej traktowanej często jako dys kretna jest wiek (choć tak naprawdę jest to zmienna ciągła). Zazwyczaj odnosimy się do „wieku w dniu ostatniej roczni cy urodzin", a nie do „wieku jako takiego", i dlatego kobie ta, która podaje, że ma 30 lat, mogła właśnie obchodzić swo je 30. urodziny lub właśnie zbliżać się do 31. rocznicy urodzin. Nie należy na początku zapisywać danych numerycznych jako kategorialnych (np. poprzez zapisywanie grupy wieko wej, do której należy pacjent zamiast jego/jej aktualnego wieku), ponieważ gubi się w ten sposób ważną informację. Łatwo można dokonać konwersji zebranych danych nume rycznych do danych kategorialnych. Rycina 1.1. Diagram przedstawiający różne typy zmiennych. 10 Opracowywanie danych

STRONA 11

DANE POCHODNE W badaniach medycznych możemy też napotkać inne rodza je danych. Obejmują one: • Procenty — mogą pojawić się, gdy oceniamy poprawę stanu zdrowia u pacjentów podlegających leczeniu, np. para metr funkcji oddechowej pacjenta (wymuszona objętość wyde chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ stwie leczenia nowym lekiem. W tym przypadku interesuje nas raczej stopień poprawy, a nie wartość bezwzględna. • Proporcje lub ilorazy — czasami możemy napotkać proporcje lub iloraz dwóch zmiennych. Na przykład wskaź nik masy ciała (BMI), obliczany jako masa osobnika (kg) po dzielona przez kwadrat jego/jej wzrostu (m 2 ), jest często używany w celu oszacowania nadwagi lub niedowagi. • Częstości — częstości chorób. Liczba zachorowań wśród obiektów badania jest dzielona przez całkowitą licz bę lat obserwacji wszystkich osobników w tym badaniu (rozdział 31). Dane takie są powszechnie stosowane w na ukach epidemiologicznych (rozdział 12). • Punktacja — czasami, gdy nie możemy zmierzyć wiel kości, stosujemy wartości arbitralne, np. punktację. Na przy kład, odpowiedzi na pytania dotyczące jakości życia mogą zostać zsumowane w celu uzyskania pewnej ogólnej wielko ści charakteryzującej jakość życia każdego osobnika. Wszystkie wymienione powyżej zmienne w większości analiz mogą być traktowane jako zmienne numeryczne. Tam, gdzie zmienną uzyskuje się z więcej niż jednej wartości (np. licznik i mianownik w procentach), jest rzeczą istotną zapisa nie wszystkich tych wartości. Na przykład, 10% poprawa wskaźnika oceny leczenia może mieć rozmaite znaczenie kli niczne w zależności od wartości tego wskaźnika przed lecze niem. DANE UCIĘTE Dane ucięte możemy napotkać w takich na przykład sytu acjach: • Jeżeli mierzymy dane laboratoryjne, używając narzę dzia, które jest w stanie zarejestrować dane powyżej pew nego poziomu, to żadne wartości pomiarowe leżące poniżej tego poziomu nie zostają zidentyfikowane. Na przykład, je żeli mierzymy poziomy wirusa poniżej poziomu jego wykry walności, to wartości te opisujemy jako „nieoznaczalne", mimo że w próbce mogło być nieco wirusów. • W badaniach, w których część pacjentów wypada z grupy badanej przed czasem zakończenia badania. Ten typ danych jest omówiony bardziej szczegółowo w rozdziale 44. /. Rodzaje danych 11

STRONA 12

2 WPROWADZANIE DANYCH Przy wykonywaniu jakichkolwiek badań niemal zawsze wprowadza się dane do pakietu oprogramowania kompute rowego. Komputery są nieocenione, jeśli chodzi o poprawę dokładności i prędkości zbierania danych oraz ich analizy, ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz ne podsumowania danych i generować nowe zmienne. War to poświęcić nieco czasu na zaplanowanie wprowadzania danych — może to zaoszczędzić wiele wysiłku w później szych etapach. FORMATY WPROWADZANIA DANYCH Istnieje wiele sposobów wprowadzania i zapamiętywania danych w komputerze. Większość pakietów statystycznych pozwala na bezpośrednie wprowadzenie danych. Jednakże ograniczeniem takiego podejścia jest fakt, że niejednokrot nie nie można przenieść tych danych do innego pakietu. Pro stą alternatywą jest zapamiętanie danych albo w arkuszu kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres dostępnych w nich procedur statystycznych jest najczęściej mocno ograniczony i dla przeprowadzenia analiz trzeba zwykle przenieść dane do specjalistycznego pakietu staty stycznego. Bardziej elastycznym sposobem rozwiązania problemu jest umieszczenie danych w plikach ASCII lub plikach tek stowych. Dane zapisane w formacie ASCII mogą być odczy tywane przez większość pakietów. Format ASCII składa się po prostu z wierszy tekstu, który można oglądać na ekranie komputera. Zazwyczaj każda zmienna w pliku jest oddzielo na od następnej pewnym ogranicznikiem, najczęściej spa cją lub przecinkiem. Jest to tzw. format swobodny. Najprostszym sposobem wprowadzenia danych w forma cie ASCII jest użycie edytora tekstowego lub pakietu edycyj nego. W formacie tym można też zapisać dane złożone w ar kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz danych odpowiada zazwyczaj innemu obiektowi badania, a każda kolumna odpowiada innej zmiennej, chociaż czasa mi stosowane są wiersze kontynuacyjne — gdy dla każdego obiektu zbierana jest duża liczba zmiennych. PLANOWANIE WPROWADZANIA DANYCH Podczas zbierania danych w trakcie badania często będziesz potrzebował do ich zapisania formularza lub kwestionariusza. Staranne zaprojektowanie formularza pozwoli na zmniejsze nie nakładu pracy przy wprowadzaniu danych. Ogólnie, for mularze/kwestionariusze zawierają serię kratek, w których zapisuje się dane — z reguły każda możliwa cyfra w odpowie dzi musi mieć osobną kratkę. DANE KATEGORIALNE Niektóre pakiety statystyczne mają problemy z obsługą da nych nienumerycznych. Dlatego przed wprowadzeniem da nych do komputera trzeba czasem przyporządkować kody numeryczne do danych kategorialnych. Na przykład, można przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu, ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać dodane do formularzy w trakcie zbierania danych. Dla da nych binarnych, np. dla odpowiedzi tak/nie, często wygod nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla „nie"). • Zmienne kodowane pojedynczo — istnieje jedna moż liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie można udzielić na to pytanie jednocześnie odpowiedzi „tak" i „nie". • Zmienne kodowane wielokrotnie — dla każdego re spondenta możliwa jest więcej niż jedna odpowiedź. Na przykład: jakie symptomy występują u tego pacjenta. W tym przypadku osobnik może mieć dowolną liczbę symp tomów. Istnieją dwie metody kodowania tego typu danych w zależności od tego, która z sytuacji ma miejsce. • Istnieje tylko kilka możliwych symptomów, a każdy osobnik może mieć kilka z nich. Można stworzyć pew ną liczbę zmiennych binarnych, które oznaczają, czy pacjent odpowiedział tak lub nie na temat obecności każ dego możliwego symptomu. Na przykład: czy pacjent kaszle?, czy pacjenta boli gardło? • Istnieje wielka liczba możliwych symptomów, lecz spodziewamy się, że każdy pacjent ma tylko kilka z nich. Można stworzyć pewną liczbę zmiennych nomi nalnych; każda kolejna zmienna pozwala wtedy nazwać symptom występujący u pacjenta. Na przykład: jaki wy stąpił pierwszy symptom u pacjenta?, jaki był drugi symptom? Z góry trzeba tu zadecydować o maksymalnej liczbie symptomów, jakie mogą wystąpić u pacjenta. DANE NUMERYCZNE Dane numeryczne należy wprowadzać z taką samą dokład nością, z jaką zostały one zmierzone, a jednostka pomiaru powinna być jednakowa dla wszystkich obserwacji w obrę bie zmiennej. Na przykład, masa powinna być wyrażona w kilogramach lub funtach, lecz nigdy w obu jednostkach na zmianę. KILKA FORMULARZY DLA PACJENTA Czasami informacje zbiera się od tego samego pacjenta przy więcej niż jednej okazji. Ważne jest wtedy zapewnie nie tego samego, unikalnego identyfikatora (np. numeru se ryjnego) powiązanego z osobnikiem — umożliwia on połącze nie wszystkich danych uzyskanych w badaniu na temat tego osobnika. PROBLEMY Z DATAMI I CZASEM Daty i czas powinny być wprowadzane w sposób jednolity, np. albo jako dzień/miesiąc/rok, albo miesiąc/dzień/rok, ale nigdy wymiennie. Ważną sprawą jest znalezienie forma tu, jaki może być odczytywany przez pakiet statystyczny. 12 Opracowywanie danych

STRONA 13

KODOWANIE BRAKUJĄCYCH WARTOŚCI Przed rozpoczęciem wprowadzania danych należy rozważyć, co chce się zrobić z danymi brakującymi. W większości przy padków do reprezentowania brakujących danych trzeba użyć specjalnego symbolu. Pakiety statystyczne obsługują braki danych w rozmaity sposób. Niektóre z nich używają znaków specjalnych (np. kropka lub gwiazdka) do wskazania braku jących danych, podczas gdy inne wymagają zdefiniowania własnego kodu dla wartości brakującej (najczęściej stosowa ne wartości to 9,999 lub -99). Wybrana wartość musi być ta ką wartością, która nie może zaistnieć w tej zmiennej. Na przykład, przy wprowadzaniu zmiennej kategorialnej za wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re prezentowania wartości brakujących można wybrać kod 9. Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać inny kod. Zmienne brakujące zostaną dokładniej omówione w rozdziale 3. Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia. Dane zebrano w próbie 64 kobiet zarejestrowanych w centrum hemofilii w Londynie jako część badania nad wpływem wrodzonych zaburzeń krzepnięcia na cią żę i poród. Kobietom zadawano pytania związane z ich problemami krzepnięcia oraz pierwszą ciążą (lub ich obecną ciążą, jeżeli w trakcie przeprowadzanego wywia du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie wielką część danych po ich wprowadzeniu do arkusza kalkulacyjnego, lecz przed dokonaniem poprawek. Schematy kodowania dla zmiennych kategorialnych znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar kusza reprezentuje kolejny obiekt badania; każda kolum na przedstawia inną zmienną. Jeżeli kobieta jest nadal w ciąży, jej wiek w chwili porodu został przeliczony na podstawie oszacowanej daty narodzin dziecka. Dane związane z żywymi urodzeniami przedstawiono w roz dziale 37. Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie. 2. Wprowadzanie danych 13 PRZYKŁAD

STRONA 14

3 KONTROLA BŁĘDÓW I W każdym badaniu zawsze istnieje możliwość pojawienia się błędów w zbiorze danych albo w fazie początkowej pod czas dokonywania pomiarów, albo podczas ich zbierania, przepisywania czy wprowadzania do komputera. Jednakże liczbę błędów powstających przy wprowadzaniu i przepisy waniu można zredukować poprzez uważne sprawdzanie da nych po ich wprowadzeniu. Proste wzrokowe przejrzenie danych często pozwala wychwycić wartości, które są w spo sób oczywisty błędne. W tym rozdziale sugerujemy pewne techniki, których można używać przy sprawdzaniu danych. BŁĘDY PRZY WPROWADZANIU Najczęstszym źródłem błędów przy wprowadzaniu danych jest tzw. palcówka. Przy małej liczbie danych można je porów nać z danymi na oryginalnych formularzach/kwestionariu szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa dzaniu. Jednakże przy dużej liczbie danych procedura ta jest niezwykle czasochłonna. Można również dwukrotnie wprowa dzić te same dane i porównać oba pliki programem kompute rowym. Każda różnica między oboma zestawami danych wskazuje na błąd przy wprowadzaniu. Chociaż podejście to nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze stawach, lub tego, że sama wartość na formularzu/kwestiona riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie więcej czasu przy wprowadzaniu danych, co powoduje konse kwencje finansowe i czasowe. KONTROLA BŁĘDÓW • Dane kategorialne — Stosunkowo łatwo można spraw dzić dane kategorialne, skoro każda zmienna może przyjmo wać tylko jedną z ograniczonej liczby wartości. Dlatego też wartość niedozwolona musi być błędem. • Dane numeryczne — Dane numeryczne są często trud ne do sprawdzenia, a jednocześnie podatne na błędy. Na przykład, podczas wprowadzania danych numerycznych łatwo jest przestawić cyfry lub pozycję przecinka dziesięt nego. Dane numeryczne można sprawdzać przez badanie zakresu — dolnej i górnej granicy określonej dla danej zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za znaczona dla dalszego badania. • Daty — Często sprawdzenie poprawności daty jest trud ne, chociaż czasami wiadomo, że powinna ona należeć do pewnego okresu czasu. Daty można sprawdzać w celu upew nienia się, że są one prawidłowe. Na przykład, 30 lutego mu si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub każdy miesiąc powyżej 12. Można również stosować pewne reguły logiczne. Na przykład, data urodzin pacjenta powinna odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro dzić się przed włączeniem do badania (przynajmniej w więk szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin ni się pojawiać na kolejnych wizytach kontrolnych! Przy poprawianiu wszystkich błędów wartość powinna zostać zmieniona jedynie wtedy, gdy mamy dowód, że został 14 Opracowywanie danych popełniony błąd. Nie należy zmieniać wartości tylko dlatego, że wyglądają nietypowo. OPRACOWYWANIE DANYCH BRAKUJĄCYCH Zawsze istnieje możliwość wystąpienia braku niektórych da nych. Jeżeli brakuje dużej części danych, to mało prawdopo dobne jest uzyskanie wiarygodnych rezultatów. Należy za wsze zbadać przyczynę pojawiania się braków danych — jeżeli braki danych mają tendencję do skupiania się w pewnej zmiennej i/lub w określonej podgrupie obiektów, może to oznaczać, że zmienna nie jest stosowalna lub nigdy nie została pomierzona dla tej grupy osób badanych. Jeżeli to jest rzeczywistą przyczyną, może okazać się konieczne wykluczenie tej zmiennej lub grupy obiektów z analizy. Szczególne problemy możemy napotkać, kiedy szansa wystą pienia zmiennych brakujących jest silnie związana z najbar dziej interesującą nas w badaniu zmienną (np. zmienną wy nikową w analizie regresji — rozdział 27). W tej sytuacji nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż my na przykład, że jesteśmy zainteresowani pomiarem, któ ry odzwierciedla stan zdrowia pacjentów i dla niektórych pacjentów brakuje tej informacji, ponieważ nie czuli się wy starczająco dobrze, by pojawić się na zaplanowanej wizycie w klinice: jeżeli nie weźmiemy pod uwagę brakujących da nych w analizie, najprawdopodobniej otrzymamy zbyt opty mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe jest zredukowanie tego obciążenia przez zastosowanie odpo wiednich metod statystycznych1 lub przez oszacowanie jakąś metodą brakujących danych2 , jednakże najbardziej pożąda ną opcją jest minimalizacja od samego początku liczby bra kujących danych. WARTOŚCI ODSKAKUJĄCE Czym są wartości odskakujące? Wartości odskakujące są obserwacjami, które różnią się od większości danych i są niezgodne z pozostałymi danymi. Wartości te mogą być prawdziwymi obserwacjami osób ba danych z bardzo ekstremalnymi poziomami zmiennej. Jed nakże mogą też być wynikiem błędów przy wprowadzaniu lub błędnego doboru jednostek i dlatego należy sprawdzić wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie, czy w zbiorze danych mamy do czynienia z wartościami od skakującymi, gdyż mogą one mieć znaczący wpływ na wy niki niektórych typów analiz (rozdział 29). Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie stanowiła wartość odskakującą w większości zbiorów da nych. Chociaż wartość ta jest istotnie bardzo duża w porów naniu z przeciętnym wzrostem kobiet, może być wartością 1 Laird N. M.: Missing data in longitudinal studies. Statistics in Medicine, 1988, 7, 305-315. 2 Engels J. M., Diehr R: Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology, 2003, 56, 968-976.

STRONA 15

prawdziwą, a kobieta ta może być po prostu bardzo wysoka. W tym przypadku, zanim podejmiesz decyzję o ważności wy niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość, kontrolując inne zmienne, takie jak wiek i masa ciała. War tość powinna zostać zmieniona jedynie wtedy, gdy istnieje wyraźny dowód, że jest ona nieprawdziwa. Badanie wartości odskakujących Najprostszą metodą jest wydrukowanie danych i ich wzro kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie jest za duża i gdy potencjalna wartość odskakująca jest o wiele mniejsza lub o wiele większa od pozostałych danych. Badanie rozstępu również powinno pozwolić zidentyfikować możliwe wartości odskakujące. Alternatywę stanowi wykre ślenie w jakiś sposób danych (rozdział 4) — wartości odska kujące można łatwo identyfikować na histogramach i wy kresach rozrzutu (zobacz również dyskusję o wartościach odskakujących w analizie regresji w rozdziale 29). Radzenie sobie z wartościami odskakującymi Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub niższe, niż można się tego spodziewać. Jednakże włączenie wartości odskakujących może mieć wpływ na wyniki niektórych technik statystycznych. Pro stym wyjściem z tej sytuacji jest wykonanie analizy naj pierw przy uwzględnieniu, a potem przy wykluczeniu tych wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości odskakujące nie mają na nie wielkiego wpływu. Jednakże jeżeli wyniki drastycznie się zmieniają, należy zastosować odpowiednie metody, które podczas analizy da nych nie zostają zaburzane przez wartości odskakujące. Me tody te obejmują użycie transformacji (rozdział 9) i testów nieparametrycznych (rozdział 17). Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw dzany jesr w celu usunięcia błędów. Niektóre ze wskaza nych niezgodności su prostymi błędami popełnionymi przy wprowadzaniu. Na przykład, kod „41" w kolumnie „płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni ka z pominięcia informacji o pici: pozostała część danych pacjentki 20. została wprowadzona do nieprawidłowych kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach wieku ciążowego i masy ciała) też są najprawdopodobniej błędami, lecz przed powzięciem decyzji należy sprawdzić materiały źródłowe, jako że mogą one być prawdziwymi wartościami odskakującymi. W naszym przykładzie wiek ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie można było odnaleźć prawidłowej masy ciała tego dziecka, wartość wprowadzono jako brakującą. 3. Kontrola błędów i wartości odskakujące ' 15 Rycina 3.1. Kontrola błędów w zestawie danych.

STRONA 16

4 GRAFICZNA PREZENTACJA DANYCH Jedną z pierwszych rzeczy, które przydają się po wprowa dzeniu danych do komputera, jest jakaś forma ich podsumo wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić za pomocą diagramów, tabel i statystyk podsumowujących (rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia mi do przedstawiania danych, tworzenia prostych, podsumo wujących rycin oraz wykrywania wartości odskakujących i trendów, zanim zostaną przeprowadzone jakiekolwiek for malne analizy. JEDNA ZMIENNA Rozkłady częstości Empiryczny rozkład częstości zmiennej wiąże każdą moż liwą obserwację, klasę obserwacji (tj. zakres wartości) lub kategorię z obserwowaną częstością jej pojawiania się. Je żeli zastąpimy każdą częstość przez częstość względną (procent całkowitej częstości), możemy porównywać rozkła dy częstości w dwóch lub więcej grupach osób badanych. Prezentacja rozkładów częstości Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla danych kategorialnych lub niektórych numerycznych dys kretnych, możemy je przedstawić graficznie. • Wykres słupkowy lub kolumnowy — dla każdej katego rii rysujemy osobny pionowy lub poziomy słupek, którego dłu gość jest proporcjonalna do częstości występowania danych w tej kategorii. Słupki oddzielamy małymi przerwami, aby wskazać, że dane są kategorialne lub dyskretne (rycina 41a). • Wykres kołowy — dzielimy kółko na sekcje, po jednej dla każdej kategorii, tak by powierzchnia każdej sekcji była proporcjonalna do częstości występowania danych w tej ka tegorii (rycina 4.Ib). Często trudniej jest przedstawić dane numeryczne cią gle, gdyż najpierw muszą być one wstępnie opisane suma rycznie. Najczęściej stosuje się następujące diagramy: • Histogram — jest podobny do wykresu słupkowego, ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin no być przerw (rycina 4.Id). Szerokość każdego słupka jest uzależniona od zakresu wartości dla danej zmiennej. Na przykład, masa ciała dziecka (rycina 4.Id) może być ska tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg, ..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna do częstości występowania danych w tym zakresie. Dlatego, jeżeli jedna grupa pokrywa szerszy zakres wartości niż in ne, jej podstawa będzie szersza, a wysokość mniejsza. Zwykle stosuje się od 5 do 20 grup: zakresy powinny być na tyle wąskie, by mogły zilustrować charakterystyczne Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2). (a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro- dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y). 16 Opracowywanie danych

STRONA 17

3 665 53 9751 955410 987655 9531100 731 99843110 654400 6 7 10 dipropionian beklometazonu 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 0,4 39 99 1135677999 0148 00338899 001355 00114569 6 01 19 placebo Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21). wzory w rozkładzie danych, lecz nie aż tak wąskie, by przedstawiały indywidualne dane. Histogram powinien zo stać opisany starannie, tak aby granice między kategoriami byty wyraźnie zdefiniowane. • Wykres punktowy — każda obserwacja jest reprezen towana przez jedną kropkę na poziomej (lub pionowej) linii (rycina 4.1e). Jest to bardzo prosty sposób przedstawiania danych, lecz może być niewygodny przy dużych zbiorach. Często na diagramach pokazuje się miarę zbiorczą, taką jak średnia czy mediana (rozdział 5). Taki typ wykresu może być stosowany również dla danych dyskretnych. • Wykres typu „łodyga z liśćmi" — jest to połączenie diagramu i tablicy; przypomina histogram położony na boku i jest faktycznie zbiorem wartości danych zapisanych w kie runku rosnącym. Zazwyczaj rysuje się pionową „łodygę", złożoną z pierwszych kilku cyfr mierzonych wartości, upo rządkowanych w jakimś kierunku. Z „łodygi" wystają „li ście" — tj. końcowe cyfry każdej uporządkowanej wielkości, które zapisujemy w układzie poziomym (rycina 4.2) we wzrastającym porządku numerycznym. • Wykres skrzynkowy (zwany często „pudełkiem z wą sami") — jest to ustawiony pionowo lub poziomo prostokąt, którego boki odpowiadają górnemu lub dolnemu kwartylowi wartości pomiarowych (rozdział 6). Linia przeprowadzona przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo czynające się na bokach prostokąta zazwyczaj reprezentują wartości minimalną i maksymalną, lecz czasami oznaczają odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty (rozdział 6, rycina 6.1). Na wykresie tym można również za znaczyć wartości odskakujące. Kształt rozkładu częstości Wybór najodpowiedniejszej metody statystycznej często za leży od kształtu rozkładu. Rozkład danych jest najczęściej jednomodalny, przez co posiada jeden pik. Czasami rozkład jest bimodalny (dwa piki) lub równomierny (każda wartość jest jednakowo prawdopodobna, na skutek czego nie wystę puje żaden pik). W przypadku rozkładu jednomodalnego za sadniczym celem jest wskazanie, gdzie leży większość da nych w stosunku do wartości maksymalnej i minimalnej. W szczególności należy oszacować, czy rozkład jest: • symetryczny — scentrowany wokół pewnego punktu środkowego, z jedną stroną będącą lustrzanym odbiciem drugiej strony (rycina 5.1); • przekrzywiony w prawo (dodatnio skośny) — ma dłu gi ogon złożony z jednej lub większej liczby wysokich war tości. Takie dane są często spotykane w badaniach medycz nych (rycina 5.2); • przekrzywiony w lewo (ujemnie skośny) — ma długi ogon złożony z jednej lub większej liczby niskich wartości (rycina 4.Id). DWIE ZMIENNE Jeżeli jedna zmienna jest kategorialna, możemy narysować osobne diagramy pokazujące rozkłady drugiej zmiennej dla każdej z kategorii. Inne wykresy odpowiednie dla takich da nych to wykresy słupkowe, kolumnowe klasteryzowane lub segmentowane (rycina 4.1c). Jeżeli obie zmienne są numeryczne lub porządkowe, można przedstawić związek między nimi za pomocą wykre su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym wykreśla się wartość jednej zmiennej w zależności od dru giej. Jedna zmienna jest zwykle nazywana zmienną x i jest przedstawiana na osi poziomej. Druga zmienna, nazywana zmienną y, jest wykreślana na osi pionowej. IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH METODAMI GRAFICZNYMI Często wartości skrajne możemy wykrywać przy użyciu pre zentacji danych jednej zmiennej. Na przykład, bardzo długi ogon po jednej stronie histogramu może wskazywać na war tość odskakującą. Jednakże czasami wartości odskakujące stają się widoczne dopiero wtedy, gdy analizujemy związek pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie nieprawdopodobnie niska u kobiety o wzroście 1,9 m. 4. Graficzna prezentacja danych 17

STRONA 18

5 OPIS DANYCH: WARTOŚĆ PRZECIĘTNA PODSUMOWYWANIE DANYCH Bardzo trudno jest mieć jakiekolwiek „wyczucie" co do zbio ru pomiarów numerycznych, chyba że możemy je w jakiś znaczący sposób podsumować. Użytecznym punktem wyjścia jest często diagram (rozdział 4). Konstruując miary, które opisują ważne charakterystyki danych, możemy również in formację skondensować. W szczególności, jeżeli mamy jakieś spostrzeżenie na temat tego, co stanowi wartość reprezenta tywną i jeżeli wiemy jak szeroko wokół niej są rozrzucone wartości, możemy stworzyć pewien obraz danych. Wartość przeciętna jest ogólnym określeniem miary położenia; opi suje ona typowy pomiar. Ten rozdział poświęcamy miarom przeciętnym, z których najczęściej używa się średniej i me diany (tabela 5.1). W rozdziale 6 wprowadzimy miary, które opisują rozrzut lub rozproszenie obserwacji. ŚREDNIA ARYTMETYCZNA Średnia arytmetyczna (często po prostu zwana średnią) zbioru wartości jest obliczana przez dodanie do siebie wszystkich wartości i podzielenie tej sumy przez liczbę war tości w zbiorze. Rzeczą przydatną jest streszczenie tego słownego opisu przez wzór algebraiczny. Stosując notację matematyczną, za pisujemy nasz zbiór n wartości zmiennej xjako xx , x2 , x3 ,..., xn . Na przykład, jeżeli x reprezentuje wzrost osobnika (cm), to Xj przedstawia wzrost pierwszego osobnika, a xt —wzrost /tego osobnika itd. Możemy zapisać wzór na średnią arytme tyczną obserwacji, oznaczając ją symbolem x, w postaci: Stosując notację matematyczną, zapis możemy skrócić do: gdzie Z (duża grecka litera sigma) oznacza sumę, nato miast dolny oraz górny indeks przy Z wskazuje, że sumuje my wartości od i = 1 do n. Ta postać jest często dalej skra cana do formy: MEDIANA Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo czynając od najmniejszej wartości i kończąc na największej, wtedy medianą będzie wartość środkowa uporządkowane go szeregu. Mediana dzieli uporządkowany zbiór wartości na dwie polowy, z równą liczbą wartości powyżej i poniżej mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją w uporządkowanym szeregu. Tak więc, jeśli na przykład n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy ściśle mówiąc, mediana nie istnieje. Jednakże wtedy obliczamy ją zazwyczaj jako średnią arytmetyczną dwóch środkowych obserwacji w uporządkowanym szeregu danych [tj. n/2 i (n/2 + 1)]. Tak więc, jeżeli na przykład n - 20, to mediana jest średnią arytmetyczną z 20/2 =10 oraz (20/2 + D = = (10 + 1) = 11 (dziesiątej i jedenastej wartości) w uporząd kowanym szeregu danych. Mediana jest zbliżona do średniej, jeżeli dane mają roz kład symetryczny (rycina 5.1), jest mniejsza niż średnia, gdy dane mają rozkład prawoskośny (rycina 5.2), natomiast większa niż średnia przy rozkładzie lewoskośnym. WARTOŚĆ MODALNA Wartość modalna jest wartością najczęściej pojawiającą się w zbiorze danych; jeżeli dane są ciągłe, zazwyczaj je grupu jemy i obliczamy modalną dla grup. Niektóre zbiory danych nie mają wartości modalnej, ponieważ każda wartość poja wia się tylko raz. Czasami występuje więcej niż jedna war tość modaina; dzieje się tak wtedy, gdy dwie lub więcej wartości pojawiają się taką samą liczbę razy, a częstość wy stępowania każdej z nich jest większa niż częstość wystę powania każdej innej wartości. Wartość modalna jest rzad ko stosowana jako miara podsumowująca. ŚREDNIA GEOMETRYCZNA Średnia arytmetyczna nie jest odpowiednią miarą położe nia, jeżeli dane są skośne. Jeżeli dane są prawoskośne, możemy uczynić rozkład bardziej symetrycznym poprzez zlogarytmowanie (z podstawą dziesiętną lub naturalną) każdej wartości w szeregu danych (rozdział 9). Średnia arytmetyczna wartości zlogarytmowanych jest miarą poło żenia danych przetransformowanych. Aby otrzymać miarę, która będzie miała takie same jednostki jak oryginalne ob serwacje, musimy dokonać transformacji odwrotnej (tj. wziąć antylogarytm) średniej z logarytmów danych; miarę tę nazywamy średnią geometryczną. Przy założeniu, że rozkład danych zlogarytmowanych jest w przybliżeniu sy metryczny, średnia geometryczna jest zbliżona do media ny i mniejsza niż wartość średnia z surowych danych (ry cina 5.2). ŚREDNIA WAŻONA Średniej ważonej używamy wtedy, gdy pewne wartości in teresującej nas zmiennej są ważniejsze niż inne. W celu uwidocznienia stopnia ważności dołączamy wagi w{ do każ dej wartości x; z naszej próbki. Jeżeli wartości xn mają odpowiadające wagi średnia wa żona jest określona jako: 18 Opracowywanie danych

STRONA 19

Tablica 5.1. Zalety i wady miar przeciętnych. Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja ko że rozkład wartości oznaczających wiek wygląda na symetrycz ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje przerywana linia. Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój- glicerydów w próbie 232 mężczyzn, którzy przebyli zawał serca 'rozdział 19). Jako że rozkład wartości oznaczających poziom trój- źhcerydów jest prawoskośny, średnia daje wyższe wartości prze ciętne niż mediana lub średnia geometryczna. Miara przeciętna Zalety Średnia • Można ją stosować w przypadku wszystkich wartości. • Zdefiniowana algebra icznie, łatwa w algo- rytmizacji. • Znany rozkład próbko wania (rozdział 9). Mediana • Nie jest zniekształca na przez wartości odskakujące. • Nie zniekształcana przez dane skośne. Modalna • Łatwo daje się wyzna czać dla danych kate- gorialnych. Średnia • Przed transformacją geome- odwrotną ma takie tryczna same zalety jak średnia. • Odpowiednia dla roz kładów prawoskośnych. Średnia • Takie same zalety jak ważona średnia. • Przypisuje względną wagę do każdej obser wacji. • Zdefiniowana algebra icznie. Wady • Zniekształcana przez wartości odskakujące. • Zniekształcana w przy padku rozkładów sko śnych. * Pomija większość do stępnych informacji. • Nie zdefiniowana alge braicznie. • Skomplikowany rozkład próbkowania. • Pomija większość do stępnych informacji. • Nie zdefiniowana alge braicznie. • Nieznany rozkład prób kowania. • Daje się stosować jedy nie w przypadku, gdy transformacja logaryt miczna wytwarza roz kład symetryczny. • Wagi muszą być znane lub oszacowane. Na przykład, przypuśćmy, że jesteśmy zainteresowani wyznaczeniem średniego czasu pobytu pacjentów hospitali zowanych w szpitalach w okręgu i znamy średni czas zwol nienia pacjentów do domu w każdym szpitalu. Jedną z moż liwości będzie uwzględnienie jako wagi liczby pacjentów w każdym ze szpitali. Średnia ważona i średnia arytmetyczna są identyczne, gdy każda waga jest równa jedności. 5. Opis danych: wartość przeciętna 19 Wiek matki w chwili narodzin dziecka (w latach) Poziom trójolicerydów (mmol/L)

STRONA 20

6 OPIS DANYCH: ROZPROSZENIE PODSUMOWYWANIE DANYCH Jeżeli jesteśmy w stanie wyznaczyć dwie miary podsumo wujące dla zmiennej ciągłej — jedną, która wskazuje war tość przeciętną i drugą opisującą rozproszenie danych — Wtedy dokonujemy kondensacji danych w sposób znaczący. W rozdziale 5 wytłumaczyłyśmy, jak dobrać odpowiednią miarę przeciętną. Ten rozdział poświęcamy omówieniu naj bardziej znanych miar rozproszenia (dyspersji lub zmien ności), które to miary zostały porównane w tablicy 6.1. Rozstęp jest różnicą między największą i najmniejszą wartością w zbiorze danych; często podaje się te dwie war tości zamiast ich różnicy. Trzeba zauważyć, że rozstęp daje mylącą wielkość rozproszenia, gdy w danych znajdują się wartości odskakujące (rozdział 3). ROZSTĘPY UZYSKIWANE Z PERCENTYLI Czym są percentyle? Przypuśćmy, że uporządkowaliśmy dane w kierunku wzro stu ich wielkości, rozpoczynając od wartości najmniejszej i kończąc na największej. Wartość zmiennej x, poniżej któ rej w uporządkowanym szeregu znajduje się 1% wartości (a 99% wartości leży powyżej), jest zwana pierwszym per- centylem. Wartość x, poniżej której leży 2% obserwacji, zwana jest drugim percentylem itd. Wartości x, które dzie lą uporządkowany zbiór na 10 równych pod względem licz by części, tj. dziesiąty, dwudziesty, trzydziesty,... dziewięć dziesiąty percentyl zwane są decylami. Wartości, które dzielą uporządkowany zbiór na cztery równe pod względem liczby części, tj. dwudziesty piąty, pięćdziesiąty i siedem dziesiąty piąty percentyl nazywamy kwartylami. Pięćdzie siąty centyl jest medianą (rozdział 5). Posługiwanie się percentylami Miarę rozproszenia niezaburzaną przez wartości skrajne możemy uzyskać, wykluczając wartości ekstremalne w zbiorze danych i wyznaczając rozstęp dla pozostałych ob serwacji. Rozstęp międzykwartylowy definiujemy jako róż nicę między pierwszym i trzecim kwartylem, tj. pomiędzy dwudziestym piątym i siedemdziesiątym piątym percenty lem (rycina 6.1). Zawiera on centralnych 50% obserwacji z uporządkowanego szeregu, 25% obserwacji leży poniżej je go dolnej granicy, a 25% — powyżej jego górnej granicy. Rozstęp międzydecylowy zawiera 80% centralnych obser wacji, tj. leżące między dziesiątym i dziewięćdziesiątym percentylem. Często używa się rozstępu zawierającego 95% centralnych obserwacji, tj. wykluczających 2,5% obserwacji powyżej jego górnej granicy i 2,5% poniżej dolnej granicy (rycina 6.1). Możemy używać tego przedziału do diagnozo wania choroby, przy założeniu, że jest on wyznaczony i wy starczającej liczby wartości zmiennej dla osób zdrowych. Jest on często określany jako przedział odniesienia, zakres odniesienia lub zakres normalny (rozdział 38). WARIANCJA Jedną z metod mierzenia rozproszenia danych jest wyzna czenie, w jakim stopniu każda z obserwacji jest oddalona od średniej arytmetycznej. Oczywiście, im większe są te od ległości, tym większa jest zmienność obserwacji. Nie może my jednak używać średniej arytmetycznej tych odległości jako miary rozproszenia, gdyż dodatnie różnice dokładnie pokryją się z różnicami ujemnymi. Problem ten możemy obejść przez podniesienie każdej odległości do kwadratu i znalezienie średniej z kwadratów odległości (rycina 6.2); wielkość tę nazywamy wariancją. Jeżeli mamy próbę n obserwacji xlT x2, x3, ..., xn, dla których średnia wynosi Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka (rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi mum i minimum. Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości wieku matki w chwili porodu (rozdział 2) wokół wartości średniej. Wariancja jest obliczana przez dodanie podniesionych do kwadratu odległości między poszczególnymi punktami a średnią i następnie podzielenie przez (n - 1). 20 Opracowywanie danych

STRONA 21

i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle omaczoną pr2ez s2 , jako Jak widać, nie jest to dokładnie sama średnia arytme tyczna kwadratów odległości, ponieważ dokonujemy dziele nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że w naszych badaniach niemal zawsze opieramy się na próbie danych (rozdział 10). Można wykazać teoretycznie, że otrzy mamy lepsze oszacowanie wariancji w populacji, gdy doko namy dzielenia przez (n- 1). Jednostką wariancji jest jednostka oryginalnej obserwa cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona jest w kg, jednostką wariancji jest kg2 . ODCHYLENIE STANDARDOWE Odchylenie standardowe jest pierwiastkiem kwadratowym 2 wariancji. W próbie n obserwacji jest równe: Możemy wyobrazić sobie odchylenie standardowe jako rodzaj wartości przeciętnej odległości obserwacji od warto ści średniej. Jest ono wyrażone w tych samych jednostkach, co dane surowe. Jeżeli podzielimy odchylenie standardowe przez wartość średnią i wyrazimy ten iloraz w procentach, otrzymamy tzw. współczynnik zmienności. Jest on miarą rozproszenia niezależną od jednostek, lecz powoduje pewne teoretyczne niedogodności, na skutek czego nie jest lubiany przez staty styków. ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW I MIĘDZY NIMI Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla jednego osobnika, możemy się spodziewać, że wystąpi pew na zmienność (zmienność wewnątrzgrupowa) między jego wynikami. Może się to zdarzyć dlatego, że dany osobnik nie zawsze odpowiada w dokładnie ten sam sposób i/lub z powodu błędu pomiarowego. Jednakże wariancja we wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą wyznaczymy, biorąc pojedynczy pomiar każdego osobnika w grupie (zmienność międzygrupowa). Na przykład, 17-let- ni chłopiec ma pojemność życiową płuc pomiędzy 3,60 a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie. Wartość pojedynczych pomiarów zebranych u 10 chłopców w tym samym wieku zawiera się natomiast między 2,98 a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz dział 13). Tablica 6.1. Zalety i wady miar rozproszenia. Miara rozproszenia Rozstęp Rozstęp oparty o percentyle Wariancja Odchylenie standardowe Zalety • Łatwo daje się wy znaczyć. • Zazwyczaj nie znie kształcany przez wartości odskakujące. • Niezależny od wiel kości próby. • Odpowiedni dla danych skośnych. • Wykorzystuje wszystkie wartości. • Zdefiniowana alge braicznie. • Te same zalety jak wariancji. • Jednostka miary jest taka sama jak jedno stka pomiaru surowego. • Łatwe w interpretacji. Wady • Można go stosować w przypadku tylko dwóch wartości. • Zniekształcany przez wartości odskakujące. • Ma tendencję do wzro stu, gdy rośnie wiel kość próby. • Trudny do policzenia. • Nie może być stosowany dla małych prób. • Bierze pod uwagę jedy nie dwie wartości. • Niezdefiniowany alge braicznie. • Jednostka miary jest kwadratem jednostki pomiaru surowego. • Czułe na wartości odskakujące. • Niewłaściwe dla danych skośnych. 6. Opis danych: rozproszenie 21

STRONA 22

7 ROZKŁADY TEORETYCZNE: ROZKŁAD NORMALNY W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych utworzyć empiryczny rozkład częstości. Rozkład ten kontra stuje z teoretycznym rozkładem prawdopodobieństwa, który jest opisany modelem matematycznym. Jeżeli nasz ekspery mentalny rozkład przybliża jakiś szczególny rozkład częstotli wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym rozkładzie do udzielenia odpowiedzi na temat danych. Często trzeba w tym celu obliczyć prawdopodobieństwo. ZROZUMIENIE PRAWDOPODOBIEŃSTWA Prawdopodobieństwo (prób — probability) jest miarą nie pewności; leży u podstaw teorii statystyki. Mierzy ono szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają cego (zdarzenia niepojawiającego się) jest równe jeden mi nus prawdopodobieństwo zdarzenia pojawiającego się. Prawdopodobieństwo zdarzenia warunkowego, tzn. praw dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło inne zdarzenie, omówimy w rozdziale 45. Prawdopodobieństwo możemy wyznaczyć, stosując róż ne podejścia. • Subiektywne — stopień naszej osobistej wiary, że zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec 2050 roku). • Częstościowe — proporcja liczby zdarzeń zjawiska przy eksperymencie powtarzanym wielką liczbę razy (np. ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie zafałszowanej monety). • Aprioryczne — wymaga znajomości modelu teoretycz nego, zwanego rozkładem częstości, który opisuje prawdo podobieństwa wszystkich możliwych wyników eksperymen tu. Na przykład, teoria genetyczna pozwala opisać rozkład prawdopodobieństwa otrzymania określonego koloru oczu u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny o oczach brązowych. Odbywa się to przez wyszczególnienie wszystkich możliwych genotypów koloru oczu i prawdopo dobieństw ich wystąpienia. REGUŁY PRAWDOPODOBIEŃSTWA Możemy stosować reguły dodawania i mnożenia prawdopo dobieństw. • Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza jemnie się wykluczają (tzn. każde wystąpienie jednego zda rzenia wyklucza pojawienie się drugiego), wtedy prawdopo dobieństwo pojawienia się jednego lub drugiego zdarzenia jest równe sumie prawdopodobieństw pojawienia się każde go ze zdarzeń. Prób (A lub B) = Prób (A) + Prób (B) Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie dentystycznym pojawi się dorosły pacjent bez brakujących zębów, z niektórymi brakującymi zębami lub bezzębny (tzn. nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09, wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi 0,67 + 0,24 = 0,91. • Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są niezależne (tj. wystąpienie jednego ze zdarzeń nie warun kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że zajdą oba zdarzenia, jest równe iloczynowi prawdopodo bieństw zajścia każdego z nich: Prób (A i B) = Prob(A) x ProWB) Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi rurga stomatologicznego, prawdopodobieństwo, że obaj nie mają brakujących zębów wynosi 0,67 x 0,67 = 0,45. ROZKŁADY PRAWDOPODOBIEŃSTWA: TEORIA Zmienna losowa jest wielkością, którą może przyjąć każda ze zbioru wzajemnie wykluczających się wielkości z określonym prawdopodobieństwem. Rozkład prawdopodobieństwa poka zuje prawdopodobieństwa wszystkich możliwych wartości zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma tematycznie, posiadający średnią i wariancję, podobnie jak posiada je rozkład empiryczny. Każdy rozkład prawdopodo bieństwa jest zdefiniowany pewnymi parametrami, które są miarami podsumowującymi (np. średnia, wariancja), charak teryzującymi ten rozkład (tzn. znajomość tych parametrów pozwala w pełni opisać rozkład). Parametry te są oszacowy wane w próbie przez odpowiednie statystyki. W zależności od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz kład prawdopodobieństwa może być dyskretny lub ciągły. • Dyskretny (np. dwumianowy, Poissona) — możemy otrzymać prawdopodobieństwa odpowiadające każdej moż liwej wartości zmiennej losowej. Suma wszystkich tych prawdopodobieństw wynosi jeden. • Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy jedynie wyznaczyć prawdopodobieństwo, że zmienna loso wa x przybierze wartość z pewnego przedziału (ponieważ istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma oś przedstawia wartości x, możemy narysować krzywą z równania rozkładu (funkcja gęstości rozkładu prawdopo dobieństwa); przypomina ona empiryczny, względny roz- Catkowite pole pod krzywą = 1 (lub 100%) Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x. 22 Opracowywanie danych

STRONA 23

Rycina 7.2. Funkcja gęstości praw dopodobieństwa rozkładu normalne go zmiennej x. (a) Symetryczna wokói średniej fi: wariancja = a 2 . (b) Efekt zmiany średniej (c) Efekt zmiany wariancj: Rycina 7.3. Pola (procenty całkowitego prawdopodobieństwa) pod krzywą dla (a) rozkładu normalnego x, ze średnią fi i wariancją a2 , i

STRONA 24

8 ROZKŁADY TEORETYCZNE: INNE ROZKŁADY PARĘ SŁÓW USPOKOJENIA Teoria dotycząca rozkładów prawdopodobieństwa może wy dać się złożona. Z naszego doświadczenia wiemy, że chciał byś jedynie wiedzieć, kiedy i jak ich użyć. Dlatego naszki cowałyśmy jedynie najważniejsze elementy, a ominęłyśmy wzory definiujące rozkłady prawdopodobieństwa. Ich zrozumienie wymaga jedynie znajomości podstawowych po jęć, terminologii i prawdopodobnie (chociaż w dobie kompu terów rzadko), umiejętności korzystania z tablic. INNE CIĄGŁE ROZKŁADY PRAWDOPODOBIEŃSTWA Rozkłady te oparte 5ą na ciągłych zmiennych losowych. Czę sto nie sama zmienna mierzona, lecz statystyka otrzymana z tej zmiennej podlega takiemu rozkładowi. Całkowite pole pod krzywą funkcji rozkładu prawdopodobieństwa repre zentuje prawdopodobieństwo otrzymania wszystkich możli wych wyników i jest równe jeden (rozdział 7). Rozkład nor malny omówiłyśmy w rozdziale 7; inne rozkłady są opisane w tym rozdziale. Rozkład t (Dodatek A2, rycina 8.1) • Opisany przez W. S. Gossetta, który publikował pod pseu donimem „Student"; jest często zwany rozkładem f-Studenta. • Parametrem charakteryzującym rozkład t jest liczba stopni swobody: możemy wykreślić funkcję gęstości praw dopodobieństwa, jeżeli znamy równanie rozkładu t i liczbę stopni swobody. Liczbę stopni swobody omawiamy w roz dziale 11; należy zwrócić uwagę, że są one często blisko po wiązane z wielkością próby. • Jego kształt jest podobny do standaryzowanego rozkła du normalnego, lecz jest bardziej rozciągnięty (ma dłuższe ogony). Kształt ten przybliża się do rozkładu normalnego, w miarę jak rośnie liczba stopni swobody. • Jest szczególnie użyteczny do obliczania przedziałów ufności i testowania hipotez o jednej lub dwóch średnich (rozdziały 19-21). Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500. 24 Opracowywanie danych Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2) • Jest rozkładem prawoskośnym, przybierającym warto ści dodatnie. • Jest określony przez liczbę stopni swobody (rozdział 11). • Jego kształt zależy od liczby stopni swobody; staje się bardziej symetryczny i przybliża się do rozkładu normalne go, w miarę jak wzrasta liczba stopni swobody. • Jest szczególnie przydatny do analizy danych katego- rialnych (rozdziały 23-25). Rozkład F (Dodatek A5) • Jest prawoskośny. • Jest zdefiniowany przez proporcje. Rozkład stosunku dwóch oszacowywanych wariancji obliczonych z danych o rozkładzie normalnym przybliża rozkład F. • Dwa parametry, które charakteryzują ten rozkład, to liczby stopni swobody (rozdział 11) licznika i mianownika proporcji. • Rozkład F jest szczególnie przydatny przy porównywa niu dwóch wariancji (rozdział 18) oraz więcej niż dwóch śred nich przy użyciu analizy wariancji (ANOVA, rozdział 22). Rozkład lognormalny • Jest rozkładem prawdopodobieństwa zmiennej loso wej, której logarytm (o podstawie 10 lub e) podlega rozkła dowi normalnemu. • Jest silnie prawoskośny (rycina 8.3a). • Jeżeli obliczymy logarytm z naszych surowych danych, które są prawoskośne, i otrzymujemy rozkład empiryczny o kształcie zbliżonym do normalnego (rycina 8.3b), to nasze dane przybliżają rozkład lognormalny. • Wiele zmiennych w medycynie podlega rozkładowi lognormalnemu. Po transformacji tych zmiennych poprzez obliczenie logarytmów możemy wykorzystać właściwości rozkładu normalnego do wnioskowania o tych zmiennych (rozdział 7). • Jeżeli dane mają rozkład lognormalny, możemy użyć średniej geometrycznej (rozdział 5) jako podsumowującej miary położenia. Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1, 2, 5 i 10.

STRONA 25

Rycina 8.3. (a) Rozkład lognormalny poziomów trójglicerydów u 232 męż czyzn, u których wystąpiła choroba serca (rozdział 19); (b) przybliżony roz kład normalny wartości log10 (poziom trójglicerydów). Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu). DYSKRETNE ROZKŁADY PRAWDOPODOBIEŃSTWA Zmienna losowa, która określa rozkład prawdopodobieństwa, jest dyskretna. Suma prawdopodobieństw wszystkich wza jemnie wykluczających się zdarzeń równa się jeden. Rozkład dwumianowy • Przypuśćmy, że w danej sytuacji są możliwe tylko dwa wyniki: „sukces" lub „porażka". Na przykład, jesteśmy zain teresowani, czy po sztucznym zapłodnieniu in vitro (IVF) ko bieta pocznie dziecko (sukces), czy też nie (porażka). Jeżeli weźmiemy n - 100 niespokrewnionych kobiet podlegających IVF (każda z tym samym prawdopodobieństwem poczęcia), obserwowana liczba poczęć (sukcesów) będzie losową zmien ną binomialną. Często koncepcja tego rozkładu jest wyjaśnia na poprzez n niezależnych powtórzeń eksperymentu (np. 100 rzutów monetą), w którym wynik jest albo sukcesem (np. orzeł), albo porażką. • Dwoma parametrami, które opisują rozkład dwumiano wy, są n, liczba osobników w próbie (lub powtórzeń ekspery mentu), oraz 7Z, prawdziwe prawdopodobieństwo sukcesu dla każdego osobnika (lub każdego eksperymentu). • Jego średnia (wartość zmiennej losowej, której spo dziewamy się po analizie n osobników lub po powtórzeniu eksperymentu n razy) wynosi rut. Jego wariancja wynosi nnd-n). • Dla małego n rozkład jest prawoskośny, gdy n < 0,5, i lewoskośny, gdy JC > 0,5. Rozkład staje się bardziej syme tryczny, gdy rośnie wielkość próby (rycina 8.4), i przybliża rozkład normalny, jeżeli zarówno nn, jak i n(l- jr) są więk sze niż 5. • Rozkładu dwumianowego możemy użyć, gdy wniosku jemy o proporcjach. W szczególności, gdy analizujemy pro porcje, często używamy przybliżenia normalnego rozkładu dwumianowego. Rozkład Poissona • Zmienna losowa Poissona jest liczbą zdarzeń pojawiają cych się niezależnie i losowo w czasie lub przestrzeni z pew ną średnią częstością^. Na przykład, dzienna liczba przyjęć do szpitala podlega rozkładowi Poissona. Możemy użyć naszej wiedzy o rozkładzie Poissona do wyznaczenia prawdopodo bieństwa pewnej liczby przyjęć określonego dnia. • Parametrem opisującym rozkład Poissona jest średnia, tzn. przeciętna częstość fi. • W rozkładzie Poissona średnia równa się wariancji. • Jest to rozkład prawoskośny, gdy średnia jest mała, lecz staje się coraz bardziej symetryczny, gdy średnia rośnie; przybliża wtedy rozkład normalny. 8. Rozkłady teoretyczne: inne rozkłady 25

Rozmiar :	2.2 MB
Rozszerzenie:	pdf

zaneta_l