Medical Statistics
at a Glance
Aviva Petrie
Head of Biostatistics Unit and Senior Lecturer
Eastman Dental Institute
University College London
256 Grays Inn Road
London WC1X 8LD and
Honorary Lecturer in Medical Statistics
Medical Statistics Unit
London School of Hygiene and Tropical Medicine
Keppel Street
London WC1E7HT
Caroline Sabin
Prof essor of Medical Statistics and Epidemiology
Department of Primary Care and Population Sciences
Royal Free and University College Medical School
Rowland Hill Street
London NW3 2PF
Second edition
Aviva Petrie, Caroline Sabin
Statystyka
medyczna
w zarysie
Ttumaczenie prof. dr hab. J e r z y M o c z k o
SPIS TREŚCI
Przedmowa tłumacza 6
Wstęp 8
Opracowywanie danych
1 Rodzaje danych 10
2 Wprowadzanie danych 12
3 Kontrola błędów i wartości odskakujące . . . 14
4 Graficzna prezentacja danych 16
5 Opis danych: wartość przeciętna 18
6 Opis danych: rozproszenie 20
7 Rozkłady teoretyczne: rozkład normalny . . . 22
8 Rozkłady teoretyczne: inne rozkłady 24
9 Transformacje 26
Próbkowanie i estymacja
10 Próbkowanie i rozkłady próbkowania 28
11 Przedziały ufności 30
Planowanie badania
12 Planowanie badania I 32
13 Planowanie badania II 34
14 Eksperymenty kliniczne 36
15 Badania kohortowe 39
16 Badania przypadek-kontrola 42
Testowanie hipotez
17 Testowanie hipotez 44
18 Błędy w testowaniu hipotez 46
Podstawowe techniki analizy danych
Dane numeryczne
19 Dane numeryczne: pojedyncza grupa 48
20 Dane numeryczne: dwie grupy powiązane . . 51
21 Dane numeryczne: dwie grupy niepowiązane . 54
22 Dane numeryczne: więcej niż dwie grupy . . 57
Dane kategorialne
23 Dane kategorialne: pojedyncza proporcja . . . 60
24 Dane kategorialne: dwie proporcje 64
25 Dane kategorialne: więcej niż dwie kategorie . 66
Regresja i korelacja
26 Korelacja 69
27 Teoria regresji liniowej . . . ., 72
28 Przeprowadzanie analizy regresji liniowej . . 74
29 Wielokrotna regresja liniowa 78
30 Wyniki binarne i regresja logistyczna . . . . 81
31 Częstości i regresja Poissona 84
32 Uogólnione modele liniowe 88
33 Zmienne wyjaśniające w modelach
statystycznych 90
34 Zagadnienia związane z modelowaniem
statystycznym 93
Ważne zagadnienia
35 Sprawdzanie założeń 96
36 Wyznaczanie wielkości próby 98
37 Prezentacja wyników 101
Zagadnienia dodatkowe
38 Narzędzia diagnostyczne 104
39 Szacowanie zgodności 107
40 Medycyna poparta dowodami 110
41 Metody dla danych klasteryzowanych . . . . 112
42 Metody regresji dla danych klasteryzowanych 115
43 Przeglądy systematyczne i metaanaliza . . . . 118
44 Analiza przeżycia 121
45 Metody Bayesowskie 124
Dodatki
A Tablice statystyczne 126
B Nomogram Altmana do obliczeń wielkości
próby 133
C Typowe wydruki komputerowe 134
D Słowniczek terminów statystycznych 146
E Skorowidz 156
5
6
PRZEDMOWA TŁUMACZA
White lie, damned lie, statistics (Małe kłamstwo, wielkie
łgarstwo, statystyka) — te słowa przypisywane Markowi
Twainowi, w których opisał stopnie nieprawdy, chyba najle
piej oddają stosunek większości „normalnych ludzi" do sta
tystyki. Uważa się ją za narzędzie do manipulowania dany
mi, pozwalające na pseudonaukowe udowadnianie swoich
racji. Wielu z nas, obserwując prognozy statystyczne prezen
towane w środkach masowego przekazu, stwierdza, że wie
lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi
my sytuacje jasne, niedwuznaczne, z których moglibyśmy
wywnioskować, że „białe jest białe, a czarne — czarne". Ma
ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo
dobrym i precyzyjnym działem matematyki jak algebra, try
gonometria czy rachunek różniczkowy i całkowy. Stanowi
ona część rachunku prawdopodobieństwa i bez problemu
stosuje się ją w fizyce, chemii i naukach technicznych. Sto
sowanie statystyki w ekonomii (np. prognozowanie kursów
giełdowych, analizy ubezpieczeniowe) również nie budzi
większych zastrzeżeń. Nieco inaczej przedstawia się sytu
acja z zastosowaniem statystyki w naukach medycznych.
Dane medyczne charakteryzuje duży stopień zmienności
zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do
datkowym problemem jest uzyskanie próby o wystarczają
cej liczebności (rzadkie jednostki chorobowe, kosztowne
procedury badawcze, zagadnienia etyczne w leczeniu inwa
zyjnym) i z tego względu standardowe techniki statystyczne
często nie mogą być stosowane. Dlatego też w ramach staty
styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana
biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra
ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie
ku, aczkolwiek wykorzystuje ona również teorie opracowa
ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie
ma roku, by nie pojawiły się nowe techniki analizy danych
biomedycznych, istotnie wzbogacane przez rozwój technolo
gii komputerowej. Bez użycia komputerów trudno wyobra
zić sobie użycie takich metod, jak bootstrapping, jackkni-
fing, metoda Monte Carlo.
Próbę przedstawienia aktualnego stanu wiedzy z tej dzie
dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo-
pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona
— ogromne dzieło o ponad sześciu tysiącach stron zapisa
nych drobnym drukiem. Niestety wiedza ta ma charakter
hermetyczny i jest niemal całkowicie niedostępna dla prze
ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu
diując artykuły naukowe ze swojej dziedziny, napotka takie
sformułowania jak przedział ufności, regresja logistyczna
czy rozkład Poissona? Próba poszukiwania tych terminów
w wydawnictwach encyklopedycznych lub fachowych z za
kresu statystyki z miejsca stawia go na przegranej pozycji
z uwagi na sformalizowany język i kompletnie niezrozumia
łe dla niego wzory.
Na całym świecie w szkolnictwie medycznym wykładane
są metody biostatystyki. Niestety, z reguły przedmiot ten zo
staje umiejscowiony na początkowych latach studiów w ra
mach tzw. przedmiotów podstawowych. Powoduje to najczę
ściej, że student traktuje go jako jeszcze jeden niepotrzebny
kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli
niki. Prawdziwa potrzeba użycia statystyki pojawia się na
wyższych latach, np. przy pisaniu pierwszych prac w ra
mach studenckich towarzystw naukowych. Wtedy to po raz
pierwszy student staje przed problemem, jak sformułować
hipotezy badawcze, jak zebrać materiał do analizy, jak powi
nien być on obszerny, co oznacza termin reprezentatywność,
jakiego użyć testu statystycznego, jak zinterpretować wyni
ki itd. Powszechny dostęp do komputerów i zainstalowanych
w nich pakietów statystycznych znakomicie ułatwia sytu
ację, lecz niestety tylko pozornie. Pojawiają się prace „na
ukowe", w których niezdarne próby użycia statystyki gene
rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę.
Podobna sytuacja przydarza się słuchaczom studium dokto
ranckiego. Przygotowywana rozprawa doktorska wymaga
bowiem rygorystycznego podejścia metodycznego, z reguły
surowo ocenianego przez recenzentów pracy. Również próba
publikowania swoich wyników w czasopismach medycznych
często kończy się zwróceniem pracy w celu wykonania po
prawek dotyczących użytych technik statystycznych. W tej
sytuacji pozostaje jedynie zlecenie wykonania analiz staty
stykowi, albo też ambitna próba odkurzenia notatek z biosta
tystyki i przegryzienia się przez trudny materiał.
Na polskim rynku wydawniczym nie ma niestety dużego
wyboru książek poświęconych tej tematyce. Z reguły są to
albo dość stare pozycje, nie uwzględniające najnowszych
dokonań w tej dziedzinie, albo przeładowane wiedzą teore
tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa
skorzystania z najlepszych wzorców dydaktycznych dostęp
nych w literaturze obcojęzycznej. Jedną z takich pozycji jest
książka Avivy Petrie i Caroline Sabin, pt. Statystyka me
dyczna w zarysie, wydana po raz pierwszy przez Blackwell
Publishing w roku 2000 w ramach serii książek przezna
czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ
ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo
stała wydana w przeredagowanej i uzupełnionej wersji.
W Stanach Zjednoczonych jest polecana przy przygotowa
niach do zdania egzaminu państwowego USMLE step 1.
Jej niezwykła popularność bierze się stąd, że Autorkom
udało się w znakomity sposób wyważyć ilość wiedzy teore
tycznej niezbędną do zrozumienia podstawowych pojęć sta
tystycznych i zastosowania praktyczne pojawiające się
w pracy lekarza. Opisane prostym, lecz precyzyjnym języ
kiem rzeczywiste problemy z różnych dziedzin medycyny
bardzo dobrze ilustrują sposób użycia rozmaitych technik
statystycznych przedstawionych w tekście. Autorki w roz
sądny sposób podają wzory (tam, gdzie to rzeczywiście ko
nieczne) i całkowicie pomijają dowody potrzebne matematy
kom, a nie lekarzom. Nie ogranicza to jednak w żaden
sposób precyzji przekazywanej informacji. Autorki przy
wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą
cych u podstaw stosowania rozmaitych technik statystycz
nych, nie wdając się niepotrzebnie w ich uzasadnianie.
Na książkę tę zwróciłem uwagę już w roku 2000 po jej
pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla
studentów anglojęzycznych w Akademii Medycznej im. Ka-
rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen
tów potwierdzają jej niezwykłą przydatność przy przygoto
waniu zarówno do testów w okresie studiów, jak i egzami
nu USMLE step 1. Ucieszyła mnie zatem propozycja
Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ
ki na język polski i udostępnienia tej cennej pozycji polskie
mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak
tu, iż tłumaczenie jest jak kobieta — „wierna nie jest
piękna, a piękna nie jest wierna". Problem stanowią nie tyl
ko nieprzetłumaczalne na język polski (ale w pełni zrozu
miale dla naukowców) słowa, takie jak bootstrapping, jack-
knifing, ale i specyfika językowa uniemożliwiająca krótkie,
jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły
angielski termin virological Jailure po konsultacji z wiruso
logami rozrósł się do „braku efektu terapeutycznego po le
czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom
lekarzom za poświęcenie mi czasu na skonsultowanie termi
nologii medycznej i będę wdzięczny za wszystkie uwagi,
które mogłyby udoskonalić prezentowaną pracę.
Książka Avivy Petrie i Caroline Sabin, pt. Statystyka
medyczna w zarysie jest polecana zarówno kolejnym rocz
nikom studentów wydziałów lekarskich i stomatologicznych,
jak i słuchaczom studiów doktoranckich na akademiach me
dycznych. Jako niezwykle przydatną znajdą ją również stu
denci wydziałów fizyki uniwersytetów i politechnik tam,
gdzie otwarte zostały kierunki fizyki medycznej. Może ona
stanowić również znakomity materiał dydaktyczny dla pro
wadzących wykłady i ćwiczenia z biostatystyki na wspo
mnianych kierunkach studiów. Może też stanowić nieocenio
ne źródło fachowych informacji dla każdego lekarza,
zarówno naukowca pracującego w akademickich klinikach,
jak i lekarza praktyka pragnącego poprzez samokształcenie
poszerzać i doskonalić swoje umiejętności. W sprawdzeniu
zdobytej wiedzy z zakresu biostatystyki może pomóc test za
mieszczony na stronie internetowej www.medstatsaag.com
(niestety nie został jeszcze spolszczony). Mam nadzieję, że
książka ta zdobędzie podobną popularność u polskiego Czy
telnika, jak w krajach zachodnich, i dostarczy mu dużo war
tościowych i przystępnie podanych informacji.
Jerzy A. Moczko
8
WSTĘP
Książka Statystyka medyczna w zarysie jest skierowana
do studentów akademii medycznych, badaczy medycznych,
słuchaczy studiów podyplomowych w zakresie dyscyplin
biomedycznych oraz personelu przemysłu farmaceutyczne
go. Oni wszyscy na pewnym etapie życia zawodowego
zetkną się z wynikami ilościowymi (własnymi lub innych ba
daczy), które będą wymagały krytycznej analizy i interpre
tacji. A niektórzy będą oczywiście musieli zdać ten straszli
wy egzamin ze statystyki! Z tego powodu nieocenione jest
właściwe zrozumienie statystycznych koncepcji i metodolo
gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm
Czytelnika dla statystyki co dostarczyć mu praktycznej wie
dzy. W tym nowym wydaniu, podobnie jak to było w wyda
niu poprzednim, naszym celem jest zapewnienie studentowi
i badaczowi, jak również klinicyście napotykającemu w lite
raturze medycznej koncepcje statystyczne, książki, która
jest solidna, łatwa w czytaniu, wszechstronna, związana
z tematem i użyteczna w praktycznym zastosowaniu.
Wierzymy, że książka Statystyka medyczna w zarysie
będzie szczególnie użyteczna jako pomoc dla wykładowców
statystyki, również jako źródło odnośników. Struktura wy
dania drugiego pozostaje taka sama jak wydania pierwsze
go. Tak jak inne książki z serii ...w zarysie składa się z od
rębnych, dwu-, trzy- lub rzadko czterostronicowych
rozdziałów, z których każdy omawia inny aspekt statystyki
medycznej. Z naszych własnych doświadczeń dydaktycz
nych znałyśmy trudności, jakie napotykali nasi studenci
podczas zgłębiania statystyki medycznej, i starałyśmy się
wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się
ograniczyć teoretyczną zawartość książki do poziomu wy
starczającego do zrozumienia użytych procedur, lecz który
nie zaciemnia jeszcze ich praktycznych zastosowań.
Statystyka medyczna jest obszernym przedmiotem obej
mującym wielką liczbę zagadnień. W książce podajemy pod
stawowe koncepcje statystyki medycznej i przewodnik
po najczęściej stosowanych procedurach statystycznych.
Epidemiologia jest ściśle powiązana ze statystyką medycz
ną, omawiamy więc podstawowe zagadnienia tej dziedziny,
związane z planowaniem i interpretacją badania. Załączamy
również rozdziały, którymi Czytelnik zainteresuje się jedy
nie okazjonalnie, lecz które mimo wszystko są fundamental
ne dla wielu obszarów badań medycznych; na przykład me
dycyna oparta na dowodach, przeglądy systematyczne
i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu
maczymy zasady leżące u podstaw tych zagadnień tak, by
Czytelnik był w stanie zrozumieć i zinterpretować ich wyni
ki, jeżeli takowe zostaną zamieszczone w literaturze.
Porządek pierwszych 30 rozdziałów tego wydania odpo
wiada wydaniu pierwszemu. Większość tych rozdziałów po
została nie zmieniona w nowym wydaniu. Niektóre zawierają
stosunkowo małe zmiany, uwzględniające ostatnie zdobycze,
oraz odwołania, zmiany wynikają również z reorganizacji
materiału. Większe dodatki odnoszą się do stosunkowo zło
żonych form analizy regresji, które obecnie są używane sze
rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie,
częściowo dlatego, że związane z tym oprogramowanie jest
bardziej dostępne i efektywne, niż było w przeszłości. Zmo
dyfikowałyśmy rozdział o wynikach binarnych i regresji lo
gistycznej (rozdział 30), włączając nowy rozdział o często
ściach i regresji Poissona (rozdział 31) oraz znacząco
rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz
ne", tak że składa się on teraz z trzech rozdziałów: „Uogól
nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające
w modelach statystycznych" (rozdział 33) oraz „Zagadnienia
związane z modelowaniem statystycznym" (rozdział 34).
Zmodyfikowałyśmy również rozdział 41, który opisuje róż
ne podejścia do analizy danych sklasteryzowanych, i doda
łyśmy rozdział 42, o różnych metodach regresyjnych, które
mogą być użyte do analizy tego typu danych, W wydaniu
pierwszym zamieszczono krótki opis analizy szeregów cza
sowych, z czego zdecydowałyśmy się zrezygnować w dru
gim wydaniu, jako że wydawał się zbyt skrótowy, aby być
praktycznie użytecznym, a jego rozwinięcie wymagałoby
wyjścia poza przyjęte granice trudności. Z powodu usunię
cia, jak i dodania pewnych rozdziałów, numeracja rozdzia
łów w wydaniu drugim różni się od tej z poprzedniego wy
dania, począwszy od rozdziału 30. Większość rozdziałów
w dalszej części książki, które były również w wydaniu
pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie,
Opisowi każdej techniki statystycznej towarzyszy przy
kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy
ze wspólnych badań, w których uczestniczyłyśmy my lub na
si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze
czywiste dane z wydanych publikacji. Tam, gdzie było to
możliwe, użyłyśmy tych samych danych w więcej niż jednym
rozdziale, aby odzwierciedlić rzeczywistość analizy danych,
która rzadko jest ograniczona do jednej techniki lub podej
ścia. Chociaż uważamy, że należy podawać wzory i wyja
śniać logikę postępowania, starałyśmy się unikać szczegółów
złożonych obliczeń — większość Czytelników ma dostęp
do komputerów i jest mato prawdopodobne, że będą Oni do
konywali ręcznie obliczeń, może poza tymi najprostszymi.
Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika
jest umiejętność interpretacji wyników z pakietu kompute
rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania
wyników wybrałyśmy wydruki komputerowe. W pewnych
sytuacjach, gdy podejrzewałyśmy trudności interpretacyj
ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute
rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po
wszechnym użyciu istnieje wiele pakietów statystycznych;
chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać
postać wyników, nie ograniczyłyśmy się do wydruku z ja
kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze
znanych - SAS, SPSS oraz Stata.
W całym tekście jest wiele odwołań mających Czytelniko
wi ułatwić dotarcie do różnych procedur. Podstawowy ze
staw tablic statystycznych jest zawarty w Dodatku A. Książ
ki Neave H. R.: Elementary Statistical Tables, Routledge
1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd.,
Blackwell Publishing, Oxford 1970, obok wielu innych, za
wierają wersje pełniejsze, których Czytelnik potrzebuje
przy bardziej precyzyjnych obliczeniach przeprowadzanych
bez użycia komputera. Słowniczek terminów (Dodatek D) po
daje przystępne wyjaśnienia większości użytej terminologii.
Wiemy, że największą trudnością, jaką napotyka niesta-
tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto
wałyśmy dwa schematy blokowe, których można użyć za
równo w celu podjęcia decyzji co do odpowiedniej metody
w danej sytuacji, jak i w celu znalezienia jej w prezentowa
nej książce. Oba schematy blokowe zamieszczono przezor
nie na wewnętrznej stronie okładek, aby zapewnić do nich
łatwy dostęp.
Jako narzędzie pomocne w ocenie własnych postępów
Czytelnik znajdzie interaktywne ćwiczenia zamieszczone
na naszej stronie internetowej (www.medstatsaag.com).
Strona ta zawiera również pełny zestaw cytowań (niektóre
z nich prowadzą bezpośrednio do Medline) uzupełniających
odnośniki zawarte w tekście i pozwalających odnaleźć
bazowe informacje dotyczące przykładów. Czytelnikom, któ
rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta
tystyki medycznej, możemy polecić następujące książki:
Altman D. G.: Practical Statistics for Medical Research.
Chapman and Hall, Londyn 1991.
Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods
in Medical Research. Blackwell Science, Oxford 2001.
Pocock S. J.: Clinical Trials: A Practical Approach. Wiley,
Chichester 1983.
Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi
i Jonathanowi Sterne'owi, którzy opracowali nieocenione
komentarze i sugestie do drugiego wydania, oraz Richardo
wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro-
wi za ich uwagi na temat pierwszego wydania. Chcemy
podziękować każdemu, kto pomógł nam zdobyć dane do
przykładów. Oczywiście, bierzemy pełną odpowiedzialność
za jakiekolwiek błędy, które pozostały w tekście lub przy
kładach. Chcemy również podziękować Mikowi, Geraldowi,
Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili
nasze przygotowania do wydania pierwszego i żyli z nami
podczas trudnych prób opracowania wydania drugiego.
Aviva Petrie
Caroline Sabin
Londyn
1 RODZAJE DANYCH
DANE I STATYSTYKI
Celem większości prowadzonych prac badawczych jest ze
branie danych na temat określonego obszaru badań. Dane
Obejmują obserwacje jednej lub wielu zmiennych. Każda
wielkość podlegająca zmianom nosi nazwę zmiennej.
Na przykład możemy zbierać podstawowe informacje kli
niczne i demograficzne o pacjentach z określonym schorze
niem, Interesujące nas zmienne mogą obejmować płeć, wiek
i wzrost pacjentów.
Dane uzyskuje się zazwyczaj z próby, która reprezentu
je interesującą nas populację. Naszym celem jest znaczące
skondensowanie danych i wydobycie z nich użytecznej in
formacji. Statystyka obejmuje metody zbierania, podsumo
wywania, analizy i wyciągania wniosków z danych: w tym
celu stosujemy techniki statystyczne.
Dane mogą przyjmować rozmaite formy. Przed podję
ciem decyzji co do wyboru najbardziej odpowiedniej meto
dy statystycznej musimy wiedzieć, z jakim typem danych
mamy do czynienia. Każda zmienna i odpowiadająca jej da
na może być albo kategorialna, albo numeryczna (ryci
na 1.1).
DANE KATEGORIALNE (JAKOŚCIOWE)
Ten typ danych pojawia się, gdy każda jednostka może na
leżeć wyłącznie do jednej z pewnej liczby oddzielnych kate
gorii danej zmiennej.
• Dane nominalne — kategorie nie są uporządkowane,
lecz mają po prostu nadane nazwy. Przykładami mogą być
grupy krwi (A, B, AB i 0) lub stan cywilny (żonaty/wdo
wiec/kawaler itp). W ostatnim przypadku nie zakładamy, że
małżeństwo jest lepsze (lub gorsze) od pozostawania w sta
nie bezżennym.
• Dane porządkowe — kategorie są w pewien sposób
uporządkowane. Jako przykład można podać stan zaawan
sowania choroby (zaawansowany, umiarkowany, łagodny,
brak choroby) lub natężenie bólu (ciężki, umiarkowany, ła
godny, brak bólu).
Zmienna kategorialna jest binarna lub dychotomiczna,
jeżeli może przyjmować jedynie dwie kategorie. Przykłada
mi mogą być odpowiedzi „tak/nie", „zmarł/żyje", „pacjent
jest chory/pacjent jest zdrowy".
DANE NUMERYCZNE (ILOŚCIOWE)
Ten typ danych pojawia się w chwili, gdy zmienne przyjmu
ją wartości numeryczne. Dane numeryczne możemy podzie
lić na dwa typy.
• Dane dyskretne — występują, gdy zmienne mogą
przybierać jedynie wartości całkowite. Przykładem mogą
być liczby zdarzeń, takie jak liczba wizyt u lekarza rodzin
nego w ciągu roku lub liczba epizodów chorobowych w cią
gu ostatnich pięciu lat.
• Dane ciągłe — występują, gdy nie ma innych ograni
czeń wartości, jakie może przyjmować zmienna, niż te, któ
re ograniczają nas w trakcie wykonywania pomiaru, np.
masa ciała lub wzrost.
ROZRÓŻNIANIE TYPÓW DANYCH
Często wykorzystujemy różne metody statystyczne w zależ
ności od tego, czy dane są kategorialne, czy też numerycz
ne. Chociaż rozróżnienie między danymi kategorialnymi
a numerycznymi jest zazwyczaj proste, w pewnych sytu
acjach może się okazać niejasne. Na przykład, gdy mamy
do czynienia ze zmienną o dużej liczbie uporządkowanych
kategorii (np. skala stopnia bólu z siedmioma kategoriami)
może być trudno ją odróżnić od dyskretnej zmiennej nume
rycznej. Rozróżnienie między dyskretnymi i ciągłymi dany
mi numerycznymi może być jeszcze mniej oczywiste, choć
w ogólności ma ono znikomy wpływ na wyniki większości
analiz. Przykładem zmiennej traktowanej często jako dys
kretna jest wiek (choć tak naprawdę jest to zmienna ciągła).
Zazwyczaj odnosimy się do „wieku w dniu ostatniej roczni
cy urodzin", a nie do „wieku jako takiego", i dlatego kobie
ta, która podaje, że ma 30 lat, mogła właśnie obchodzić swo
je 30. urodziny lub właśnie zbliżać się do 31. rocznicy
urodzin.
Nie należy na początku zapisywać danych numerycznych
jako kategorialnych (np. poprzez zapisywanie grupy wieko
wej, do której należy pacjent zamiast jego/jej aktualnego
wieku), ponieważ gubi się w ten sposób ważną informację.
Łatwo można dokonać konwersji zebranych danych nume
rycznych do danych kategorialnych.
Rycina 1.1. Diagram przedstawiający różne typy zmiennych.
10 Opracowywanie danych
DANE POCHODNE
W badaniach medycznych możemy też napotkać inne rodza
je danych. Obejmują one:
• Procenty — mogą pojawić się, gdy oceniamy poprawę
stanu zdrowia u pacjentów podlegających leczeniu, np. para
metr funkcji oddechowej pacjenta (wymuszona objętość wyde
chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ
stwie leczenia nowym lekiem. W tym przypadku interesuje
nas raczej stopień poprawy, a nie wartość bezwzględna.
• Proporcje lub ilorazy — czasami możemy napotkać
proporcje lub iloraz dwóch zmiennych. Na przykład wskaź
nik masy ciała (BMI), obliczany jako masa osobnika (kg) po
dzielona przez kwadrat jego/jej wzrostu (m
2
), jest często
używany w celu oszacowania nadwagi lub niedowagi.
• Częstości — częstości chorób. Liczba zachorowań
wśród obiektów badania jest dzielona przez całkowitą licz
bę lat obserwacji wszystkich osobników w tym badaniu
(rozdział 31). Dane takie są powszechnie stosowane w na
ukach epidemiologicznych (rozdział 12).
• Punktacja — czasami, gdy nie możemy zmierzyć wiel
kości, stosujemy wartości arbitralne, np. punktację. Na przy
kład, odpowiedzi na pytania dotyczące jakości życia mogą
zostać zsumowane w celu uzyskania pewnej ogólnej wielko
ści charakteryzującej jakość życia każdego osobnika.
Wszystkie wymienione powyżej zmienne w większości
analiz mogą być traktowane jako zmienne numeryczne. Tam,
gdzie zmienną uzyskuje się z więcej niż jednej wartości (np.
licznik i mianownik w procentach), jest rzeczą istotną zapisa
nie wszystkich tych wartości. Na przykład, 10% poprawa
wskaźnika oceny leczenia może mieć rozmaite znaczenie kli
niczne w zależności od wartości tego wskaźnika przed lecze
niem.
DANE UCIĘTE
Dane ucięte możemy napotkać w takich na przykład sytu
acjach:
• Jeżeli mierzymy dane laboratoryjne, używając narzę
dzia, które jest w stanie zarejestrować dane powyżej pew
nego poziomu, to żadne wartości pomiarowe leżące poniżej
tego poziomu nie zostają zidentyfikowane. Na przykład, je
żeli mierzymy poziomy wirusa poniżej poziomu jego wykry
walności, to wartości te opisujemy jako „nieoznaczalne",
mimo że w próbce mogło być nieco wirusów.
• W badaniach, w których część pacjentów wypada
z grupy badanej przed czasem zakończenia badania. Ten typ
danych jest omówiony bardziej szczegółowo w rozdziale 44.
/. Rodzaje danych 11
2 WPROWADZANIE DANYCH
Przy wykonywaniu jakichkolwiek badań niemal zawsze
wprowadza się dane do pakietu oprogramowania kompute
rowego. Komputery są nieocenione, jeśli chodzi o poprawę
dokładności i prędkości zbierania danych oraz ich analizy,
ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz
ne podsumowania danych i generować nowe zmienne. War
to poświęcić nieco czasu na zaplanowanie wprowadzania
danych — może to zaoszczędzić wiele wysiłku w później
szych etapach.
FORMATY WPROWADZANIA DANYCH
Istnieje wiele sposobów wprowadzania i zapamiętywania
danych w komputerze. Większość pakietów statystycznych
pozwala na bezpośrednie wprowadzenie danych. Jednakże
ograniczeniem takiego podejścia jest fakt, że niejednokrot
nie nie można przenieść tych danych do innego pakietu. Pro
stą alternatywą jest zapamiętanie danych albo w arkuszu
kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres
dostępnych w nich procedur statystycznych jest najczęściej
mocno ograniczony i dla przeprowadzenia analiz trzeba
zwykle przenieść dane do specjalistycznego pakietu staty
stycznego.
Bardziej elastycznym sposobem rozwiązania problemu
jest umieszczenie danych w plikach ASCII lub plikach tek
stowych. Dane zapisane w formacie ASCII mogą być odczy
tywane przez większość pakietów. Format ASCII składa się
po prostu z wierszy tekstu, który można oglądać na ekranie
komputera. Zazwyczaj każda zmienna w pliku jest oddzielo
na od następnej pewnym ogranicznikiem, najczęściej spa
cją lub przecinkiem. Jest to tzw. format swobodny.
Najprostszym sposobem wprowadzenia danych w forma
cie ASCII jest użycie edytora tekstowego lub pakietu edycyj
nego. W formacie tym można też zapisać dane złożone w ar
kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz
danych odpowiada zazwyczaj innemu obiektowi badania,
a każda kolumna odpowiada innej zmiennej, chociaż czasa
mi stosowane są wiersze kontynuacyjne — gdy dla każdego
obiektu zbierana jest duża liczba zmiennych.
PLANOWANIE WPROWADZANIA DANYCH
Podczas zbierania danych w trakcie badania często będziesz
potrzebował do ich zapisania formularza lub kwestionariusza.
Staranne zaprojektowanie formularza pozwoli na zmniejsze
nie nakładu pracy przy wprowadzaniu danych. Ogólnie, for
mularze/kwestionariusze zawierają serię kratek, w których
zapisuje się dane — z reguły każda możliwa cyfra w odpowie
dzi musi mieć osobną kratkę.
DANE KATEGORIALNE
Niektóre pakiety statystyczne mają problemy z obsługą da
nych nienumerycznych. Dlatego przed wprowadzeniem da
nych do komputera trzeba czasem przyporządkować kody
numeryczne do danych kategorialnych. Na przykład, można
przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu,
ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać
dodane do formularzy w trakcie zbierania danych. Dla da
nych binarnych, np. dla odpowiedzi tak/nie, często wygod
nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla
„nie").
• Zmienne kodowane pojedynczo — istnieje jedna moż
liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie
można udzielić na to pytanie jednocześnie odpowiedzi „tak"
i „nie".
• Zmienne kodowane wielokrotnie — dla każdego re
spondenta możliwa jest więcej niż jedna odpowiedź.
Na przykład: jakie symptomy występują u tego pacjenta.
W tym przypadku osobnik może mieć dowolną liczbę symp
tomów. Istnieją dwie metody kodowania tego typu danych
w zależności od tego, która z sytuacji ma miejsce.
• Istnieje tylko kilka możliwych symptomów, a każdy
osobnik może mieć kilka z nich. Można stworzyć pew
ną liczbę zmiennych binarnych, które oznaczają, czy
pacjent odpowiedział tak lub nie na temat obecności każ
dego możliwego symptomu. Na przykład: czy pacjent
kaszle?, czy pacjenta boli gardło?
• Istnieje wielka liczba możliwych symptomów, lecz
spodziewamy się, że każdy pacjent ma tylko kilka
z nich. Można stworzyć pewną liczbę zmiennych nomi
nalnych; każda kolejna zmienna pozwala wtedy nazwać
symptom występujący u pacjenta. Na przykład: jaki wy
stąpił pierwszy symptom u pacjenta?, jaki był drugi
symptom? Z góry trzeba tu zadecydować o maksymalnej
liczbie symptomów, jakie mogą wystąpić u pacjenta.
DANE NUMERYCZNE
Dane numeryczne należy wprowadzać z taką samą dokład
nością, z jaką zostały one zmierzone, a jednostka pomiaru
powinna być jednakowa dla wszystkich obserwacji w obrę
bie zmiennej. Na przykład, masa powinna być wyrażona
w kilogramach lub funtach, lecz nigdy w obu jednostkach
na zmianę.
KILKA FORMULARZY DLA PACJENTA
Czasami informacje zbiera się od tego samego pacjenta
przy więcej niż jednej okazji. Ważne jest wtedy zapewnie
nie tego samego, unikalnego identyfikatora (np. numeru se
ryjnego) powiązanego z osobnikiem — umożliwia on połącze
nie wszystkich danych uzyskanych w badaniu na temat tego
osobnika.
PROBLEMY Z DATAMI I CZASEM
Daty i czas powinny być wprowadzane w sposób jednolity,
np. albo jako dzień/miesiąc/rok, albo miesiąc/dzień/rok,
ale nigdy wymiennie. Ważną sprawą jest znalezienie forma
tu, jaki może być odczytywany przez pakiet statystyczny.
12 Opracowywanie danych
KODOWANIE BRAKUJĄCYCH WARTOŚCI
Przed rozpoczęciem wprowadzania danych należy rozważyć,
co chce się zrobić z danymi brakującymi. W większości przy
padków do reprezentowania brakujących danych trzeba użyć
specjalnego symbolu. Pakiety statystyczne obsługują braki
danych w rozmaity sposób. Niektóre z nich używają znaków
specjalnych (np. kropka lub gwiazdka) do wskazania braku
jących danych, podczas gdy inne wymagają zdefiniowania
własnego kodu dla wartości brakującej (najczęściej stosowa
ne wartości to 9,999 lub -99). Wybrana wartość musi być ta
ką wartością, która nie może zaistnieć w tej zmiennej.
Na przykład, przy wprowadzaniu zmiennej kategorialnej za
wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re
prezentowania wartości brakujących można wybrać kod 9.
Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać
inny kod. Zmienne brakujące zostaną dokładniej omówione
w rozdziale 3.
Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia.
Dane zebrano w próbie 64 kobiet zarejestrowanych
w centrum hemofilii w Londynie jako część badania
nad wpływem wrodzonych zaburzeń krzepnięcia na cią
żę i poród. Kobietom zadawano pytania związane z ich
problemami krzepnięcia oraz pierwszą ciążą (lub ich
obecną ciążą, jeżeli w trakcie przeprowadzanego wywia
du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie
wielką część danych po ich wprowadzeniu do arkusza
kalkulacyjnego, lecz przed dokonaniem poprawek.
Schematy kodowania dla zmiennych kategorialnych
znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar
kusza reprezentuje kolejny obiekt badania; każda kolum
na przedstawia inną zmienną. Jeżeli kobieta jest nadal
w ciąży, jej wiek w chwili porodu został przeliczony
na podstawie oszacowanej daty narodzin dziecka. Dane
związane z żywymi urodzeniami przedstawiono w roz
dziale 37.
Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee
z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie.
2. Wprowadzanie danych 13
PRZYKŁAD
3 KONTROLA BŁĘDÓW I
W każdym badaniu zawsze istnieje możliwość pojawienia
się błędów w zbiorze danych albo w fazie początkowej pod
czas dokonywania pomiarów, albo podczas ich zbierania,
przepisywania czy wprowadzania do komputera. Jednakże
liczbę błędów powstających przy wprowadzaniu i przepisy
waniu można zredukować poprzez uważne sprawdzanie da
nych po ich wprowadzeniu. Proste wzrokowe przejrzenie
danych często pozwala wychwycić wartości, które są w spo
sób oczywisty błędne. W tym rozdziale sugerujemy pewne
techniki, których można używać przy sprawdzaniu danych.
BŁĘDY PRZY WPROWADZANIU
Najczęstszym źródłem błędów przy wprowadzaniu danych
jest tzw. palcówka. Przy małej liczbie danych można je porów
nać z danymi na oryginalnych formularzach/kwestionariu
szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa
dzaniu. Jednakże przy dużej liczbie danych procedura ta jest
niezwykle czasochłonna. Można również dwukrotnie wprowa
dzić te same dane i porównać oba pliki programem kompute
rowym. Każda różnica między oboma zestawami danych
wskazuje na błąd przy wprowadzaniu. Chociaż podejście to
nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze
stawach, lub tego, że sama wartość na formularzu/kwestiona
riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę
dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie
więcej czasu przy wprowadzaniu danych, co powoduje konse
kwencje finansowe i czasowe.
KONTROLA BŁĘDÓW
• Dane kategorialne — Stosunkowo łatwo można spraw
dzić dane kategorialne, skoro każda zmienna może przyjmo
wać tylko jedną z ograniczonej liczby wartości. Dlatego też
wartość niedozwolona musi być błędem.
• Dane numeryczne — Dane numeryczne są często trud
ne do sprawdzenia, a jednocześnie podatne na błędy.
Na przykład, podczas wprowadzania danych numerycznych
łatwo jest przestawić cyfry lub pozycję przecinka dziesięt
nego. Dane numeryczne można sprawdzać przez badanie
zakresu — dolnej i górnej granicy określonej dla danej
zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za
znaczona dla dalszego badania.
• Daty — Często sprawdzenie poprawności daty jest trud
ne, chociaż czasami wiadomo, że powinna ona należeć do
pewnego okresu czasu. Daty można sprawdzać w celu upew
nienia się, że są one prawidłowe. Na przykład, 30 lutego mu
si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub
każdy miesiąc powyżej 12. Można również stosować pewne
reguły logiczne. Na przykład, data urodzin pacjenta powinna
odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro
dzić się przed włączeniem do badania (przynajmniej w więk
szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin
ni się pojawiać na kolejnych wizytach kontrolnych!
Przy poprawianiu wszystkich błędów wartość powinna
zostać zmieniona jedynie wtedy, gdy mamy dowód, że został
14 Opracowywanie danych
popełniony błąd. Nie należy zmieniać wartości tylko dlatego,
że wyglądają nietypowo.
OPRACOWYWANIE DANYCH BRAKUJĄCYCH
Zawsze istnieje możliwość wystąpienia braku niektórych da
nych. Jeżeli brakuje dużej części danych, to mało prawdopo
dobne jest uzyskanie wiarygodnych rezultatów. Należy za
wsze zbadać przyczynę pojawiania się braków danych
— jeżeli braki danych mają tendencję do skupiania się
w pewnej zmiennej i/lub w określonej podgrupie obiektów,
może to oznaczać, że zmienna nie jest stosowalna lub nigdy
nie została pomierzona dla tej grupy osób badanych. Jeżeli
to jest rzeczywistą przyczyną, może okazać się konieczne
wykluczenie tej zmiennej lub grupy obiektów z analizy.
Szczególne problemy możemy napotkać, kiedy szansa wystą
pienia zmiennych brakujących jest silnie związana z najbar
dziej interesującą nas w badaniu zmienną (np. zmienną wy
nikową w analizie regresji — rozdział 27). W tej sytuacji
nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż
my na przykład, że jesteśmy zainteresowani pomiarem, któ
ry odzwierciedla stan zdrowia pacjentów i dla niektórych
pacjentów brakuje tej informacji, ponieważ nie czuli się wy
starczająco dobrze, by pojawić się na zaplanowanej wizycie
w klinice: jeżeli nie weźmiemy pod uwagę brakujących da
nych w analizie, najprawdopodobniej otrzymamy zbyt opty
mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe
jest zredukowanie tego obciążenia przez zastosowanie odpo
wiednich metod statystycznych1
lub przez oszacowanie jakąś
metodą brakujących danych2
, jednakże najbardziej pożąda
ną opcją jest minimalizacja od samego początku liczby bra
kujących danych.
WARTOŚCI ODSKAKUJĄCE
Czym są wartości odskakujące?
Wartości odskakujące są obserwacjami, które różnią się
od większości danych i są niezgodne z pozostałymi danymi.
Wartości te mogą być prawdziwymi obserwacjami osób ba
danych z bardzo ekstremalnymi poziomami zmiennej. Jed
nakże mogą też być wynikiem błędów przy wprowadzaniu
lub błędnego doboru jednostek i dlatego należy sprawdzić
wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie,
czy w zbiorze danych mamy do czynienia z wartościami od
skakującymi, gdyż mogą one mieć znaczący wpływ na wy
niki niektórych typów analiz (rozdział 29).
Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie
stanowiła wartość odskakującą w większości zbiorów da
nych. Chociaż wartość ta jest istotnie bardzo duża w porów
naniu z przeciętnym wzrostem kobiet, może być wartością
1
Laird N. M.: Missing data in longitudinal studies. Statistics in
Medicine, 1988, 7, 305-315.
2
Engels J. M., Diehr R: Imputation of missing longitudinal data:
a comparison of methods. Journal of Clinical Epidemiology, 2003,
56, 968-976.
prawdziwą, a kobieta ta może być po prostu bardzo wysoka.
W tym przypadku, zanim podejmiesz decyzję o ważności wy
niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość,
kontrolując inne zmienne, takie jak wiek i masa ciała. War
tość powinna zostać zmieniona jedynie wtedy, gdy istnieje
wyraźny dowód, że jest ona nieprawdziwa.
Badanie wartości odskakujących
Najprostszą metodą jest wydrukowanie danych i ich wzro
kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie
jest za duża i gdy potencjalna wartość odskakująca jest
o wiele mniejsza lub o wiele większa od pozostałych danych.
Badanie rozstępu również powinno pozwolić zidentyfikować
możliwe wartości odskakujące. Alternatywę stanowi wykre
ślenie w jakiś sposób danych (rozdział 4) — wartości odska
kujące można łatwo identyfikować na histogramach i wy
kresach rozrzutu (zobacz również dyskusję o wartościach
odskakujących w analizie regresji w rozdziale 29).
Radzenie sobie z wartościami odskakującymi
Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy
tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub
niższe, niż można się tego spodziewać.
Jednakże włączenie wartości odskakujących może mieć
wpływ na wyniki niektórych technik statystycznych. Pro
stym wyjściem z tej sytuacji jest wykonanie analizy naj
pierw przy uwzględnieniu, a potem przy wykluczeniu tych
wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości
odskakujące nie mają na nie wielkiego wpływu.
Jednakże jeżeli wyniki drastycznie się zmieniają, należy
zastosować odpowiednie metody, które podczas analizy da
nych nie zostają zaburzane przez wartości odskakujące. Me
tody te obejmują użycie transformacji (rozdział 9) i testów
nieparametrycznych (rozdział 17).
Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw
dzany jesr w celu usunięcia błędów. Niektóre ze wskaza
nych niezgodności su prostymi błędami popełnionymi
przy wprowadzaniu. Na przykład, kod „41" w kolumnie
„płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni
ka z pominięcia informacji o pici: pozostała część danych
pacjentki 20. została wprowadzona do nieprawidłowych
kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach
wieku ciążowego i masy ciała) też są najprawdopodobniej
błędami, lecz przed powzięciem decyzji należy sprawdzić
materiały źródłowe, jako że mogą one być prawdziwymi
wartościami odskakującymi. W naszym przykładzie wiek
ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa
no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie
można było odnaleźć prawidłowej masy ciała tego dziecka,
wartość wprowadzono jako brakującą.
3. Kontrola błędów i wartości odskakujące ' 15
Rycina 3.1. Kontrola błędów w zestawie danych.
4 GRAFICZNA PREZENTACJA DANYCH
Jedną z pierwszych rzeczy, które przydają się po wprowa
dzeniu danych do komputera, jest jakaś forma ich podsumo
wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić
za pomocą diagramów, tabel i statystyk podsumowujących
(rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia
mi do przedstawiania danych, tworzenia prostych, podsumo
wujących rycin oraz wykrywania wartości odskakujących
i trendów, zanim zostaną przeprowadzone jakiekolwiek for
malne analizy.
JEDNA ZMIENNA
Rozkłady częstości
Empiryczny rozkład częstości zmiennej wiąże każdą moż
liwą obserwację, klasę obserwacji (tj. zakres wartości) lub
kategorię z obserwowaną częstością jej pojawiania się. Je
żeli zastąpimy każdą częstość przez częstość względną
(procent całkowitej częstości), możemy porównywać rozkła
dy częstości w dwóch lub więcej grupach osób badanych.
Prezentacja rozkładów częstości
Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla
danych kategorialnych lub niektórych numerycznych dys
kretnych, możemy je przedstawić graficznie.
• Wykres słupkowy lub kolumnowy — dla każdej katego
rii rysujemy osobny pionowy lub poziomy słupek, którego dłu
gość jest proporcjonalna do częstości występowania danych
w tej kategorii. Słupki oddzielamy małymi przerwami, aby
wskazać, że dane są kategorialne lub dyskretne (rycina 41a).
• Wykres kołowy — dzielimy kółko na sekcje, po jednej
dla każdej kategorii, tak by powierzchnia każdej sekcji była
proporcjonalna do częstości występowania danych w tej ka
tegorii (rycina 4.Ib).
Często trudniej jest przedstawić dane numeryczne cią
gle, gdyż najpierw muszą być one wstępnie opisane suma
rycznie. Najczęściej stosuje się następujące diagramy:
• Histogram — jest podobny do wykresu słupkowego,
ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin
no być przerw (rycina 4.Id). Szerokość każdego słupka jest
uzależniona od zakresu wartości dla danej zmiennej.
Na przykład, masa ciała dziecka (rycina 4.Id) może być ska
tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg,
..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna
do częstości występowania danych w tym zakresie. Dlatego,
jeżeli jedna grupa pokrywa szerszy zakres wartości niż in
ne, jej podstawa będzie szersza, a wysokość mniejsza.
Zwykle stosuje się od 5 do 20 grup: zakresy powinny być
na tyle wąskie, by mogły zilustrować charakterystyczne
Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2).
(a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas
porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy
pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro-
dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres
rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y).
16 Opracowywanie danych
3
665
53
9751
955410
987655
9531100
731
99843110
654400
6
7
10
dipropionian
beklometazonu
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
0,4
39
99
1135677999
0148
00338899
001355
00114569
6
01
19
placebo
Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie
ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21).
wzory w rozkładzie danych, lecz nie aż tak wąskie, by
przedstawiały indywidualne dane. Histogram powinien zo
stać opisany starannie, tak aby granice między kategoriami
byty wyraźnie zdefiniowane.
• Wykres punktowy — każda obserwacja jest reprezen
towana przez jedną kropkę na poziomej (lub pionowej) linii
(rycina 4.1e). Jest to bardzo prosty sposób przedstawiania
danych, lecz może być niewygodny przy dużych zbiorach.
Często na diagramach pokazuje się miarę zbiorczą, taką jak
średnia czy mediana (rozdział 5). Taki typ wykresu może
być stosowany również dla danych dyskretnych.
• Wykres typu „łodyga z liśćmi" — jest to połączenie
diagramu i tablicy; przypomina histogram położony na boku
i jest faktycznie zbiorem wartości danych zapisanych w kie
runku rosnącym. Zazwyczaj rysuje się pionową „łodygę",
złożoną z pierwszych kilku cyfr mierzonych wartości, upo
rządkowanych w jakimś kierunku. Z „łodygi" wystają „li
ście" — tj. końcowe cyfry każdej uporządkowanej wielkości,
które zapisujemy w układzie poziomym (rycina 4.2) we
wzrastającym porządku numerycznym.
• Wykres skrzynkowy (zwany często „pudełkiem z wą
sami") — jest to ustawiony pionowo lub poziomo prostokąt,
którego boki odpowiadają górnemu lub dolnemu kwartylowi
wartości pomiarowych (rozdział 6). Linia przeprowadzona
przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo
czynające się na bokach prostokąta zazwyczaj reprezentują
wartości minimalną i maksymalną, lecz czasami oznaczają
odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty
(rozdział 6, rycina 6.1). Na wykresie tym można również za
znaczyć wartości odskakujące.
Kształt rozkładu częstości
Wybór najodpowiedniejszej metody statystycznej często za
leży od kształtu rozkładu. Rozkład danych jest najczęściej
jednomodalny, przez co posiada jeden pik. Czasami rozkład
jest bimodalny (dwa piki) lub równomierny (każda wartość
jest jednakowo prawdopodobna, na skutek czego nie wystę
puje żaden pik). W przypadku rozkładu jednomodalnego za
sadniczym celem jest wskazanie, gdzie leży większość da
nych w stosunku do wartości maksymalnej i minimalnej.
W szczególności należy oszacować, czy rozkład jest:
• symetryczny — scentrowany wokół pewnego punktu
środkowego, z jedną stroną będącą lustrzanym odbiciem
drugiej strony (rycina 5.1);
• przekrzywiony w prawo (dodatnio skośny) — ma dłu
gi ogon złożony z jednej lub większej liczby wysokich war
tości. Takie dane są często spotykane w badaniach medycz
nych (rycina 5.2);
• przekrzywiony w lewo (ujemnie skośny) — ma długi
ogon złożony z jednej lub większej liczby niskich wartości
(rycina 4.Id).
DWIE ZMIENNE
Jeżeli jedna zmienna jest kategorialna, możemy narysować
osobne diagramy pokazujące rozkłady drugiej zmiennej dla
każdej z kategorii. Inne wykresy odpowiednie dla takich da
nych to wykresy słupkowe, kolumnowe klasteryzowane lub
segmentowane (rycina 4.1c).
Jeżeli obie zmienne są numeryczne lub porządkowe,
można przedstawić związek między nimi za pomocą wykre
su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym
wykreśla się wartość jednej zmiennej w zależności od dru
giej. Jedna zmienna jest zwykle nazywana zmienną x i jest
przedstawiana na osi poziomej. Druga zmienna, nazywana
zmienną y, jest wykreślana na osi pionowej.
IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH
METODAMI GRAFICZNYMI
Często wartości skrajne możemy wykrywać przy użyciu pre
zentacji danych jednej zmiennej. Na przykład, bardzo długi
ogon po jednej stronie histogramu może wskazywać na war
tość odskakującą. Jednakże czasami wartości odskakujące
stają się widoczne dopiero wtedy, gdy analizujemy związek
pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie
będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie
nieprawdopodobnie niska u kobiety o wzroście 1,9 m.
4. Graficzna prezentacja danych 17
5 OPIS DANYCH: WARTOŚĆ PRZECIĘTNA
PODSUMOWYWANIE DANYCH
Bardzo trudno jest mieć jakiekolwiek „wyczucie" co do zbio
ru pomiarów numerycznych, chyba że możemy je w jakiś
znaczący sposób podsumować. Użytecznym punktem wyjścia
jest często diagram (rozdział 4). Konstruując miary, które
opisują ważne charakterystyki danych, możemy również in
formację skondensować. W szczególności, jeżeli mamy jakieś
spostrzeżenie na temat tego, co stanowi wartość reprezenta
tywną i jeżeli wiemy jak szeroko wokół niej są rozrzucone
wartości, możemy stworzyć pewien obraz danych. Wartość
przeciętna jest ogólnym określeniem miary położenia; opi
suje ona typowy pomiar. Ten rozdział poświęcamy miarom
przeciętnym, z których najczęściej używa się średniej i me
diany (tabela 5.1). W rozdziale 6 wprowadzimy miary, które
opisują rozrzut lub rozproszenie obserwacji.
ŚREDNIA ARYTMETYCZNA
Średnia arytmetyczna (często po prostu zwana średnią)
zbioru wartości jest obliczana przez dodanie do siebie
wszystkich wartości i podzielenie tej sumy przez liczbę war
tości w zbiorze.
Rzeczą przydatną jest streszczenie tego słownego opisu
przez wzór algebraiczny. Stosując notację matematyczną, za
pisujemy nasz zbiór n wartości zmiennej xjako xx
, x2
, x3
,...,
xn
. Na przykład, jeżeli x reprezentuje wzrost osobnika (cm),
to Xj przedstawia wzrost pierwszego osobnika, a xt
—wzrost
/tego osobnika itd. Możemy zapisać wzór na średnią arytme
tyczną obserwacji, oznaczając ją symbolem x, w postaci:
Stosując notację matematyczną, zapis możemy skrócić do:
gdzie Z (duża grecka litera sigma) oznacza sumę, nato
miast dolny oraz górny indeks przy Z wskazuje, że sumuje
my wartości od i = 1 do n. Ta postać jest często dalej skra
cana do formy:
MEDIANA
Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo
czynając od najmniejszej wartości i kończąc na największej,
wtedy medianą będzie wartość środkowa uporządkowane
go szeregu. Mediana dzieli uporządkowany zbiór wartości
na dwie polowy, z równą liczbą wartości powyżej i poniżej
mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser
wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją
w uporządkowanym szeregu. Tak więc, jeśli na przykład
n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war
tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy
ściśle mówiąc, mediana nie istnieje. Jednakże wtedy obliczamy
ją zazwyczaj jako średnią arytmetyczną dwóch środkowych
obserwacji w uporządkowanym szeregu danych [tj. n/2
i (n/2 + 1)]. Tak więc, jeżeli na przykład n - 20, to mediana
jest średnią arytmetyczną z 20/2 =10 oraz (20/2 + D =
= (10 + 1) = 11 (dziesiątej i jedenastej wartości) w uporząd
kowanym szeregu danych.
Mediana jest zbliżona do średniej, jeżeli dane mają roz
kład symetryczny (rycina 5.1), jest mniejsza niż średnia,
gdy dane mają rozkład prawoskośny (rycina 5.2), natomiast
większa niż średnia przy rozkładzie lewoskośnym.
WARTOŚĆ MODALNA
Wartość modalna jest wartością najczęściej pojawiającą się
w zbiorze danych; jeżeli dane są ciągłe, zazwyczaj je grupu
jemy i obliczamy modalną dla grup. Niektóre zbiory danych
nie mają wartości modalnej, ponieważ każda wartość poja
wia się tylko raz. Czasami występuje więcej niż jedna war
tość modaina; dzieje się tak wtedy, gdy dwie lub więcej
wartości pojawiają się taką samą liczbę razy, a częstość wy
stępowania każdej z nich jest większa niż częstość wystę
powania każdej innej wartości. Wartość modalna jest rzad
ko stosowana jako miara podsumowująca.
ŚREDNIA GEOMETRYCZNA
Średnia arytmetyczna nie jest odpowiednią miarą położe
nia, jeżeli dane są skośne. Jeżeli dane są prawoskośne,
możemy uczynić rozkład bardziej symetrycznym poprzez
zlogarytmowanie (z podstawą dziesiętną lub naturalną)
każdej wartości w szeregu danych (rozdział 9). Średnia
arytmetyczna wartości zlogarytmowanych jest miarą poło
żenia danych przetransformowanych. Aby otrzymać miarę,
która będzie miała takie same jednostki jak oryginalne ob
serwacje, musimy dokonać transformacji odwrotnej (tj.
wziąć antylogarytm) średniej z logarytmów danych; miarę
tę nazywamy średnią geometryczną. Przy założeniu, że
rozkład danych zlogarytmowanych jest w przybliżeniu sy
metryczny, średnia geometryczna jest zbliżona do media
ny i mniejsza niż wartość średnia z surowych danych (ry
cina 5.2).
ŚREDNIA WAŻONA
Średniej ważonej używamy wtedy, gdy pewne wartości in
teresującej nas zmiennej są ważniejsze niż inne. W celu
uwidocznienia stopnia ważności dołączamy wagi w{
do każ
dej wartości x;
z naszej próbki. Jeżeli wartości
xn
mają odpowiadające wagi średnia wa
żona jest określona jako:
18 Opracowywanie danych
Tablica 5.1. Zalety i wady miar przeciętnych.
Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet
w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja
ko że rozkład wartości oznaczających wiek wygląda na symetrycz
ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje
przerywana linia.
Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój-
glicerydów w próbie 232 mężczyzn, którzy przebyli zawał serca
'rozdział 19). Jako że rozkład wartości oznaczających poziom trój-
źhcerydów jest prawoskośny, średnia daje wyższe wartości prze
ciętne niż mediana lub średnia geometryczna.
Miara
przeciętna Zalety
Średnia • Można ją stosować
w przypadku wszystkich
wartości.
• Zdefiniowana algebra
icznie, łatwa w algo-
rytmizacji.
• Znany rozkład próbko
wania (rozdział 9).
Mediana • Nie jest zniekształca
na przez wartości
odskakujące.
• Nie zniekształcana
przez dane skośne.
Modalna • Łatwo daje się wyzna
czać dla danych kate-
gorialnych.
Średnia • Przed transformacją
geome- odwrotną ma takie
tryczna same zalety jak średnia.
• Odpowiednia dla roz
kładów prawoskośnych.
Średnia • Takie same zalety jak
ważona średnia.
• Przypisuje względną
wagę do każdej obser
wacji.
• Zdefiniowana algebra
icznie.
Wady
• Zniekształcana przez
wartości odskakujące.
• Zniekształcana w przy
padku rozkładów sko
śnych.
* Pomija większość do
stępnych informacji.
• Nie zdefiniowana alge
braicznie.
• Skomplikowany rozkład
próbkowania.
• Pomija większość do
stępnych informacji.
• Nie zdefiniowana alge
braicznie.
• Nieznany rozkład prób
kowania.
• Daje się stosować jedy
nie w przypadku, gdy
transformacja logaryt
miczna wytwarza roz
kład symetryczny.
• Wagi muszą być znane
lub oszacowane.
Na przykład, przypuśćmy, że jesteśmy zainteresowani
wyznaczeniem średniego czasu pobytu pacjentów hospitali
zowanych w szpitalach w okręgu i znamy średni czas zwol
nienia pacjentów do domu w każdym szpitalu. Jedną z moż
liwości będzie uwzględnienie jako wagi liczby pacjentów
w każdym ze szpitali.
Średnia ważona i średnia arytmetyczna są identyczne,
gdy każda waga jest równa jedności.
5. Opis danych: wartość przeciętna 19
Wiek matki w chwili narodzin dziecka (w latach)
Poziom trójolicerydów (mmol/L)
6 OPIS DANYCH: ROZPROSZENIE
PODSUMOWYWANIE DANYCH
Jeżeli jesteśmy w stanie wyznaczyć dwie miary podsumo
wujące dla zmiennej ciągłej — jedną, która wskazuje war
tość przeciętną i drugą opisującą rozproszenie danych —
Wtedy dokonujemy kondensacji danych w sposób znaczący.
W rozdziale 5 wytłumaczyłyśmy, jak dobrać odpowiednią
miarę przeciętną. Ten rozdział poświęcamy omówieniu naj
bardziej znanych miar rozproszenia (dyspersji lub zmien
ności), które to miary zostały porównane w tablicy 6.1.
Rozstęp jest różnicą między największą i najmniejszą
wartością w zbiorze danych; często podaje się te dwie war
tości zamiast ich różnicy. Trzeba zauważyć, że rozstęp daje
mylącą wielkość rozproszenia, gdy w danych znajdują się
wartości odskakujące (rozdział 3).
ROZSTĘPY UZYSKIWANE Z PERCENTYLI
Czym są percentyle?
Przypuśćmy, że uporządkowaliśmy dane w kierunku wzro
stu ich wielkości, rozpoczynając od wartości najmniejszej
i kończąc na największej. Wartość zmiennej x, poniżej któ
rej w uporządkowanym szeregu znajduje się 1% wartości
(a 99% wartości leży powyżej), jest zwana pierwszym per-
centylem. Wartość x, poniżej której leży 2% obserwacji,
zwana jest drugim percentylem itd. Wartości x, które dzie
lą uporządkowany zbiór na 10 równych pod względem licz
by części, tj. dziesiąty, dwudziesty, trzydziesty,... dziewięć
dziesiąty percentyl zwane są decylami. Wartości, które
dzielą uporządkowany zbiór na cztery równe pod względem
liczby części, tj. dwudziesty piąty, pięćdziesiąty i siedem
dziesiąty piąty percentyl nazywamy kwartylami. Pięćdzie
siąty centyl jest medianą (rozdział 5).
Posługiwanie się percentylami
Miarę rozproszenia niezaburzaną przez wartości skrajne
możemy uzyskać, wykluczając wartości ekstremalne
w zbiorze danych i wyznaczając rozstęp dla pozostałych ob
serwacji. Rozstęp międzykwartylowy definiujemy jako róż
nicę między pierwszym i trzecim kwartylem, tj. pomiędzy
dwudziestym piątym i siedemdziesiątym piątym percenty
lem (rycina 6.1). Zawiera on centralnych 50% obserwacji
z uporządkowanego szeregu, 25% obserwacji leży poniżej je
go dolnej granicy, a 25% — powyżej jego górnej granicy.
Rozstęp międzydecylowy zawiera 80% centralnych obser
wacji, tj. leżące między dziesiątym i dziewięćdziesiątym
percentylem. Często używa się rozstępu zawierającego 95%
centralnych obserwacji, tj. wykluczających 2,5% obserwacji
powyżej jego górnej granicy i 2,5% poniżej dolnej granicy
(rycina 6.1). Możemy używać tego przedziału do diagnozo
wania choroby, przy założeniu, że jest on wyznaczony i wy
starczającej liczby wartości zmiennej dla osób zdrowych.
Jest on często określany jako przedział odniesienia, zakres
odniesienia lub zakres normalny (rozdział 38).
WARIANCJA
Jedną z metod mierzenia rozproszenia danych jest wyzna
czenie, w jakim stopniu każda z obserwacji jest oddalona
od średniej arytmetycznej. Oczywiście, im większe są te od
ległości, tym większa jest zmienność obserwacji. Nie może
my jednak używać średniej arytmetycznej tych odległości
jako miary rozproszenia, gdyż dodatnie różnice dokładnie
pokryją się z różnicami ujemnymi. Problem ten możemy
obejść przez podniesienie każdej odległości do kwadratu
i znalezienie średniej z kwadratów odległości (rycina 6.2);
wielkość tę nazywamy wariancją. Jeżeli mamy próbę
n obserwacji xlT x2, x3, ..., xn, dla których średnia wynosi
Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka
(rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar
tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi
mum i minimum.
Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości
wieku matki w chwili porodu (rozdział 2) wokół wartości średniej.
Wariancja jest obliczana przez dodanie podniesionych do kwadratu
odległości między poszczególnymi punktami a średnią i następnie
podzielenie przez (n - 1).
20 Opracowywanie danych
i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle
omaczoną pr2ez s2
, jako
Jak widać, nie jest to dokładnie sama średnia arytme
tyczna kwadratów odległości, ponieważ dokonujemy dziele
nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że
w naszych badaniach niemal zawsze opieramy się na próbie
danych (rozdział 10). Można wykazać teoretycznie, że otrzy
mamy lepsze oszacowanie wariancji w populacji, gdy doko
namy dzielenia przez (n- 1).
Jednostką wariancji jest jednostka oryginalnej obserwa
cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona
jest w kg, jednostką wariancji jest kg2
.
ODCHYLENIE STANDARDOWE
Odchylenie standardowe jest pierwiastkiem kwadratowym
2 wariancji. W próbie n obserwacji jest równe:
Możemy wyobrazić sobie odchylenie standardowe jako
rodzaj wartości przeciętnej odległości obserwacji od warto
ści średniej. Jest ono wyrażone w tych samych jednostkach,
co dane surowe.
Jeżeli podzielimy odchylenie standardowe przez wartość
średnią i wyrazimy ten iloraz w procentach, otrzymamy
tzw. współczynnik zmienności. Jest on miarą rozproszenia
niezależną od jednostek, lecz powoduje pewne teoretyczne
niedogodności, na skutek czego nie jest lubiany przez staty
styków.
ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW
I MIĘDZY NIMI
Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla
jednego osobnika, możemy się spodziewać, że wystąpi pew
na zmienność (zmienność wewnątrzgrupowa) między jego
wynikami. Może się to zdarzyć dlatego, że dany osobnik nie
zawsze odpowiada w dokładnie ten sam sposób i/lub
z powodu błędu pomiarowego. Jednakże wariancja we
wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą
wyznaczymy, biorąc pojedynczy pomiar każdego osobnika
w grupie (zmienność międzygrupowa). Na przykład, 17-let-
ni chłopiec ma pojemność życiową płuc pomiędzy 3,60
a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie.
Wartość pojedynczych pomiarów zebranych u 10 chłopców
w tym samym wieku zawiera się natomiast między 2,98
a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz
dział 13).
Tablica 6.1. Zalety i wady miar rozproszenia.
Miara
rozproszenia
Rozstęp
Rozstęp
oparty
o percentyle
Wariancja
Odchylenie
standardowe
Zalety
• Łatwo daje się wy
znaczyć.
• Zazwyczaj nie znie
kształcany przez
wartości odskakujące.
• Niezależny od wiel
kości próby.
• Odpowiedni dla
danych skośnych.
• Wykorzystuje
wszystkie wartości.
• Zdefiniowana alge
braicznie.
• Te same zalety jak
wariancji.
• Jednostka miary jest
taka sama jak jedno
stka pomiaru surowego.
• Łatwe w interpretacji.
Wady
• Można go stosować
w przypadku tylko
dwóch wartości.
• Zniekształcany przez
wartości odskakujące.
• Ma tendencję do wzro
stu, gdy rośnie wiel
kość próby.
• Trudny do policzenia.
• Nie może być stosowany
dla małych prób.
• Bierze pod uwagę jedy
nie dwie wartości.
• Niezdefiniowany alge
braicznie.
• Jednostka miary jest
kwadratem jednostki
pomiaru surowego.
• Czułe na wartości
odskakujące.
• Niewłaściwe dla danych
skośnych.
6. Opis danych: rozproszenie 21
7 ROZKŁADY TEORETYCZNE: ROZKŁAD NORMALNY
W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych
utworzyć empiryczny rozkład częstości. Rozkład ten kontra
stuje z teoretycznym rozkładem prawdopodobieństwa, który
jest opisany modelem matematycznym. Jeżeli nasz ekspery
mentalny rozkład przybliża jakiś szczególny rozkład częstotli
wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym
rozkładzie do udzielenia odpowiedzi na temat danych. Często
trzeba w tym celu obliczyć prawdopodobieństwo.
ZROZUMIENIE PRAWDOPODOBIEŃSTWA
Prawdopodobieństwo (prób — probability) jest miarą nie
pewności; leży u podstaw teorii statystyki. Mierzy ono
szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią
leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to
zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to
zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają
cego (zdarzenia niepojawiającego się) jest równe jeden mi
nus prawdopodobieństwo zdarzenia pojawiającego się.
Prawdopodobieństwo zdarzenia warunkowego, tzn. praw
dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło
inne zdarzenie, omówimy w rozdziale 45.
Prawdopodobieństwo możemy wyznaczyć, stosując róż
ne podejścia.
• Subiektywne — stopień naszej osobistej wiary, że
zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec
2050 roku).
• Częstościowe — proporcja liczby zdarzeń zjawiska
przy eksperymencie powtarzanym wielką liczbę razy (np.
ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie
zafałszowanej monety).
• Aprioryczne — wymaga znajomości modelu teoretycz
nego, zwanego rozkładem częstości, który opisuje prawdo
podobieństwa wszystkich możliwych wyników eksperymen
tu. Na przykład, teoria genetyczna pozwala opisać rozkład
prawdopodobieństwa otrzymania określonego koloru oczu
u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny
o oczach brązowych. Odbywa się to przez wyszczególnienie
wszystkich możliwych genotypów koloru oczu i prawdopo
dobieństw ich wystąpienia.
REGUŁY PRAWDOPODOBIEŃSTWA
Możemy stosować reguły dodawania i mnożenia prawdopo
dobieństw.
• Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza
jemnie się wykluczają (tzn. każde wystąpienie jednego zda
rzenia wyklucza pojawienie się drugiego), wtedy prawdopo
dobieństwo pojawienia się jednego lub drugiego zdarzenia
jest równe sumie prawdopodobieństw pojawienia się każde
go ze zdarzeń.
Prób (A lub B) = Prób (A) + Prób (B)
Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie
dentystycznym pojawi się dorosły pacjent bez brakujących
zębów, z niektórymi brakującymi zębami lub bezzębny (tzn.
nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09,
wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi
0,67 + 0,24 = 0,91.
• Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są
niezależne (tj. wystąpienie jednego ze zdarzeń nie warun
kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że
zajdą oba zdarzenia, jest równe iloczynowi prawdopodo
bieństw zajścia każdego z nich:
Prób (A i B) = Prob(A) x ProWB)
Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi
rurga stomatologicznego, prawdopodobieństwo, że obaj nie
mają brakujących zębów wynosi 0,67 x 0,67 = 0,45.
ROZKŁADY PRAWDOPODOBIEŃSTWA:
TEORIA
Zmienna losowa jest wielkością, którą może przyjąć każda ze
zbioru wzajemnie wykluczających się wielkości z określonym
prawdopodobieństwem. Rozkład prawdopodobieństwa poka
zuje prawdopodobieństwa wszystkich możliwych wartości
zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma
tematycznie, posiadający średnią i wariancję, podobnie jak
posiada je rozkład empiryczny. Każdy rozkład prawdopodo
bieństwa jest zdefiniowany pewnymi parametrami, które są
miarami podsumowującymi (np. średnia, wariancja), charak
teryzującymi ten rozkład (tzn. znajomość tych parametrów
pozwala w pełni opisać rozkład). Parametry te są oszacowy
wane w próbie przez odpowiednie statystyki. W zależności
od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz
kład prawdopodobieństwa może być dyskretny lub ciągły.
• Dyskretny (np. dwumianowy, Poissona) — możemy
otrzymać prawdopodobieństwa odpowiadające każdej moż
liwej wartości zmiennej losowej. Suma wszystkich tych
prawdopodobieństw wynosi jeden.
• Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy
jedynie wyznaczyć prawdopodobieństwo, że zmienna loso
wa x przybierze wartość z pewnego przedziału (ponieważ
istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma
oś przedstawia wartości x, możemy narysować krzywą
z równania rozkładu (funkcja gęstości rozkładu prawdopo
dobieństwa); przypomina ona empiryczny, względny roz-
Catkowite pole pod krzywą = 1 (lub 100%)
Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x.
22 Opracowywanie danych
Rycina 7.2. Funkcja gęstości praw
dopodobieństwa rozkładu normalne
go zmiennej x.
(a) Symetryczna wokói średniej fi:
wariancja = a
2
.
(b) Efekt zmiany średniej
(c) Efekt zmiany wariancj:
Rycina 7.3. Pola (procenty całkowitego prawdopodobieństwa) pod
krzywą dla (a) rozkładu normalnego x, ze średnią fi i wariancją a2
,
i
8 ROZKŁADY TEORETYCZNE: INNE ROZKŁADY
PARĘ SŁÓW USPOKOJENIA
Teoria dotycząca rozkładów prawdopodobieństwa może wy
dać się złożona. Z naszego doświadczenia wiemy, że chciał
byś jedynie wiedzieć, kiedy i jak ich użyć. Dlatego naszki
cowałyśmy jedynie najważniejsze elementy, a ominęłyśmy
wzory definiujące rozkłady prawdopodobieństwa. Ich
zrozumienie wymaga jedynie znajomości podstawowych po
jęć, terminologii i prawdopodobnie (chociaż w dobie kompu
terów rzadko), umiejętności korzystania z tablic.
INNE CIĄGŁE ROZKŁADY
PRAWDOPODOBIEŃSTWA
Rozkłady te oparte 5ą na ciągłych zmiennych losowych. Czę
sto nie sama zmienna mierzona, lecz statystyka otrzymana
z tej zmiennej podlega takiemu rozkładowi. Całkowite pole
pod krzywą funkcji rozkładu prawdopodobieństwa repre
zentuje prawdopodobieństwo otrzymania wszystkich możli
wych wyników i jest równe jeden (rozdział 7). Rozkład nor
malny omówiłyśmy w rozdziale 7; inne rozkłady są opisane
w tym rozdziale.
Rozkład t (Dodatek A2, rycina 8.1)
• Opisany przez W. S. Gossetta, który publikował pod pseu
donimem „Student"; jest często zwany rozkładem f-Studenta.
• Parametrem charakteryzującym rozkład t jest liczba
stopni swobody: możemy wykreślić funkcję gęstości praw
dopodobieństwa, jeżeli znamy równanie rozkładu t i liczbę
stopni swobody. Liczbę stopni swobody omawiamy w roz
dziale 11; należy zwrócić uwagę, że są one często blisko po
wiązane z wielkością próby.
• Jego kształt jest podobny do standaryzowanego rozkła
du normalnego, lecz jest bardziej rozciągnięty (ma dłuższe
ogony). Kształt ten przybliża się do rozkładu normalnego,
w miarę jak rośnie liczba stopni swobody.
• Jest szczególnie użyteczny do obliczania przedziałów
ufności i testowania hipotez o jednej lub dwóch średnich
(rozdziały 19-21).
Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500.
24 Opracowywanie danych
Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2)
• Jest rozkładem prawoskośnym, przybierającym warto
ści dodatnie.
• Jest określony przez liczbę stopni swobody (rozdział 11).
• Jego kształt zależy od liczby stopni swobody; staje się
bardziej symetryczny i przybliża się do rozkładu normalne
go, w miarę jak wzrasta liczba stopni swobody.
• Jest szczególnie przydatny do analizy danych katego-
rialnych (rozdziały 23-25).
Rozkład F (Dodatek A5)
• Jest prawoskośny.
• Jest zdefiniowany przez proporcje. Rozkład stosunku
dwóch oszacowywanych wariancji obliczonych z danych
o rozkładzie normalnym przybliża rozkład F.
• Dwa parametry, które charakteryzują ten rozkład, to
liczby stopni swobody (rozdział 11) licznika i mianownika
proporcji.
• Rozkład F jest szczególnie przydatny przy porównywa
niu dwóch wariancji (rozdział 18) oraz więcej niż dwóch śred
nich przy użyciu analizy wariancji (ANOVA, rozdział 22).
Rozkład lognormalny
• Jest rozkładem prawdopodobieństwa zmiennej loso
wej, której logarytm (o podstawie 10 lub e) podlega rozkła
dowi normalnemu.
• Jest silnie prawoskośny (rycina 8.3a).
• Jeżeli obliczymy logarytm z naszych surowych danych,
które są prawoskośne, i otrzymujemy rozkład empiryczny
o kształcie zbliżonym do normalnego (rycina 8.3b), to nasze
dane przybliżają rozkład lognormalny.
• Wiele zmiennych w medycynie podlega rozkładowi
lognormalnemu. Po transformacji tych zmiennych poprzez
obliczenie logarytmów możemy wykorzystać właściwości
rozkładu normalnego do wnioskowania o tych zmiennych
(rozdział 7).
• Jeżeli dane mają rozkład lognormalny, możemy użyć
średniej geometrycznej (rozdział 5) jako podsumowującej
miary położenia.
Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1,
2, 5 i 10.
Rycina 8.3. (a) Rozkład lognormalny
poziomów trójglicerydów u 232 męż
czyzn, u których wystąpiła choroba
serca (rozdział 19); (b) przybliżony roz
kład normalny wartości log10
(poziom
trójglicerydów).
Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby
ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi
p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu).
DYSKRETNE ROZKŁADY
PRAWDOPODOBIEŃSTWA
Zmienna losowa, która określa rozkład prawdopodobieństwa,
jest dyskretna. Suma prawdopodobieństw wszystkich wza
jemnie wykluczających się zdarzeń równa się jeden.
Rozkład dwumianowy
• Przypuśćmy, że w danej sytuacji są możliwe tylko dwa
wyniki: „sukces" lub „porażka". Na przykład, jesteśmy zain
teresowani, czy po sztucznym zapłodnieniu in vitro (IVF) ko
bieta pocznie dziecko (sukces), czy też nie (porażka). Jeżeli
weźmiemy n - 100 niespokrewnionych kobiet podlegających
IVF (każda z tym samym prawdopodobieństwem poczęcia),
obserwowana liczba poczęć (sukcesów) będzie losową zmien
ną binomialną. Często koncepcja tego rozkładu jest wyjaśnia
na poprzez n niezależnych powtórzeń eksperymentu (np. 100
rzutów monetą), w którym wynik jest albo sukcesem (np.
orzeł), albo porażką.
• Dwoma parametrami, które opisują rozkład dwumiano
wy, są n, liczba osobników w próbie (lub powtórzeń ekspery
mentu), oraz 7Z, prawdziwe prawdopodobieństwo sukcesu dla
każdego osobnika (lub każdego eksperymentu).
• Jego średnia (wartość zmiennej losowej, której spo
dziewamy się po analizie n osobników lub po powtórzeniu
eksperymentu n razy) wynosi rut. Jego wariancja wynosi
nnd-n).
• Dla małego n rozkład jest prawoskośny, gdy n < 0,5,
i lewoskośny, gdy JC > 0,5. Rozkład staje się bardziej syme
tryczny, gdy rośnie wielkość próby (rycina 8.4), i przybliża
rozkład normalny, jeżeli zarówno nn, jak i n(l- jr) są więk
sze niż 5.
• Rozkładu dwumianowego możemy użyć, gdy wniosku
jemy o proporcjach. W szczególności, gdy analizujemy pro
porcje, często używamy przybliżenia normalnego rozkładu
dwumianowego.
Rozkład Poissona
• Zmienna losowa Poissona jest liczbą zdarzeń pojawiają
cych się niezależnie i losowo w czasie lub przestrzeni z pew
ną średnią częstością^. Na przykład, dzienna liczba przyjęć
do szpitala podlega rozkładowi Poissona. Możemy użyć naszej
wiedzy o rozkładzie Poissona do wyznaczenia prawdopodo
bieństwa pewnej liczby przyjęć określonego dnia.
• Parametrem opisującym rozkład Poissona jest średnia,
tzn. przeciętna częstość fi.
• W rozkładzie Poissona średnia równa się wariancji.
• Jest to rozkład prawoskośny, gdy średnia jest mała,
lecz staje się coraz bardziej symetryczny, gdy średnia rośnie;
przybliża wtedy rozkład normalny.
8. Rozkłady teoretyczne: inne rozkłady 25
Medical Statistics at a Glance Aviva Petrie Head of Biostatistics Unit and Senior Lecturer Eastman Dental Institute University College London 256 Grays Inn Road London WC1X 8LD and Honorary Lecturer in Medical Statistics Medical Statistics Unit London School of Hygiene and Tropical Medicine Keppel Street London WC1E7HT Caroline Sabin Prof essor of Medical Statistics and Epidemiology Department of Primary Care and Population Sciences Royal Free and University College Medical School Rowland Hill Street London NW3 2PF Second edition
Aviva Petrie, Caroline Sabin Statystyka medyczna w zarysie Ttumaczenie prof. dr hab. J e r z y M o c z k o
© Copyright by Wydawnictwo Lekarskie PZWL, Warszawa 2006 Tłumaczone z Aviva Petrie, Caroline Sabin, Medical Statistics at a Glance, Second edition © 2005 Aviva Petrie and Caroline Sabin Published by Blackwell Publishing Ltd Blackwell Publishing, Inc., 350 Main Street, Malden, Massachusetts 02148-5020, USA Blackwell Publishing Ltd, 9600 Garsington Road, Oxford 0X4 2DQ, UK Blackwell Publishing Asia Pty Ltd, 550 Swanston Street, Carlton, Victoria 3053, Australia The right of the Authors of this Work has been asserted in accordance with the Copyright, Design and Patents Act 1988. This edition is published by arrangement with Blackwell Publishing Ltd, Oxford. Translated by Wydawnictwo Lekarskie PZWL from the original English language version. Responsibility of the accuracy of the translation rests solely with the Wydawnictwo Lekarskie PZWL and is not the respon- sibility of Blackwell Publishing Ltd. Wszystkie prawa zastrzeżone. Przedruk i reprodukcja w jakiejkolwiek postaci całości bądź części książki bez pisemnej zgody wydawcy są zabronione. Redaktor ds. publikacji medycznych: Anna Plewa Redaktor merytoryczny: Anna Nowosielska-Tiuryn Redaktor techniczny: Małgorzata Chmielewska Korekta: Zespół Projekt okładki i stron tytułowych: Magdalena Kaczmarczyk ISBN 83-200-3312-8 Wydanie I Wydawnictwo Lekarskie PZWL 00-251 Warszawa, ul. Miodowa 10 tel. +48(22) 695-40-33 Księgarnia wysyłkowa: tel. +48(22) 695-44-80 infolinia: 0-801-142-080 www.pzwl.pl e-maił: promocia@pzwl.pi Skład i łamanie: Mater, Warszawa Druk i oprawa: Drukarnia Narodowa S.A., Kraków
SPIS TREŚCI Przedmowa tłumacza 6 Wstęp 8 Opracowywanie danych 1 Rodzaje danych 10 2 Wprowadzanie danych 12 3 Kontrola błędów i wartości odskakujące . . . 14 4 Graficzna prezentacja danych 16 5 Opis danych: wartość przeciętna 18 6 Opis danych: rozproszenie 20 7 Rozkłady teoretyczne: rozkład normalny . . . 22 8 Rozkłady teoretyczne: inne rozkłady 24 9 Transformacje 26 Próbkowanie i estymacja 10 Próbkowanie i rozkłady próbkowania 28 11 Przedziały ufności 30 Planowanie badania 12 Planowanie badania I 32 13 Planowanie badania II 34 14 Eksperymenty kliniczne 36 15 Badania kohortowe 39 16 Badania przypadek-kontrola 42 Testowanie hipotez 17 Testowanie hipotez 44 18 Błędy w testowaniu hipotez 46 Podstawowe techniki analizy danych Dane numeryczne 19 Dane numeryczne: pojedyncza grupa 48 20 Dane numeryczne: dwie grupy powiązane . . 51 21 Dane numeryczne: dwie grupy niepowiązane . 54 22 Dane numeryczne: więcej niż dwie grupy . . 57 Dane kategorialne 23 Dane kategorialne: pojedyncza proporcja . . . 60 24 Dane kategorialne: dwie proporcje 64 25 Dane kategorialne: więcej niż dwie kategorie . 66 Regresja i korelacja 26 Korelacja 69 27 Teoria regresji liniowej . . . ., 72 28 Przeprowadzanie analizy regresji liniowej . . 74 29 Wielokrotna regresja liniowa 78 30 Wyniki binarne i regresja logistyczna . . . . 81 31 Częstości i regresja Poissona 84 32 Uogólnione modele liniowe 88 33 Zmienne wyjaśniające w modelach statystycznych 90 34 Zagadnienia związane z modelowaniem statystycznym 93 Ważne zagadnienia 35 Sprawdzanie założeń 96 36 Wyznaczanie wielkości próby 98 37 Prezentacja wyników 101 Zagadnienia dodatkowe 38 Narzędzia diagnostyczne 104 39 Szacowanie zgodności 107 40 Medycyna poparta dowodami 110 41 Metody dla danych klasteryzowanych . . . . 112 42 Metody regresji dla danych klasteryzowanych 115 43 Przeglądy systematyczne i metaanaliza . . . . 118 44 Analiza przeżycia 121 45 Metody Bayesowskie 124 Dodatki A Tablice statystyczne 126 B Nomogram Altmana do obliczeń wielkości próby 133 C Typowe wydruki komputerowe 134 D Słowniczek terminów statystycznych 146 E Skorowidz 156 5
6 PRZEDMOWA TŁUMACZA White lie, damned lie, statistics (Małe kłamstwo, wielkie łgarstwo, statystyka) — te słowa przypisywane Markowi Twainowi, w których opisał stopnie nieprawdy, chyba najle piej oddają stosunek większości „normalnych ludzi" do sta tystyki. Uważa się ją za narzędzie do manipulowania dany mi, pozwalające na pseudonaukowe udowadnianie swoich racji. Wielu z nas, obserwując prognozy statystyczne prezen towane w środkach masowego przekazu, stwierdza, że wie lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi my sytuacje jasne, niedwuznaczne, z których moglibyśmy wywnioskować, że „białe jest białe, a czarne — czarne". Ma ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo dobrym i precyzyjnym działem matematyki jak algebra, try gonometria czy rachunek różniczkowy i całkowy. Stanowi ona część rachunku prawdopodobieństwa i bez problemu stosuje się ją w fizyce, chemii i naukach technicznych. Sto sowanie statystyki w ekonomii (np. prognozowanie kursów giełdowych, analizy ubezpieczeniowe) również nie budzi większych zastrzeżeń. Nieco inaczej przedstawia się sytu acja z zastosowaniem statystyki w naukach medycznych. Dane medyczne charakteryzuje duży stopień zmienności zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do datkowym problemem jest uzyskanie próby o wystarczają cej liczebności (rzadkie jednostki chorobowe, kosztowne procedury badawcze, zagadnienia etyczne w leczeniu inwa zyjnym) i z tego względu standardowe techniki statystyczne często nie mogą być stosowane. Dlatego też w ramach staty styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie ku, aczkolwiek wykorzystuje ona również teorie opracowa ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie ma roku, by nie pojawiły się nowe techniki analizy danych biomedycznych, istotnie wzbogacane przez rozwój technolo gii komputerowej. Bez użycia komputerów trudno wyobra zić sobie użycie takich metod, jak bootstrapping, jackkni- fing, metoda Monte Carlo. Próbę przedstawienia aktualnego stanu wiedzy z tej dzie dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo- pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona — ogromne dzieło o ponad sześciu tysiącach stron zapisa nych drobnym drukiem. Niestety wiedza ta ma charakter hermetyczny i jest niemal całkowicie niedostępna dla prze ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu diując artykuły naukowe ze swojej dziedziny, napotka takie sformułowania jak przedział ufności, regresja logistyczna czy rozkład Poissona? Próba poszukiwania tych terminów w wydawnictwach encyklopedycznych lub fachowych z za kresu statystyki z miejsca stawia go na przegranej pozycji z uwagi na sformalizowany język i kompletnie niezrozumia łe dla niego wzory. Na całym świecie w szkolnictwie medycznym wykładane są metody biostatystyki. Niestety, z reguły przedmiot ten zo staje umiejscowiony na początkowych latach studiów w ra mach tzw. przedmiotów podstawowych. Powoduje to najczę ściej, że student traktuje go jako jeszcze jeden niepotrzebny kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli niki. Prawdziwa potrzeba użycia statystyki pojawia się na wyższych latach, np. przy pisaniu pierwszych prac w ra mach studenckich towarzystw naukowych. Wtedy to po raz pierwszy student staje przed problemem, jak sformułować hipotezy badawcze, jak zebrać materiał do analizy, jak powi nien być on obszerny, co oznacza termin reprezentatywność, jakiego użyć testu statystycznego, jak zinterpretować wyni ki itd. Powszechny dostęp do komputerów i zainstalowanych w nich pakietów statystycznych znakomicie ułatwia sytu ację, lecz niestety tylko pozornie. Pojawiają się prace „na ukowe", w których niezdarne próby użycia statystyki gene rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę. Podobna sytuacja przydarza się słuchaczom studium dokto ranckiego. Przygotowywana rozprawa doktorska wymaga bowiem rygorystycznego podejścia metodycznego, z reguły surowo ocenianego przez recenzentów pracy. Również próba publikowania swoich wyników w czasopismach medycznych często kończy się zwróceniem pracy w celu wykonania po prawek dotyczących użytych technik statystycznych. W tej sytuacji pozostaje jedynie zlecenie wykonania analiz staty stykowi, albo też ambitna próba odkurzenia notatek z biosta tystyki i przegryzienia się przez trudny materiał. Na polskim rynku wydawniczym nie ma niestety dużego wyboru książek poświęconych tej tematyce. Z reguły są to albo dość stare pozycje, nie uwzględniające najnowszych dokonań w tej dziedzinie, albo przeładowane wiedzą teore tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa skorzystania z najlepszych wzorców dydaktycznych dostęp nych w literaturze obcojęzycznej. Jedną z takich pozycji jest książka Avivy Petrie i Caroline Sabin, pt. Statystyka me dyczna w zarysie, wydana po raz pierwszy przez Blackwell Publishing w roku 2000 w ramach serii książek przezna czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo stała wydana w przeredagowanej i uzupełnionej wersji. W Stanach Zjednoczonych jest polecana przy przygotowa niach do zdania egzaminu państwowego USMLE step 1. Jej niezwykła popularność bierze się stąd, że Autorkom udało się w znakomity sposób wyważyć ilość wiedzy teore tycznej niezbędną do zrozumienia podstawowych pojęć sta tystycznych i zastosowania praktyczne pojawiające się w pracy lekarza. Opisane prostym, lecz precyzyjnym języ kiem rzeczywiste problemy z różnych dziedzin medycyny bardzo dobrze ilustrują sposób użycia rozmaitych technik statystycznych przedstawionych w tekście. Autorki w roz sądny sposób podają wzory (tam, gdzie to rzeczywiście ko nieczne) i całkowicie pomijają dowody potrzebne matematy kom, a nie lekarzom. Nie ogranicza to jednak w żaden sposób precyzji przekazywanej informacji. Autorki przy wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą cych u podstaw stosowania rozmaitych technik statystycz nych, nie wdając się niepotrzebnie w ich uzasadnianie. Na książkę tę zwróciłem uwagę już w roku 2000 po jej pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla studentów anglojęzycznych w Akademii Medycznej im. Ka-
rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen tów potwierdzają jej niezwykłą przydatność przy przygoto waniu zarówno do testów w okresie studiów, jak i egzami nu USMLE step 1. Ucieszyła mnie zatem propozycja Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ ki na język polski i udostępnienia tej cennej pozycji polskie mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak tu, iż tłumaczenie jest jak kobieta — „wierna nie jest piękna, a piękna nie jest wierna". Problem stanowią nie tyl ko nieprzetłumaczalne na język polski (ale w pełni zrozu miale dla naukowców) słowa, takie jak bootstrapping, jack- knifing, ale i specyfika językowa uniemożliwiająca krótkie, jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły angielski termin virological Jailure po konsultacji z wiruso logami rozrósł się do „braku efektu terapeutycznego po le czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom lekarzom za poświęcenie mi czasu na skonsultowanie termi nologii medycznej i będę wdzięczny za wszystkie uwagi, które mogłyby udoskonalić prezentowaną pracę. Książka Avivy Petrie i Caroline Sabin, pt. Statystyka medyczna w zarysie jest polecana zarówno kolejnym rocz nikom studentów wydziałów lekarskich i stomatologicznych, jak i słuchaczom studiów doktoranckich na akademiach me dycznych. Jako niezwykle przydatną znajdą ją również stu denci wydziałów fizyki uniwersytetów i politechnik tam, gdzie otwarte zostały kierunki fizyki medycznej. Może ona stanowić również znakomity materiał dydaktyczny dla pro wadzących wykłady i ćwiczenia z biostatystyki na wspo mnianych kierunkach studiów. Może też stanowić nieocenio ne źródło fachowych informacji dla każdego lekarza, zarówno naukowca pracującego w akademickich klinikach, jak i lekarza praktyka pragnącego poprzez samokształcenie poszerzać i doskonalić swoje umiejętności. W sprawdzeniu zdobytej wiedzy z zakresu biostatystyki może pomóc test za mieszczony na stronie internetowej www.medstatsaag.com (niestety nie został jeszcze spolszczony). Mam nadzieję, że książka ta zdobędzie podobną popularność u polskiego Czy telnika, jak w krajach zachodnich, i dostarczy mu dużo war tościowych i przystępnie podanych informacji. Jerzy A. Moczko
8 WSTĘP Książka Statystyka medyczna w zarysie jest skierowana do studentów akademii medycznych, badaczy medycznych, słuchaczy studiów podyplomowych w zakresie dyscyplin biomedycznych oraz personelu przemysłu farmaceutyczne go. Oni wszyscy na pewnym etapie życia zawodowego zetkną się z wynikami ilościowymi (własnymi lub innych ba daczy), które będą wymagały krytycznej analizy i interpre tacji. A niektórzy będą oczywiście musieli zdać ten straszli wy egzamin ze statystyki! Z tego powodu nieocenione jest właściwe zrozumienie statystycznych koncepcji i metodolo gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm Czytelnika dla statystyki co dostarczyć mu praktycznej wie dzy. W tym nowym wydaniu, podobnie jak to było w wyda niu poprzednim, naszym celem jest zapewnienie studentowi i badaczowi, jak również klinicyście napotykającemu w lite raturze medycznej koncepcje statystyczne, książki, która jest solidna, łatwa w czytaniu, wszechstronna, związana z tematem i użyteczna w praktycznym zastosowaniu. Wierzymy, że książka Statystyka medyczna w zarysie będzie szczególnie użyteczna jako pomoc dla wykładowców statystyki, również jako źródło odnośników. Struktura wy dania drugiego pozostaje taka sama jak wydania pierwsze go. Tak jak inne książki z serii ...w zarysie składa się z od rębnych, dwu-, trzy- lub rzadko czterostronicowych rozdziałów, z których każdy omawia inny aspekt statystyki medycznej. Z naszych własnych doświadczeń dydaktycz nych znałyśmy trudności, jakie napotykali nasi studenci podczas zgłębiania statystyki medycznej, i starałyśmy się wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się ograniczyć teoretyczną zawartość książki do poziomu wy starczającego do zrozumienia użytych procedur, lecz który nie zaciemnia jeszcze ich praktycznych zastosowań. Statystyka medyczna jest obszernym przedmiotem obej mującym wielką liczbę zagadnień. W książce podajemy pod stawowe koncepcje statystyki medycznej i przewodnik po najczęściej stosowanych procedurach statystycznych. Epidemiologia jest ściśle powiązana ze statystyką medycz ną, omawiamy więc podstawowe zagadnienia tej dziedziny, związane z planowaniem i interpretacją badania. Załączamy również rozdziały, którymi Czytelnik zainteresuje się jedy nie okazjonalnie, lecz które mimo wszystko są fundamental ne dla wielu obszarów badań medycznych; na przykład me dycyna oparta na dowodach, przeglądy systematyczne i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu maczymy zasady leżące u podstaw tych zagadnień tak, by Czytelnik był w stanie zrozumieć i zinterpretować ich wyni ki, jeżeli takowe zostaną zamieszczone w literaturze. Porządek pierwszych 30 rozdziałów tego wydania odpo wiada wydaniu pierwszemu. Większość tych rozdziałów po została nie zmieniona w nowym wydaniu. Niektóre zawierają stosunkowo małe zmiany, uwzględniające ostatnie zdobycze, oraz odwołania, zmiany wynikają również z reorganizacji materiału. Większe dodatki odnoszą się do stosunkowo zło żonych form analizy regresji, które obecnie są używane sze rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie, częściowo dlatego, że związane z tym oprogramowanie jest bardziej dostępne i efektywne, niż było w przeszłości. Zmo dyfikowałyśmy rozdział o wynikach binarnych i regresji lo gistycznej (rozdział 30), włączając nowy rozdział o często ściach i regresji Poissona (rozdział 31) oraz znacząco rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz ne", tak że składa się on teraz z trzech rozdziałów: „Uogól nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające w modelach statystycznych" (rozdział 33) oraz „Zagadnienia związane z modelowaniem statystycznym" (rozdział 34). Zmodyfikowałyśmy również rozdział 41, który opisuje róż ne podejścia do analizy danych sklasteryzowanych, i doda łyśmy rozdział 42, o różnych metodach regresyjnych, które mogą być użyte do analizy tego typu danych, W wydaniu pierwszym zamieszczono krótki opis analizy szeregów cza sowych, z czego zdecydowałyśmy się zrezygnować w dru gim wydaniu, jako że wydawał się zbyt skrótowy, aby być praktycznie użytecznym, a jego rozwinięcie wymagałoby wyjścia poza przyjęte granice trudności. Z powodu usunię cia, jak i dodania pewnych rozdziałów, numeracja rozdzia łów w wydaniu drugim różni się od tej z poprzedniego wy dania, począwszy od rozdziału 30. Większość rozdziałów w dalszej części książki, które były również w wydaniu pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie, Opisowi każdej techniki statystycznej towarzyszy przy kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy ze wspólnych badań, w których uczestniczyłyśmy my lub na si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze czywiste dane z wydanych publikacji. Tam, gdzie było to możliwe, użyłyśmy tych samych danych w więcej niż jednym rozdziale, aby odzwierciedlić rzeczywistość analizy danych, która rzadko jest ograniczona do jednej techniki lub podej ścia. Chociaż uważamy, że należy podawać wzory i wyja śniać logikę postępowania, starałyśmy się unikać szczegółów złożonych obliczeń — większość Czytelników ma dostęp do komputerów i jest mato prawdopodobne, że będą Oni do konywali ręcznie obliczeń, może poza tymi najprostszymi. Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika jest umiejętność interpretacji wyników z pakietu kompute rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania wyników wybrałyśmy wydruki komputerowe. W pewnych sytuacjach, gdy podejrzewałyśmy trudności interpretacyj ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po wszechnym użyciu istnieje wiele pakietów statystycznych; chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać postać wyników, nie ograniczyłyśmy się do wydruku z ja kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze znanych - SAS, SPSS oraz Stata. W całym tekście jest wiele odwołań mających Czytelniko wi ułatwić dotarcie do różnych procedur. Podstawowy ze staw tablic statystycznych jest zawarty w Dodatku A. Książ ki Neave H. R.: Elementary Statistical Tables, Routledge 1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd., Blackwell Publishing, Oxford 1970, obok wielu innych, za wierają wersje pełniejsze, których Czytelnik potrzebuje przy bardziej precyzyjnych obliczeniach przeprowadzanych
bez użycia komputera. Słowniczek terminów (Dodatek D) po daje przystępne wyjaśnienia większości użytej terminologii. Wiemy, że największą trudnością, jaką napotyka niesta- tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto wałyśmy dwa schematy blokowe, których można użyć za równo w celu podjęcia decyzji co do odpowiedniej metody w danej sytuacji, jak i w celu znalezienia jej w prezentowa nej książce. Oba schematy blokowe zamieszczono przezor nie na wewnętrznej stronie okładek, aby zapewnić do nich łatwy dostęp. Jako narzędzie pomocne w ocenie własnych postępów Czytelnik znajdzie interaktywne ćwiczenia zamieszczone na naszej stronie internetowej (www.medstatsaag.com). Strona ta zawiera również pełny zestaw cytowań (niektóre z nich prowadzą bezpośrednio do Medline) uzupełniających odnośniki zawarte w tekście i pozwalających odnaleźć bazowe informacje dotyczące przykładów. Czytelnikom, któ rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta tystyki medycznej, możemy polecić następujące książki: Altman D. G.: Practical Statistics for Medical Research. Chapman and Hall, Londyn 1991. Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods in Medical Research. Blackwell Science, Oxford 2001. Pocock S. J.: Clinical Trials: A Practical Approach. Wiley, Chichester 1983. Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi i Jonathanowi Sterne'owi, którzy opracowali nieocenione komentarze i sugestie do drugiego wydania, oraz Richardo wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro- wi za ich uwagi na temat pierwszego wydania. Chcemy podziękować każdemu, kto pomógł nam zdobyć dane do przykładów. Oczywiście, bierzemy pełną odpowiedzialność za jakiekolwiek błędy, które pozostały w tekście lub przy kładach. Chcemy również podziękować Mikowi, Geraldowi, Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili nasze przygotowania do wydania pierwszego i żyli z nami podczas trudnych prób opracowania wydania drugiego. Aviva Petrie Caroline Sabin Londyn
1 RODZAJE DANYCH DANE I STATYSTYKI Celem większości prowadzonych prac badawczych jest ze branie danych na temat określonego obszaru badań. Dane Obejmują obserwacje jednej lub wielu zmiennych. Każda wielkość podlegająca zmianom nosi nazwę zmiennej. Na przykład możemy zbierać podstawowe informacje kli niczne i demograficzne o pacjentach z określonym schorze niem, Interesujące nas zmienne mogą obejmować płeć, wiek i wzrost pacjentów. Dane uzyskuje się zazwyczaj z próby, która reprezentu je interesującą nas populację. Naszym celem jest znaczące skondensowanie danych i wydobycie z nich użytecznej in formacji. Statystyka obejmuje metody zbierania, podsumo wywania, analizy i wyciągania wniosków z danych: w tym celu stosujemy techniki statystyczne. Dane mogą przyjmować rozmaite formy. Przed podję ciem decyzji co do wyboru najbardziej odpowiedniej meto dy statystycznej musimy wiedzieć, z jakim typem danych mamy do czynienia. Każda zmienna i odpowiadająca jej da na może być albo kategorialna, albo numeryczna (ryci na 1.1). DANE KATEGORIALNE (JAKOŚCIOWE) Ten typ danych pojawia się, gdy każda jednostka może na leżeć wyłącznie do jednej z pewnej liczby oddzielnych kate gorii danej zmiennej. • Dane nominalne — kategorie nie są uporządkowane, lecz mają po prostu nadane nazwy. Przykładami mogą być grupy krwi (A, B, AB i 0) lub stan cywilny (żonaty/wdo wiec/kawaler itp). W ostatnim przypadku nie zakładamy, że małżeństwo jest lepsze (lub gorsze) od pozostawania w sta nie bezżennym. • Dane porządkowe — kategorie są w pewien sposób uporządkowane. Jako przykład można podać stan zaawan sowania choroby (zaawansowany, umiarkowany, łagodny, brak choroby) lub natężenie bólu (ciężki, umiarkowany, ła godny, brak bólu). Zmienna kategorialna jest binarna lub dychotomiczna, jeżeli może przyjmować jedynie dwie kategorie. Przykłada mi mogą być odpowiedzi „tak/nie", „zmarł/żyje", „pacjent jest chory/pacjent jest zdrowy". DANE NUMERYCZNE (ILOŚCIOWE) Ten typ danych pojawia się w chwili, gdy zmienne przyjmu ją wartości numeryczne. Dane numeryczne możemy podzie lić na dwa typy. • Dane dyskretne — występują, gdy zmienne mogą przybierać jedynie wartości całkowite. Przykładem mogą być liczby zdarzeń, takie jak liczba wizyt u lekarza rodzin nego w ciągu roku lub liczba epizodów chorobowych w cią gu ostatnich pięciu lat. • Dane ciągłe — występują, gdy nie ma innych ograni czeń wartości, jakie może przyjmować zmienna, niż te, któ re ograniczają nas w trakcie wykonywania pomiaru, np. masa ciała lub wzrost. ROZRÓŻNIANIE TYPÓW DANYCH Często wykorzystujemy różne metody statystyczne w zależ ności od tego, czy dane są kategorialne, czy też numerycz ne. Chociaż rozróżnienie między danymi kategorialnymi a numerycznymi jest zazwyczaj proste, w pewnych sytu acjach może się okazać niejasne. Na przykład, gdy mamy do czynienia ze zmienną o dużej liczbie uporządkowanych kategorii (np. skala stopnia bólu z siedmioma kategoriami) może być trudno ją odróżnić od dyskretnej zmiennej nume rycznej. Rozróżnienie między dyskretnymi i ciągłymi dany mi numerycznymi może być jeszcze mniej oczywiste, choć w ogólności ma ono znikomy wpływ na wyniki większości analiz. Przykładem zmiennej traktowanej często jako dys kretna jest wiek (choć tak naprawdę jest to zmienna ciągła). Zazwyczaj odnosimy się do „wieku w dniu ostatniej roczni cy urodzin", a nie do „wieku jako takiego", i dlatego kobie ta, która podaje, że ma 30 lat, mogła właśnie obchodzić swo je 30. urodziny lub właśnie zbliżać się do 31. rocznicy urodzin. Nie należy na początku zapisywać danych numerycznych jako kategorialnych (np. poprzez zapisywanie grupy wieko wej, do której należy pacjent zamiast jego/jej aktualnego wieku), ponieważ gubi się w ten sposób ważną informację. Łatwo można dokonać konwersji zebranych danych nume rycznych do danych kategorialnych. Rycina 1.1. Diagram przedstawiający różne typy zmiennych. 10 Opracowywanie danych
DANE POCHODNE W badaniach medycznych możemy też napotkać inne rodza je danych. Obejmują one: • Procenty — mogą pojawić się, gdy oceniamy poprawę stanu zdrowia u pacjentów podlegających leczeniu, np. para metr funkcji oddechowej pacjenta (wymuszona objętość wyde chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ stwie leczenia nowym lekiem. W tym przypadku interesuje nas raczej stopień poprawy, a nie wartość bezwzględna. • Proporcje lub ilorazy — czasami możemy napotkać proporcje lub iloraz dwóch zmiennych. Na przykład wskaź nik masy ciała (BMI), obliczany jako masa osobnika (kg) po dzielona przez kwadrat jego/jej wzrostu (m 2 ), jest często używany w celu oszacowania nadwagi lub niedowagi. • Częstości — częstości chorób. Liczba zachorowań wśród obiektów badania jest dzielona przez całkowitą licz bę lat obserwacji wszystkich osobników w tym badaniu (rozdział 31). Dane takie są powszechnie stosowane w na ukach epidemiologicznych (rozdział 12). • Punktacja — czasami, gdy nie możemy zmierzyć wiel kości, stosujemy wartości arbitralne, np. punktację. Na przy kład, odpowiedzi na pytania dotyczące jakości życia mogą zostać zsumowane w celu uzyskania pewnej ogólnej wielko ści charakteryzującej jakość życia każdego osobnika. Wszystkie wymienione powyżej zmienne w większości analiz mogą być traktowane jako zmienne numeryczne. Tam, gdzie zmienną uzyskuje się z więcej niż jednej wartości (np. licznik i mianownik w procentach), jest rzeczą istotną zapisa nie wszystkich tych wartości. Na przykład, 10% poprawa wskaźnika oceny leczenia może mieć rozmaite znaczenie kli niczne w zależności od wartości tego wskaźnika przed lecze niem. DANE UCIĘTE Dane ucięte możemy napotkać w takich na przykład sytu acjach: • Jeżeli mierzymy dane laboratoryjne, używając narzę dzia, które jest w stanie zarejestrować dane powyżej pew nego poziomu, to żadne wartości pomiarowe leżące poniżej tego poziomu nie zostają zidentyfikowane. Na przykład, je żeli mierzymy poziomy wirusa poniżej poziomu jego wykry walności, to wartości te opisujemy jako „nieoznaczalne", mimo że w próbce mogło być nieco wirusów. • W badaniach, w których część pacjentów wypada z grupy badanej przed czasem zakończenia badania. Ten typ danych jest omówiony bardziej szczegółowo w rozdziale 44. /. Rodzaje danych 11
2 WPROWADZANIE DANYCH Przy wykonywaniu jakichkolwiek badań niemal zawsze wprowadza się dane do pakietu oprogramowania kompute rowego. Komputery są nieocenione, jeśli chodzi o poprawę dokładności i prędkości zbierania danych oraz ich analizy, ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz ne podsumowania danych i generować nowe zmienne. War to poświęcić nieco czasu na zaplanowanie wprowadzania danych — może to zaoszczędzić wiele wysiłku w później szych etapach. FORMATY WPROWADZANIA DANYCH Istnieje wiele sposobów wprowadzania i zapamiętywania danych w komputerze. Większość pakietów statystycznych pozwala na bezpośrednie wprowadzenie danych. Jednakże ograniczeniem takiego podejścia jest fakt, że niejednokrot nie nie można przenieść tych danych do innego pakietu. Pro stą alternatywą jest zapamiętanie danych albo w arkuszu kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres dostępnych w nich procedur statystycznych jest najczęściej mocno ograniczony i dla przeprowadzenia analiz trzeba zwykle przenieść dane do specjalistycznego pakietu staty stycznego. Bardziej elastycznym sposobem rozwiązania problemu jest umieszczenie danych w plikach ASCII lub plikach tek stowych. Dane zapisane w formacie ASCII mogą być odczy tywane przez większość pakietów. Format ASCII składa się po prostu z wierszy tekstu, który można oglądać na ekranie komputera. Zazwyczaj każda zmienna w pliku jest oddzielo na od następnej pewnym ogranicznikiem, najczęściej spa cją lub przecinkiem. Jest to tzw. format swobodny. Najprostszym sposobem wprowadzenia danych w forma cie ASCII jest użycie edytora tekstowego lub pakietu edycyj nego. W formacie tym można też zapisać dane złożone w ar kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz danych odpowiada zazwyczaj innemu obiektowi badania, a każda kolumna odpowiada innej zmiennej, chociaż czasa mi stosowane są wiersze kontynuacyjne — gdy dla każdego obiektu zbierana jest duża liczba zmiennych. PLANOWANIE WPROWADZANIA DANYCH Podczas zbierania danych w trakcie badania często będziesz potrzebował do ich zapisania formularza lub kwestionariusza. Staranne zaprojektowanie formularza pozwoli na zmniejsze nie nakładu pracy przy wprowadzaniu danych. Ogólnie, for mularze/kwestionariusze zawierają serię kratek, w których zapisuje się dane — z reguły każda możliwa cyfra w odpowie dzi musi mieć osobną kratkę. DANE KATEGORIALNE Niektóre pakiety statystyczne mają problemy z obsługą da nych nienumerycznych. Dlatego przed wprowadzeniem da nych do komputera trzeba czasem przyporządkować kody numeryczne do danych kategorialnych. Na przykład, można przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu, ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać dodane do formularzy w trakcie zbierania danych. Dla da nych binarnych, np. dla odpowiedzi tak/nie, często wygod nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla „nie"). • Zmienne kodowane pojedynczo — istnieje jedna moż liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie można udzielić na to pytanie jednocześnie odpowiedzi „tak" i „nie". • Zmienne kodowane wielokrotnie — dla każdego re spondenta możliwa jest więcej niż jedna odpowiedź. Na przykład: jakie symptomy występują u tego pacjenta. W tym przypadku osobnik może mieć dowolną liczbę symp tomów. Istnieją dwie metody kodowania tego typu danych w zależności od tego, która z sytuacji ma miejsce. • Istnieje tylko kilka możliwych symptomów, a każdy osobnik może mieć kilka z nich. Można stworzyć pew ną liczbę zmiennych binarnych, które oznaczają, czy pacjent odpowiedział tak lub nie na temat obecności każ dego możliwego symptomu. Na przykład: czy pacjent kaszle?, czy pacjenta boli gardło? • Istnieje wielka liczba możliwych symptomów, lecz spodziewamy się, że każdy pacjent ma tylko kilka z nich. Można stworzyć pewną liczbę zmiennych nomi nalnych; każda kolejna zmienna pozwala wtedy nazwać symptom występujący u pacjenta. Na przykład: jaki wy stąpił pierwszy symptom u pacjenta?, jaki był drugi symptom? Z góry trzeba tu zadecydować o maksymalnej liczbie symptomów, jakie mogą wystąpić u pacjenta. DANE NUMERYCZNE Dane numeryczne należy wprowadzać z taką samą dokład nością, z jaką zostały one zmierzone, a jednostka pomiaru powinna być jednakowa dla wszystkich obserwacji w obrę bie zmiennej. Na przykład, masa powinna być wyrażona w kilogramach lub funtach, lecz nigdy w obu jednostkach na zmianę. KILKA FORMULARZY DLA PACJENTA Czasami informacje zbiera się od tego samego pacjenta przy więcej niż jednej okazji. Ważne jest wtedy zapewnie nie tego samego, unikalnego identyfikatora (np. numeru se ryjnego) powiązanego z osobnikiem — umożliwia on połącze nie wszystkich danych uzyskanych w badaniu na temat tego osobnika. PROBLEMY Z DATAMI I CZASEM Daty i czas powinny być wprowadzane w sposób jednolity, np. albo jako dzień/miesiąc/rok, albo miesiąc/dzień/rok, ale nigdy wymiennie. Ważną sprawą jest znalezienie forma tu, jaki może być odczytywany przez pakiet statystyczny. 12 Opracowywanie danych
KODOWANIE BRAKUJĄCYCH WARTOŚCI Przed rozpoczęciem wprowadzania danych należy rozważyć, co chce się zrobić z danymi brakującymi. W większości przy padków do reprezentowania brakujących danych trzeba użyć specjalnego symbolu. Pakiety statystyczne obsługują braki danych w rozmaity sposób. Niektóre z nich używają znaków specjalnych (np. kropka lub gwiazdka) do wskazania braku jących danych, podczas gdy inne wymagają zdefiniowania własnego kodu dla wartości brakującej (najczęściej stosowa ne wartości to 9,999 lub -99). Wybrana wartość musi być ta ką wartością, która nie może zaistnieć w tej zmiennej. Na przykład, przy wprowadzaniu zmiennej kategorialnej za wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re prezentowania wartości brakujących można wybrać kod 9. Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać inny kod. Zmienne brakujące zostaną dokładniej omówione w rozdziale 3. Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia. Dane zebrano w próbie 64 kobiet zarejestrowanych w centrum hemofilii w Londynie jako część badania nad wpływem wrodzonych zaburzeń krzepnięcia na cią żę i poród. Kobietom zadawano pytania związane z ich problemami krzepnięcia oraz pierwszą ciążą (lub ich obecną ciążą, jeżeli w trakcie przeprowadzanego wywia du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie wielką część danych po ich wprowadzeniu do arkusza kalkulacyjnego, lecz przed dokonaniem poprawek. Schematy kodowania dla zmiennych kategorialnych znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar kusza reprezentuje kolejny obiekt badania; każda kolum na przedstawia inną zmienną. Jeżeli kobieta jest nadal w ciąży, jej wiek w chwili porodu został przeliczony na podstawie oszacowanej daty narodzin dziecka. Dane związane z żywymi urodzeniami przedstawiono w roz dziale 37. Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie. 2. Wprowadzanie danych 13 PRZYKŁAD
3 KONTROLA BŁĘDÓW I W każdym badaniu zawsze istnieje możliwość pojawienia się błędów w zbiorze danych albo w fazie początkowej pod czas dokonywania pomiarów, albo podczas ich zbierania, przepisywania czy wprowadzania do komputera. Jednakże liczbę błędów powstających przy wprowadzaniu i przepisy waniu można zredukować poprzez uważne sprawdzanie da nych po ich wprowadzeniu. Proste wzrokowe przejrzenie danych często pozwala wychwycić wartości, które są w spo sób oczywisty błędne. W tym rozdziale sugerujemy pewne techniki, których można używać przy sprawdzaniu danych. BŁĘDY PRZY WPROWADZANIU Najczęstszym źródłem błędów przy wprowadzaniu danych jest tzw. palcówka. Przy małej liczbie danych można je porów nać z danymi na oryginalnych formularzach/kwestionariu szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa dzaniu. Jednakże przy dużej liczbie danych procedura ta jest niezwykle czasochłonna. Można również dwukrotnie wprowa dzić te same dane i porównać oba pliki programem kompute rowym. Każda różnica między oboma zestawami danych wskazuje na błąd przy wprowadzaniu. Chociaż podejście to nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze stawach, lub tego, że sama wartość na formularzu/kwestiona riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie więcej czasu przy wprowadzaniu danych, co powoduje konse kwencje finansowe i czasowe. KONTROLA BŁĘDÓW • Dane kategorialne — Stosunkowo łatwo można spraw dzić dane kategorialne, skoro każda zmienna może przyjmo wać tylko jedną z ograniczonej liczby wartości. Dlatego też wartość niedozwolona musi być błędem. • Dane numeryczne — Dane numeryczne są często trud ne do sprawdzenia, a jednocześnie podatne na błędy. Na przykład, podczas wprowadzania danych numerycznych łatwo jest przestawić cyfry lub pozycję przecinka dziesięt nego. Dane numeryczne można sprawdzać przez badanie zakresu — dolnej i górnej granicy określonej dla danej zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za znaczona dla dalszego badania. • Daty — Często sprawdzenie poprawności daty jest trud ne, chociaż czasami wiadomo, że powinna ona należeć do pewnego okresu czasu. Daty można sprawdzać w celu upew nienia się, że są one prawidłowe. Na przykład, 30 lutego mu si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub każdy miesiąc powyżej 12. Można również stosować pewne reguły logiczne. Na przykład, data urodzin pacjenta powinna odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro dzić się przed włączeniem do badania (przynajmniej w więk szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin ni się pojawiać na kolejnych wizytach kontrolnych! Przy poprawianiu wszystkich błędów wartość powinna zostać zmieniona jedynie wtedy, gdy mamy dowód, że został 14 Opracowywanie danych popełniony błąd. Nie należy zmieniać wartości tylko dlatego, że wyglądają nietypowo. OPRACOWYWANIE DANYCH BRAKUJĄCYCH Zawsze istnieje możliwość wystąpienia braku niektórych da nych. Jeżeli brakuje dużej części danych, to mało prawdopo dobne jest uzyskanie wiarygodnych rezultatów. Należy za wsze zbadać przyczynę pojawiania się braków danych — jeżeli braki danych mają tendencję do skupiania się w pewnej zmiennej i/lub w określonej podgrupie obiektów, może to oznaczać, że zmienna nie jest stosowalna lub nigdy nie została pomierzona dla tej grupy osób badanych. Jeżeli to jest rzeczywistą przyczyną, może okazać się konieczne wykluczenie tej zmiennej lub grupy obiektów z analizy. Szczególne problemy możemy napotkać, kiedy szansa wystą pienia zmiennych brakujących jest silnie związana z najbar dziej interesującą nas w badaniu zmienną (np. zmienną wy nikową w analizie regresji — rozdział 27). W tej sytuacji nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż my na przykład, że jesteśmy zainteresowani pomiarem, któ ry odzwierciedla stan zdrowia pacjentów i dla niektórych pacjentów brakuje tej informacji, ponieważ nie czuli się wy starczająco dobrze, by pojawić się na zaplanowanej wizycie w klinice: jeżeli nie weźmiemy pod uwagę brakujących da nych w analizie, najprawdopodobniej otrzymamy zbyt opty mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe jest zredukowanie tego obciążenia przez zastosowanie odpo wiednich metod statystycznych1 lub przez oszacowanie jakąś metodą brakujących danych2 , jednakże najbardziej pożąda ną opcją jest minimalizacja od samego początku liczby bra kujących danych. WARTOŚCI ODSKAKUJĄCE Czym są wartości odskakujące? Wartości odskakujące są obserwacjami, które różnią się od większości danych i są niezgodne z pozostałymi danymi. Wartości te mogą być prawdziwymi obserwacjami osób ba danych z bardzo ekstremalnymi poziomami zmiennej. Jed nakże mogą też być wynikiem błędów przy wprowadzaniu lub błędnego doboru jednostek i dlatego należy sprawdzić wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie, czy w zbiorze danych mamy do czynienia z wartościami od skakującymi, gdyż mogą one mieć znaczący wpływ na wy niki niektórych typów analiz (rozdział 29). Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie stanowiła wartość odskakującą w większości zbiorów da nych. Chociaż wartość ta jest istotnie bardzo duża w porów naniu z przeciętnym wzrostem kobiet, może być wartością 1 Laird N. M.: Missing data in longitudinal studies. Statistics in Medicine, 1988, 7, 305-315. 2 Engels J. M., Diehr R: Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology, 2003, 56, 968-976.
prawdziwą, a kobieta ta może być po prostu bardzo wysoka. W tym przypadku, zanim podejmiesz decyzję o ważności wy niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość, kontrolując inne zmienne, takie jak wiek i masa ciała. War tość powinna zostać zmieniona jedynie wtedy, gdy istnieje wyraźny dowód, że jest ona nieprawdziwa. Badanie wartości odskakujących Najprostszą metodą jest wydrukowanie danych i ich wzro kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie jest za duża i gdy potencjalna wartość odskakująca jest o wiele mniejsza lub o wiele większa od pozostałych danych. Badanie rozstępu również powinno pozwolić zidentyfikować możliwe wartości odskakujące. Alternatywę stanowi wykre ślenie w jakiś sposób danych (rozdział 4) — wartości odska kujące można łatwo identyfikować na histogramach i wy kresach rozrzutu (zobacz również dyskusję o wartościach odskakujących w analizie regresji w rozdziale 29). Radzenie sobie z wartościami odskakującymi Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub niższe, niż można się tego spodziewać. Jednakże włączenie wartości odskakujących może mieć wpływ na wyniki niektórych technik statystycznych. Pro stym wyjściem z tej sytuacji jest wykonanie analizy naj pierw przy uwzględnieniu, a potem przy wykluczeniu tych wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości odskakujące nie mają na nie wielkiego wpływu. Jednakże jeżeli wyniki drastycznie się zmieniają, należy zastosować odpowiednie metody, które podczas analizy da nych nie zostają zaburzane przez wartości odskakujące. Me tody te obejmują użycie transformacji (rozdział 9) i testów nieparametrycznych (rozdział 17). Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw dzany jesr w celu usunięcia błędów. Niektóre ze wskaza nych niezgodności su prostymi błędami popełnionymi przy wprowadzaniu. Na przykład, kod „41" w kolumnie „płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni ka z pominięcia informacji o pici: pozostała część danych pacjentki 20. została wprowadzona do nieprawidłowych kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach wieku ciążowego i masy ciała) też są najprawdopodobniej błędami, lecz przed powzięciem decyzji należy sprawdzić materiały źródłowe, jako że mogą one być prawdziwymi wartościami odskakującymi. W naszym przykładzie wiek ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie można było odnaleźć prawidłowej masy ciała tego dziecka, wartość wprowadzono jako brakującą. 3. Kontrola błędów i wartości odskakujące ' 15 Rycina 3.1. Kontrola błędów w zestawie danych.
4 GRAFICZNA PREZENTACJA DANYCH Jedną z pierwszych rzeczy, które przydają się po wprowa dzeniu danych do komputera, jest jakaś forma ich podsumo wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić za pomocą diagramów, tabel i statystyk podsumowujących (rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia mi do przedstawiania danych, tworzenia prostych, podsumo wujących rycin oraz wykrywania wartości odskakujących i trendów, zanim zostaną przeprowadzone jakiekolwiek for malne analizy. JEDNA ZMIENNA Rozkłady częstości Empiryczny rozkład częstości zmiennej wiąże każdą moż liwą obserwację, klasę obserwacji (tj. zakres wartości) lub kategorię z obserwowaną częstością jej pojawiania się. Je żeli zastąpimy każdą częstość przez częstość względną (procent całkowitej częstości), możemy porównywać rozkła dy częstości w dwóch lub więcej grupach osób badanych. Prezentacja rozkładów częstości Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla danych kategorialnych lub niektórych numerycznych dys kretnych, możemy je przedstawić graficznie. • Wykres słupkowy lub kolumnowy — dla każdej katego rii rysujemy osobny pionowy lub poziomy słupek, którego dłu gość jest proporcjonalna do częstości występowania danych w tej kategorii. Słupki oddzielamy małymi przerwami, aby wskazać, że dane są kategorialne lub dyskretne (rycina 41a). • Wykres kołowy — dzielimy kółko na sekcje, po jednej dla każdej kategorii, tak by powierzchnia każdej sekcji była proporcjonalna do częstości występowania danych w tej ka tegorii (rycina 4.Ib). Często trudniej jest przedstawić dane numeryczne cią gle, gdyż najpierw muszą być one wstępnie opisane suma rycznie. Najczęściej stosuje się następujące diagramy: • Histogram — jest podobny do wykresu słupkowego, ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin no być przerw (rycina 4.Id). Szerokość każdego słupka jest uzależniona od zakresu wartości dla danej zmiennej. Na przykład, masa ciała dziecka (rycina 4.Id) może być ska tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg, ..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna do częstości występowania danych w tym zakresie. Dlatego, jeżeli jedna grupa pokrywa szerszy zakres wartości niż in ne, jej podstawa będzie szersza, a wysokość mniejsza. Zwykle stosuje się od 5 do 20 grup: zakresy powinny być na tyle wąskie, by mogły zilustrować charakterystyczne Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2). (a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro- dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y). 16 Opracowywanie danych
3 665 53 9751 955410 987655 9531100 731 99843110 654400 6 7 10 dipropionian beklometazonu 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 0,4 39 99 1135677999 0148 00338899 001355 00114569 6 01 19 placebo Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21). wzory w rozkładzie danych, lecz nie aż tak wąskie, by przedstawiały indywidualne dane. Histogram powinien zo stać opisany starannie, tak aby granice między kategoriami byty wyraźnie zdefiniowane. • Wykres punktowy — każda obserwacja jest reprezen towana przez jedną kropkę na poziomej (lub pionowej) linii (rycina 4.1e). Jest to bardzo prosty sposób przedstawiania danych, lecz może być niewygodny przy dużych zbiorach. Często na diagramach pokazuje się miarę zbiorczą, taką jak średnia czy mediana (rozdział 5). Taki typ wykresu może być stosowany również dla danych dyskretnych. • Wykres typu „łodyga z liśćmi" — jest to połączenie diagramu i tablicy; przypomina histogram położony na boku i jest faktycznie zbiorem wartości danych zapisanych w kie runku rosnącym. Zazwyczaj rysuje się pionową „łodygę", złożoną z pierwszych kilku cyfr mierzonych wartości, upo rządkowanych w jakimś kierunku. Z „łodygi" wystają „li ście" — tj. końcowe cyfry każdej uporządkowanej wielkości, które zapisujemy w układzie poziomym (rycina 4.2) we wzrastającym porządku numerycznym. • Wykres skrzynkowy (zwany często „pudełkiem z wą sami") — jest to ustawiony pionowo lub poziomo prostokąt, którego boki odpowiadają górnemu lub dolnemu kwartylowi wartości pomiarowych (rozdział 6). Linia przeprowadzona przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo czynające się na bokach prostokąta zazwyczaj reprezentują wartości minimalną i maksymalną, lecz czasami oznaczają odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty (rozdział 6, rycina 6.1). Na wykresie tym można również za znaczyć wartości odskakujące. Kształt rozkładu częstości Wybór najodpowiedniejszej metody statystycznej często za leży od kształtu rozkładu. Rozkład danych jest najczęściej jednomodalny, przez co posiada jeden pik. Czasami rozkład jest bimodalny (dwa piki) lub równomierny (każda wartość jest jednakowo prawdopodobna, na skutek czego nie wystę puje żaden pik). W przypadku rozkładu jednomodalnego za sadniczym celem jest wskazanie, gdzie leży większość da nych w stosunku do wartości maksymalnej i minimalnej. W szczególności należy oszacować, czy rozkład jest: • symetryczny — scentrowany wokół pewnego punktu środkowego, z jedną stroną będącą lustrzanym odbiciem drugiej strony (rycina 5.1); • przekrzywiony w prawo (dodatnio skośny) — ma dłu gi ogon złożony z jednej lub większej liczby wysokich war tości. Takie dane są często spotykane w badaniach medycz nych (rycina 5.2); • przekrzywiony w lewo (ujemnie skośny) — ma długi ogon złożony z jednej lub większej liczby niskich wartości (rycina 4.Id). DWIE ZMIENNE Jeżeli jedna zmienna jest kategorialna, możemy narysować osobne diagramy pokazujące rozkłady drugiej zmiennej dla każdej z kategorii. Inne wykresy odpowiednie dla takich da nych to wykresy słupkowe, kolumnowe klasteryzowane lub segmentowane (rycina 4.1c). Jeżeli obie zmienne są numeryczne lub porządkowe, można przedstawić związek między nimi za pomocą wykre su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym wykreśla się wartość jednej zmiennej w zależności od dru giej. Jedna zmienna jest zwykle nazywana zmienną x i jest przedstawiana na osi poziomej. Druga zmienna, nazywana zmienną y, jest wykreślana na osi pionowej. IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH METODAMI GRAFICZNYMI Często wartości skrajne możemy wykrywać przy użyciu pre zentacji danych jednej zmiennej. Na przykład, bardzo długi ogon po jednej stronie histogramu może wskazywać na war tość odskakującą. Jednakże czasami wartości odskakujące stają się widoczne dopiero wtedy, gdy analizujemy związek pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie nieprawdopodobnie niska u kobiety o wzroście 1,9 m. 4. Graficzna prezentacja danych 17
5 OPIS DANYCH: WARTOŚĆ PRZECIĘTNA PODSUMOWYWANIE DANYCH Bardzo trudno jest mieć jakiekolwiek „wyczucie" co do zbio ru pomiarów numerycznych, chyba że możemy je w jakiś znaczący sposób podsumować. Użytecznym punktem wyjścia jest często diagram (rozdział 4). Konstruując miary, które opisują ważne charakterystyki danych, możemy również in formację skondensować. W szczególności, jeżeli mamy jakieś spostrzeżenie na temat tego, co stanowi wartość reprezenta tywną i jeżeli wiemy jak szeroko wokół niej są rozrzucone wartości, możemy stworzyć pewien obraz danych. Wartość przeciętna jest ogólnym określeniem miary położenia; opi suje ona typowy pomiar. Ten rozdział poświęcamy miarom przeciętnym, z których najczęściej używa się średniej i me diany (tabela 5.1). W rozdziale 6 wprowadzimy miary, które opisują rozrzut lub rozproszenie obserwacji. ŚREDNIA ARYTMETYCZNA Średnia arytmetyczna (często po prostu zwana średnią) zbioru wartości jest obliczana przez dodanie do siebie wszystkich wartości i podzielenie tej sumy przez liczbę war tości w zbiorze. Rzeczą przydatną jest streszczenie tego słownego opisu przez wzór algebraiczny. Stosując notację matematyczną, za pisujemy nasz zbiór n wartości zmiennej xjako xx , x2 , x3 ,..., xn . Na przykład, jeżeli x reprezentuje wzrost osobnika (cm), to Xj przedstawia wzrost pierwszego osobnika, a xt —wzrost /tego osobnika itd. Możemy zapisać wzór na średnią arytme tyczną obserwacji, oznaczając ją symbolem x, w postaci: Stosując notację matematyczną, zapis możemy skrócić do: gdzie Z (duża grecka litera sigma) oznacza sumę, nato miast dolny oraz górny indeks przy Z wskazuje, że sumuje my wartości od i = 1 do n. Ta postać jest często dalej skra cana do formy: MEDIANA Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo czynając od najmniejszej wartości i kończąc na największej, wtedy medianą będzie wartość środkowa uporządkowane go szeregu. Mediana dzieli uporządkowany zbiór wartości na dwie polowy, z równą liczbą wartości powyżej i poniżej mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją w uporządkowanym szeregu. Tak więc, jeśli na przykład n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy ściśle mówiąc, mediana nie istnieje. Jednakże wtedy obliczamy ją zazwyczaj jako średnią arytmetyczną dwóch środkowych obserwacji w uporządkowanym szeregu danych [tj. n/2 i (n/2 + 1)]. Tak więc, jeżeli na przykład n - 20, to mediana jest średnią arytmetyczną z 20/2 =10 oraz (20/2 + D = = (10 + 1) = 11 (dziesiątej i jedenastej wartości) w uporząd kowanym szeregu danych. Mediana jest zbliżona do średniej, jeżeli dane mają roz kład symetryczny (rycina 5.1), jest mniejsza niż średnia, gdy dane mają rozkład prawoskośny (rycina 5.2), natomiast większa niż średnia przy rozkładzie lewoskośnym. WARTOŚĆ MODALNA Wartość modalna jest wartością najczęściej pojawiającą się w zbiorze danych; jeżeli dane są ciągłe, zazwyczaj je grupu jemy i obliczamy modalną dla grup. Niektóre zbiory danych nie mają wartości modalnej, ponieważ każda wartość poja wia się tylko raz. Czasami występuje więcej niż jedna war tość modaina; dzieje się tak wtedy, gdy dwie lub więcej wartości pojawiają się taką samą liczbę razy, a częstość wy stępowania każdej z nich jest większa niż częstość wystę powania każdej innej wartości. Wartość modalna jest rzad ko stosowana jako miara podsumowująca. ŚREDNIA GEOMETRYCZNA Średnia arytmetyczna nie jest odpowiednią miarą położe nia, jeżeli dane są skośne. Jeżeli dane są prawoskośne, możemy uczynić rozkład bardziej symetrycznym poprzez zlogarytmowanie (z podstawą dziesiętną lub naturalną) każdej wartości w szeregu danych (rozdział 9). Średnia arytmetyczna wartości zlogarytmowanych jest miarą poło żenia danych przetransformowanych. Aby otrzymać miarę, która będzie miała takie same jednostki jak oryginalne ob serwacje, musimy dokonać transformacji odwrotnej (tj. wziąć antylogarytm) średniej z logarytmów danych; miarę tę nazywamy średnią geometryczną. Przy założeniu, że rozkład danych zlogarytmowanych jest w przybliżeniu sy metryczny, średnia geometryczna jest zbliżona do media ny i mniejsza niż wartość średnia z surowych danych (ry cina 5.2). ŚREDNIA WAŻONA Średniej ważonej używamy wtedy, gdy pewne wartości in teresującej nas zmiennej są ważniejsze niż inne. W celu uwidocznienia stopnia ważności dołączamy wagi w{ do każ dej wartości x; z naszej próbki. Jeżeli wartości xn mają odpowiadające wagi średnia wa żona jest określona jako: 18 Opracowywanie danych
Tablica 5.1. Zalety i wady miar przeciętnych. Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja ko że rozkład wartości oznaczających wiek wygląda na symetrycz ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje przerywana linia. Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój- glicerydów w próbie 232 mężczyzn, którzy przebyli zawał serca 'rozdział 19). Jako że rozkład wartości oznaczających poziom trój- źhcerydów jest prawoskośny, średnia daje wyższe wartości prze ciętne niż mediana lub średnia geometryczna. Miara przeciętna Zalety Średnia • Można ją stosować w przypadku wszystkich wartości. • Zdefiniowana algebra icznie, łatwa w algo- rytmizacji. • Znany rozkład próbko wania (rozdział 9). Mediana • Nie jest zniekształca na przez wartości odskakujące. • Nie zniekształcana przez dane skośne. Modalna • Łatwo daje się wyzna czać dla danych kate- gorialnych. Średnia • Przed transformacją geome- odwrotną ma takie tryczna same zalety jak średnia. • Odpowiednia dla roz kładów prawoskośnych. Średnia • Takie same zalety jak ważona średnia. • Przypisuje względną wagę do każdej obser wacji. • Zdefiniowana algebra icznie. Wady • Zniekształcana przez wartości odskakujące. • Zniekształcana w przy padku rozkładów sko śnych. * Pomija większość do stępnych informacji. • Nie zdefiniowana alge braicznie. • Skomplikowany rozkład próbkowania. • Pomija większość do stępnych informacji. • Nie zdefiniowana alge braicznie. • Nieznany rozkład prób kowania. • Daje się stosować jedy nie w przypadku, gdy transformacja logaryt miczna wytwarza roz kład symetryczny. • Wagi muszą być znane lub oszacowane. Na przykład, przypuśćmy, że jesteśmy zainteresowani wyznaczeniem średniego czasu pobytu pacjentów hospitali zowanych w szpitalach w okręgu i znamy średni czas zwol nienia pacjentów do domu w każdym szpitalu. Jedną z moż liwości będzie uwzględnienie jako wagi liczby pacjentów w każdym ze szpitali. Średnia ważona i średnia arytmetyczna są identyczne, gdy każda waga jest równa jedności. 5. Opis danych: wartość przeciętna 19 Wiek matki w chwili narodzin dziecka (w latach) Poziom trójolicerydów (mmol/L)
6 OPIS DANYCH: ROZPROSZENIE PODSUMOWYWANIE DANYCH Jeżeli jesteśmy w stanie wyznaczyć dwie miary podsumo wujące dla zmiennej ciągłej — jedną, która wskazuje war tość przeciętną i drugą opisującą rozproszenie danych — Wtedy dokonujemy kondensacji danych w sposób znaczący. W rozdziale 5 wytłumaczyłyśmy, jak dobrać odpowiednią miarę przeciętną. Ten rozdział poświęcamy omówieniu naj bardziej znanych miar rozproszenia (dyspersji lub zmien ności), które to miary zostały porównane w tablicy 6.1. Rozstęp jest różnicą między największą i najmniejszą wartością w zbiorze danych; często podaje się te dwie war tości zamiast ich różnicy. Trzeba zauważyć, że rozstęp daje mylącą wielkość rozproszenia, gdy w danych znajdują się wartości odskakujące (rozdział 3). ROZSTĘPY UZYSKIWANE Z PERCENTYLI Czym są percentyle? Przypuśćmy, że uporządkowaliśmy dane w kierunku wzro stu ich wielkości, rozpoczynając od wartości najmniejszej i kończąc na największej. Wartość zmiennej x, poniżej któ rej w uporządkowanym szeregu znajduje się 1% wartości (a 99% wartości leży powyżej), jest zwana pierwszym per- centylem. Wartość x, poniżej której leży 2% obserwacji, zwana jest drugim percentylem itd. Wartości x, które dzie lą uporządkowany zbiór na 10 równych pod względem licz by części, tj. dziesiąty, dwudziesty, trzydziesty,... dziewięć dziesiąty percentyl zwane są decylami. Wartości, które dzielą uporządkowany zbiór na cztery równe pod względem liczby części, tj. dwudziesty piąty, pięćdziesiąty i siedem dziesiąty piąty percentyl nazywamy kwartylami. Pięćdzie siąty centyl jest medianą (rozdział 5). Posługiwanie się percentylami Miarę rozproszenia niezaburzaną przez wartości skrajne możemy uzyskać, wykluczając wartości ekstremalne w zbiorze danych i wyznaczając rozstęp dla pozostałych ob serwacji. Rozstęp międzykwartylowy definiujemy jako róż nicę między pierwszym i trzecim kwartylem, tj. pomiędzy dwudziestym piątym i siedemdziesiątym piątym percenty lem (rycina 6.1). Zawiera on centralnych 50% obserwacji z uporządkowanego szeregu, 25% obserwacji leży poniżej je go dolnej granicy, a 25% — powyżej jego górnej granicy. Rozstęp międzydecylowy zawiera 80% centralnych obser wacji, tj. leżące między dziesiątym i dziewięćdziesiątym percentylem. Często używa się rozstępu zawierającego 95% centralnych obserwacji, tj. wykluczających 2,5% obserwacji powyżej jego górnej granicy i 2,5% poniżej dolnej granicy (rycina 6.1). Możemy używać tego przedziału do diagnozo wania choroby, przy założeniu, że jest on wyznaczony i wy starczającej liczby wartości zmiennej dla osób zdrowych. Jest on często określany jako przedział odniesienia, zakres odniesienia lub zakres normalny (rozdział 38). WARIANCJA Jedną z metod mierzenia rozproszenia danych jest wyzna czenie, w jakim stopniu każda z obserwacji jest oddalona od średniej arytmetycznej. Oczywiście, im większe są te od ległości, tym większa jest zmienność obserwacji. Nie może my jednak używać średniej arytmetycznej tych odległości jako miary rozproszenia, gdyż dodatnie różnice dokładnie pokryją się z różnicami ujemnymi. Problem ten możemy obejść przez podniesienie każdej odległości do kwadratu i znalezienie średniej z kwadratów odległości (rycina 6.2); wielkość tę nazywamy wariancją. Jeżeli mamy próbę n obserwacji xlT x2, x3, ..., xn, dla których średnia wynosi Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka (rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi mum i minimum. Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości wieku matki w chwili porodu (rozdział 2) wokół wartości średniej. Wariancja jest obliczana przez dodanie podniesionych do kwadratu odległości między poszczególnymi punktami a średnią i następnie podzielenie przez (n - 1). 20 Opracowywanie danych
i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle omaczoną pr2ez s2 , jako Jak widać, nie jest to dokładnie sama średnia arytme tyczna kwadratów odległości, ponieważ dokonujemy dziele nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że w naszych badaniach niemal zawsze opieramy się na próbie danych (rozdział 10). Można wykazać teoretycznie, że otrzy mamy lepsze oszacowanie wariancji w populacji, gdy doko namy dzielenia przez (n- 1). Jednostką wariancji jest jednostka oryginalnej obserwa cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona jest w kg, jednostką wariancji jest kg2 . ODCHYLENIE STANDARDOWE Odchylenie standardowe jest pierwiastkiem kwadratowym 2 wariancji. W próbie n obserwacji jest równe: Możemy wyobrazić sobie odchylenie standardowe jako rodzaj wartości przeciętnej odległości obserwacji od warto ści średniej. Jest ono wyrażone w tych samych jednostkach, co dane surowe. Jeżeli podzielimy odchylenie standardowe przez wartość średnią i wyrazimy ten iloraz w procentach, otrzymamy tzw. współczynnik zmienności. Jest on miarą rozproszenia niezależną od jednostek, lecz powoduje pewne teoretyczne niedogodności, na skutek czego nie jest lubiany przez staty styków. ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW I MIĘDZY NIMI Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla jednego osobnika, możemy się spodziewać, że wystąpi pew na zmienność (zmienność wewnątrzgrupowa) między jego wynikami. Może się to zdarzyć dlatego, że dany osobnik nie zawsze odpowiada w dokładnie ten sam sposób i/lub z powodu błędu pomiarowego. Jednakże wariancja we wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą wyznaczymy, biorąc pojedynczy pomiar każdego osobnika w grupie (zmienność międzygrupowa). Na przykład, 17-let- ni chłopiec ma pojemność życiową płuc pomiędzy 3,60 a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie. Wartość pojedynczych pomiarów zebranych u 10 chłopców w tym samym wieku zawiera się natomiast między 2,98 a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz dział 13). Tablica 6.1. Zalety i wady miar rozproszenia. Miara rozproszenia Rozstęp Rozstęp oparty o percentyle Wariancja Odchylenie standardowe Zalety • Łatwo daje się wy znaczyć. • Zazwyczaj nie znie kształcany przez wartości odskakujące. • Niezależny od wiel kości próby. • Odpowiedni dla danych skośnych. • Wykorzystuje wszystkie wartości. • Zdefiniowana alge braicznie. • Te same zalety jak wariancji. • Jednostka miary jest taka sama jak jedno stka pomiaru surowego. • Łatwe w interpretacji. Wady • Można go stosować w przypadku tylko dwóch wartości. • Zniekształcany przez wartości odskakujące. • Ma tendencję do wzro stu, gdy rośnie wiel kość próby. • Trudny do policzenia. • Nie może być stosowany dla małych prób. • Bierze pod uwagę jedy nie dwie wartości. • Niezdefiniowany alge braicznie. • Jednostka miary jest kwadratem jednostki pomiaru surowego. • Czułe na wartości odskakujące. • Niewłaściwe dla danych skośnych. 6. Opis danych: rozproszenie 21
7 ROZKŁADY TEORETYCZNE: ROZKŁAD NORMALNY W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych utworzyć empiryczny rozkład częstości. Rozkład ten kontra stuje z teoretycznym rozkładem prawdopodobieństwa, który jest opisany modelem matematycznym. Jeżeli nasz ekspery mentalny rozkład przybliża jakiś szczególny rozkład częstotli wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym rozkładzie do udzielenia odpowiedzi na temat danych. Często trzeba w tym celu obliczyć prawdopodobieństwo. ZROZUMIENIE PRAWDOPODOBIEŃSTWA Prawdopodobieństwo (prób — probability) jest miarą nie pewności; leży u podstaw teorii statystyki. Mierzy ono szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają cego (zdarzenia niepojawiającego się) jest równe jeden mi nus prawdopodobieństwo zdarzenia pojawiającego się. Prawdopodobieństwo zdarzenia warunkowego, tzn. praw dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło inne zdarzenie, omówimy w rozdziale 45. Prawdopodobieństwo możemy wyznaczyć, stosując róż ne podejścia. • Subiektywne — stopień naszej osobistej wiary, że zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec 2050 roku). • Częstościowe — proporcja liczby zdarzeń zjawiska przy eksperymencie powtarzanym wielką liczbę razy (np. ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie zafałszowanej monety). • Aprioryczne — wymaga znajomości modelu teoretycz nego, zwanego rozkładem częstości, który opisuje prawdo podobieństwa wszystkich możliwych wyników eksperymen tu. Na przykład, teoria genetyczna pozwala opisać rozkład prawdopodobieństwa otrzymania określonego koloru oczu u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny o oczach brązowych. Odbywa się to przez wyszczególnienie wszystkich możliwych genotypów koloru oczu i prawdopo dobieństw ich wystąpienia. REGUŁY PRAWDOPODOBIEŃSTWA Możemy stosować reguły dodawania i mnożenia prawdopo dobieństw. • Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza jemnie się wykluczają (tzn. każde wystąpienie jednego zda rzenia wyklucza pojawienie się drugiego), wtedy prawdopo dobieństwo pojawienia się jednego lub drugiego zdarzenia jest równe sumie prawdopodobieństw pojawienia się każde go ze zdarzeń. Prób (A lub B) = Prób (A) + Prób (B) Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie dentystycznym pojawi się dorosły pacjent bez brakujących zębów, z niektórymi brakującymi zębami lub bezzębny (tzn. nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09, wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi 0,67 + 0,24 = 0,91. • Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są niezależne (tj. wystąpienie jednego ze zdarzeń nie warun kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że zajdą oba zdarzenia, jest równe iloczynowi prawdopodo bieństw zajścia każdego z nich: Prób (A i B) = Prob(A) x ProWB) Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi rurga stomatologicznego, prawdopodobieństwo, że obaj nie mają brakujących zębów wynosi 0,67 x 0,67 = 0,45. ROZKŁADY PRAWDOPODOBIEŃSTWA: TEORIA Zmienna losowa jest wielkością, którą może przyjąć każda ze zbioru wzajemnie wykluczających się wielkości z określonym prawdopodobieństwem. Rozkład prawdopodobieństwa poka zuje prawdopodobieństwa wszystkich możliwych wartości zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma tematycznie, posiadający średnią i wariancję, podobnie jak posiada je rozkład empiryczny. Każdy rozkład prawdopodo bieństwa jest zdefiniowany pewnymi parametrami, które są miarami podsumowującymi (np. średnia, wariancja), charak teryzującymi ten rozkład (tzn. znajomość tych parametrów pozwala w pełni opisać rozkład). Parametry te są oszacowy wane w próbie przez odpowiednie statystyki. W zależności od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz kład prawdopodobieństwa może być dyskretny lub ciągły. • Dyskretny (np. dwumianowy, Poissona) — możemy otrzymać prawdopodobieństwa odpowiadające każdej moż liwej wartości zmiennej losowej. Suma wszystkich tych prawdopodobieństw wynosi jeden. • Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy jedynie wyznaczyć prawdopodobieństwo, że zmienna loso wa x przybierze wartość z pewnego przedziału (ponieważ istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma oś przedstawia wartości x, możemy narysować krzywą z równania rozkładu (funkcja gęstości rozkładu prawdopo dobieństwa); przypomina ona empiryczny, względny roz- Catkowite pole pod krzywą = 1 (lub 100%) Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x. 22 Opracowywanie danych
Rycina 7.2. Funkcja gęstości praw dopodobieństwa rozkładu normalne go zmiennej x. (a) Symetryczna wokói średniej fi: wariancja = a 2 . (b) Efekt zmiany średniej (c) Efekt zmiany wariancj: Rycina 7.3. Pola (procenty całkowitego prawdopodobieństwa) pod krzywą dla (a) rozkładu normalnego x, ze średnią fi i wariancją a2 , i
8 ROZKŁADY TEORETYCZNE: INNE ROZKŁADY PARĘ SŁÓW USPOKOJENIA Teoria dotycząca rozkładów prawdopodobieństwa może wy dać się złożona. Z naszego doświadczenia wiemy, że chciał byś jedynie wiedzieć, kiedy i jak ich użyć. Dlatego naszki cowałyśmy jedynie najważniejsze elementy, a ominęłyśmy wzory definiujące rozkłady prawdopodobieństwa. Ich zrozumienie wymaga jedynie znajomości podstawowych po jęć, terminologii i prawdopodobnie (chociaż w dobie kompu terów rzadko), umiejętności korzystania z tablic. INNE CIĄGŁE ROZKŁADY PRAWDOPODOBIEŃSTWA Rozkłady te oparte 5ą na ciągłych zmiennych losowych. Czę sto nie sama zmienna mierzona, lecz statystyka otrzymana z tej zmiennej podlega takiemu rozkładowi. Całkowite pole pod krzywą funkcji rozkładu prawdopodobieństwa repre zentuje prawdopodobieństwo otrzymania wszystkich możli wych wyników i jest równe jeden (rozdział 7). Rozkład nor malny omówiłyśmy w rozdziale 7; inne rozkłady są opisane w tym rozdziale. Rozkład t (Dodatek A2, rycina 8.1) • Opisany przez W. S. Gossetta, który publikował pod pseu donimem „Student"; jest często zwany rozkładem f-Studenta. • Parametrem charakteryzującym rozkład t jest liczba stopni swobody: możemy wykreślić funkcję gęstości praw dopodobieństwa, jeżeli znamy równanie rozkładu t i liczbę stopni swobody. Liczbę stopni swobody omawiamy w roz dziale 11; należy zwrócić uwagę, że są one często blisko po wiązane z wielkością próby. • Jego kształt jest podobny do standaryzowanego rozkła du normalnego, lecz jest bardziej rozciągnięty (ma dłuższe ogony). Kształt ten przybliża się do rozkładu normalnego, w miarę jak rośnie liczba stopni swobody. • Jest szczególnie użyteczny do obliczania przedziałów ufności i testowania hipotez o jednej lub dwóch średnich (rozdziały 19-21). Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500. 24 Opracowywanie danych Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2) • Jest rozkładem prawoskośnym, przybierającym warto ści dodatnie. • Jest określony przez liczbę stopni swobody (rozdział 11). • Jego kształt zależy od liczby stopni swobody; staje się bardziej symetryczny i przybliża się do rozkładu normalne go, w miarę jak wzrasta liczba stopni swobody. • Jest szczególnie przydatny do analizy danych katego- rialnych (rozdziały 23-25). Rozkład F (Dodatek A5) • Jest prawoskośny. • Jest zdefiniowany przez proporcje. Rozkład stosunku dwóch oszacowywanych wariancji obliczonych z danych o rozkładzie normalnym przybliża rozkład F. • Dwa parametry, które charakteryzują ten rozkład, to liczby stopni swobody (rozdział 11) licznika i mianownika proporcji. • Rozkład F jest szczególnie przydatny przy porównywa niu dwóch wariancji (rozdział 18) oraz więcej niż dwóch śred nich przy użyciu analizy wariancji (ANOVA, rozdział 22). Rozkład lognormalny • Jest rozkładem prawdopodobieństwa zmiennej loso wej, której logarytm (o podstawie 10 lub e) podlega rozkła dowi normalnemu. • Jest silnie prawoskośny (rycina 8.3a). • Jeżeli obliczymy logarytm z naszych surowych danych, które są prawoskośne, i otrzymujemy rozkład empiryczny o kształcie zbliżonym do normalnego (rycina 8.3b), to nasze dane przybliżają rozkład lognormalny. • Wiele zmiennych w medycynie podlega rozkładowi lognormalnemu. Po transformacji tych zmiennych poprzez obliczenie logarytmów możemy wykorzystać właściwości rozkładu normalnego do wnioskowania o tych zmiennych (rozdział 7). • Jeżeli dane mają rozkład lognormalny, możemy użyć średniej geometrycznej (rozdział 5) jako podsumowującej miary położenia. Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1, 2, 5 i 10.
Rycina 8.3. (a) Rozkład lognormalny poziomów trójglicerydów u 232 męż czyzn, u których wystąpiła choroba serca (rozdział 19); (b) przybliżony roz kład normalny wartości log10 (poziom trójglicerydów). Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu). DYSKRETNE ROZKŁADY PRAWDOPODOBIEŃSTWA Zmienna losowa, która określa rozkład prawdopodobieństwa, jest dyskretna. Suma prawdopodobieństw wszystkich wza jemnie wykluczających się zdarzeń równa się jeden. Rozkład dwumianowy • Przypuśćmy, że w danej sytuacji są możliwe tylko dwa wyniki: „sukces" lub „porażka". Na przykład, jesteśmy zain teresowani, czy po sztucznym zapłodnieniu in vitro (IVF) ko bieta pocznie dziecko (sukces), czy też nie (porażka). Jeżeli weźmiemy n - 100 niespokrewnionych kobiet podlegających IVF (każda z tym samym prawdopodobieństwem poczęcia), obserwowana liczba poczęć (sukcesów) będzie losową zmien ną binomialną. Często koncepcja tego rozkładu jest wyjaśnia na poprzez n niezależnych powtórzeń eksperymentu (np. 100 rzutów monetą), w którym wynik jest albo sukcesem (np. orzeł), albo porażką. • Dwoma parametrami, które opisują rozkład dwumiano wy, są n, liczba osobników w próbie (lub powtórzeń ekspery mentu), oraz 7Z, prawdziwe prawdopodobieństwo sukcesu dla każdego osobnika (lub każdego eksperymentu). • Jego średnia (wartość zmiennej losowej, której spo dziewamy się po analizie n osobników lub po powtórzeniu eksperymentu n razy) wynosi rut. Jego wariancja wynosi nnd-n). • Dla małego n rozkład jest prawoskośny, gdy n < 0,5, i lewoskośny, gdy JC > 0,5. Rozkład staje się bardziej syme tryczny, gdy rośnie wielkość próby (rycina 8.4), i przybliża rozkład normalny, jeżeli zarówno nn, jak i n(l- jr) są więk sze niż 5. • Rozkładu dwumianowego możemy użyć, gdy wniosku jemy o proporcjach. W szczególności, gdy analizujemy pro porcje, często używamy przybliżenia normalnego rozkładu dwumianowego. Rozkład Poissona • Zmienna losowa Poissona jest liczbą zdarzeń pojawiają cych się niezależnie i losowo w czasie lub przestrzeni z pew ną średnią częstością^. Na przykład, dzienna liczba przyjęć do szpitala podlega rozkładowi Poissona. Możemy użyć naszej wiedzy o rozkładzie Poissona do wyznaczenia prawdopodo bieństwa pewnej liczby przyjęć określonego dnia. • Parametrem opisującym rozkład Poissona jest średnia, tzn. przeciętna częstość fi. • W rozkładzie Poissona średnia równa się wariancji. • Jest to rozkład prawoskośny, gdy średnia jest mała, lecz staje się coraz bardziej symetryczny, gdy średnia rośnie; przybliża wtedy rozkład normalny. 8. Rozkłady teoretyczne: inne rozkłady 25