zaneta_l

  • Dokumenty26
  • Odsłony43 503
  • Obserwuję16
  • Rozmiar dokumentów1.2 GB
  • Ilość pobrań14 320

Aviva Petrie, Caroline Sabin - Statystyka Medyczna w Zarysie. Tłumaczenie Jerzy Mroczko

Dodano: 7 lata temu

Informacje o dokumencie

Dodano: 7 lata temu
Rozmiar :2.2 MB
Rozszerzenie:pdf

Aviva Petrie, Caroline Sabin - Statystyka Medyczna w Zarysie. Tłumaczenie Jerzy Mroczko.pdf

zaneta_l 02 Medical Books
Użytkownik zaneta_l wgrał ten materiał 7 lata temu.

Komentarze i opinie (0)

Transkrypt ( 25 z dostępnych 159 stron)

Medical Statistics at a Glance Aviva Petrie Head of Biostatistics Unit and Senior Lecturer Eastman Dental Institute University College London 256 Grays Inn Road London WC1X 8LD and Honorary Lecturer in Medical Statistics Medical Statistics Unit London School of Hygiene and Tropical Medicine Keppel Street London WC1E7HT Caroline Sabin Prof essor of Medical Statistics and Epidemiology Department of Primary Care and Population Sciences Royal Free and University College Medical School Rowland Hill Street London NW3 2PF Second edition

Aviva Petrie, Caroline Sabin Statystyka medyczna w zarysie Ttumaczenie prof. dr hab. J e r z y M o c z k o

© Copyright by Wydawnictwo Lekarskie PZWL, Warszawa 2006 Tłumaczone z Aviva Petrie, Caroline Sabin, Medical Statistics at a Glance, Second edition © 2005 Aviva Petrie and Caroline Sabin Published by Blackwell Publishing Ltd Blackwell Publishing, Inc., 350 Main Street, Malden, Massachusetts 02148-5020, USA Blackwell Publishing Ltd, 9600 Garsington Road, Oxford 0X4 2DQ, UK Blackwell Publishing Asia Pty Ltd, 550 Swanston Street, Carlton, Victoria 3053, Australia The right of the Authors of this Work has been asserted in accordance with the Copyright, Design and Patents Act 1988. This edition is published by arrangement with Blackwell Publishing Ltd, Oxford. Translated by Wydawnictwo Lekarskie PZWL from the original English language version. Responsibility of the accuracy of the translation rests solely with the Wydawnictwo Lekarskie PZWL and is not the respon- sibility of Blackwell Publishing Ltd. Wszystkie prawa zastrzeżone. Przedruk i reprodukcja w jakiejkolwiek postaci całości bądź części książki bez pisemnej zgody wydawcy są zabronione. Redaktor ds. publikacji medycznych: Anna Plewa Redaktor merytoryczny: Anna Nowosielska-Tiuryn Redaktor techniczny: Małgorzata Chmielewska Korekta: Zespół Projekt okładki i stron tytułowych: Magdalena Kaczmarczyk ISBN 83-200-3312-8 Wydanie I Wydawnictwo Lekarskie PZWL 00-251 Warszawa, ul. Miodowa 10 tel. +48(22) 695-40-33 Księgarnia wysyłkowa: tel. +48(22) 695-44-80 infolinia: 0-801-142-080 www.pzwl.pl e-maił: promocia@pzwl.pi Skład i łamanie: Mater, Warszawa Druk i oprawa: Drukarnia Narodowa S.A., Kraków

SPIS TREŚCI Przedmowa tłumacza 6 Wstęp 8 Opracowywanie danych 1 Rodzaje danych 10 2 Wprowadzanie danych 12 3 Kontrola błędów i wartości odskakujące . . . 14 4 Graficzna prezentacja danych 16 5 Opis danych: wartość przeciętna 18 6 Opis danych: rozproszenie 20 7 Rozkłady teoretyczne: rozkład normalny . . . 22 8 Rozkłady teoretyczne: inne rozkłady 24 9 Transformacje 26 Próbkowanie i estymacja 10 Próbkowanie i rozkłady próbkowania 28 11 Przedziały ufności 30 Planowanie badania 12 Planowanie badania I 32 13 Planowanie badania II 34 14 Eksperymenty kliniczne 36 15 Badania kohortowe 39 16 Badania przypadek-kontrola 42 Testowanie hipotez 17 Testowanie hipotez 44 18 Błędy w testowaniu hipotez 46 Podstawowe techniki analizy danych Dane numeryczne 19 Dane numeryczne: pojedyncza grupa 48 20 Dane numeryczne: dwie grupy powiązane . . 51 21 Dane numeryczne: dwie grupy niepowiązane . 54 22 Dane numeryczne: więcej niż dwie grupy . . 57 Dane kategorialne 23 Dane kategorialne: pojedyncza proporcja . . . 60 24 Dane kategorialne: dwie proporcje 64 25 Dane kategorialne: więcej niż dwie kategorie . 66 Regresja i korelacja 26 Korelacja 69 27 Teoria regresji liniowej . . . ., 72 28 Przeprowadzanie analizy regresji liniowej . . 74 29 Wielokrotna regresja liniowa 78 30 Wyniki binarne i regresja logistyczna . . . . 81 31 Częstości i regresja Poissona 84 32 Uogólnione modele liniowe 88 33 Zmienne wyjaśniające w modelach statystycznych 90 34 Zagadnienia związane z modelowaniem statystycznym 93 Ważne zagadnienia 35 Sprawdzanie założeń 96 36 Wyznaczanie wielkości próby 98 37 Prezentacja wyników 101 Zagadnienia dodatkowe 38 Narzędzia diagnostyczne 104 39 Szacowanie zgodności 107 40 Medycyna poparta dowodami 110 41 Metody dla danych klasteryzowanych . . . . 112 42 Metody regresji dla danych klasteryzowanych 115 43 Przeglądy systematyczne i metaanaliza . . . . 118 44 Analiza przeżycia 121 45 Metody Bayesowskie 124 Dodatki A Tablice statystyczne 126 B Nomogram Altmana do obliczeń wielkości próby 133 C Typowe wydruki komputerowe 134 D Słowniczek terminów statystycznych 146 E Skorowidz 156 5

6 PRZEDMOWA TŁUMACZA White lie, damned lie, statistics (Małe kłamstwo, wielkie łgarstwo, statystyka) — te słowa przypisywane Markowi Twainowi, w których opisał stopnie nieprawdy, chyba najle­ piej oddają stosunek większości „normalnych ludzi" do sta­ tystyki. Uważa się ją za narzędzie do manipulowania dany­ mi, pozwalające na pseudonaukowe udowadnianie swoich racji. Wielu z nas, obserwując prognozy statystyczne prezen­ towane w środkach masowego przekazu, stwierdza, że wie­ lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi­ my sytuacje jasne, niedwuznaczne, z których moglibyśmy wywnioskować, że „białe jest białe, a czarne — czarne". Ma­ ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo dobrym i precyzyjnym działem matematyki jak algebra, try­ gonometria czy rachunek różniczkowy i całkowy. Stanowi ona część rachunku prawdopodobieństwa i bez problemu stosuje się ją w fizyce, chemii i naukach technicznych. Sto­ sowanie statystyki w ekonomii (np. prognozowanie kursów giełdowych, analizy ubezpieczeniowe) również nie budzi większych zastrzeżeń. Nieco inaczej przedstawia się sytu­ acja z zastosowaniem statystyki w naukach medycznych. Dane medyczne charakteryzuje duży stopień zmienności zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do­ datkowym problemem jest uzyskanie próby o wystarczają­ cej liczebności (rzadkie jednostki chorobowe, kosztowne procedury badawcze, zagadnienia etyczne w leczeniu inwa­ zyjnym) i z tego względu standardowe techniki statystyczne często nie mogą być stosowane. Dlatego też w ramach staty­ styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra­ ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie­ ku, aczkolwiek wykorzystuje ona również teorie opracowa­ ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie ma roku, by nie pojawiły się nowe techniki analizy danych biomedycznych, istotnie wzbogacane przez rozwój technolo­ gii komputerowej. Bez użycia komputerów trudno wyobra­ zić sobie użycie takich metod, jak bootstrapping, jackkni- fing, metoda Monte Carlo. Próbę przedstawienia aktualnego stanu wiedzy z tej dzie­ dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo- pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona — ogromne dzieło o ponad sześciu tysiącach stron zapisa­ nych drobnym drukiem. Niestety wiedza ta ma charakter hermetyczny i jest niemal całkowicie niedostępna dla prze­ ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu­ diując artykuły naukowe ze swojej dziedziny, napotka takie sformułowania jak przedział ufności, regresja logistyczna czy rozkład Poissona? Próba poszukiwania tych terminów w wydawnictwach encyklopedycznych lub fachowych z za­ kresu statystyki z miejsca stawia go na przegranej pozycji z uwagi na sformalizowany język i kompletnie niezrozumia­ łe dla niego wzory. Na całym świecie w szkolnictwie medycznym wykładane są metody biostatystyki. Niestety, z reguły przedmiot ten zo­ staje umiejscowiony na początkowych latach studiów w ra­ mach tzw. przedmiotów podstawowych. Powoduje to najczę­ ściej, że student traktuje go jako jeszcze jeden niepotrzebny kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli­ niki. Prawdziwa potrzeba użycia statystyki pojawia się na wyższych latach, np. przy pisaniu pierwszych prac w ra­ mach studenckich towarzystw naukowych. Wtedy to po raz pierwszy student staje przed problemem, jak sformułować hipotezy badawcze, jak zebrać materiał do analizy, jak powi­ nien być on obszerny, co oznacza termin reprezentatywność, jakiego użyć testu statystycznego, jak zinterpretować wyni­ ki itd. Powszechny dostęp do komputerów i zainstalowanych w nich pakietów statystycznych znakomicie ułatwia sytu­ ację, lecz niestety tylko pozornie. Pojawiają się prace „na­ ukowe", w których niezdarne próby użycia statystyki gene­ rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę. Podobna sytuacja przydarza się słuchaczom studium dokto­ ranckiego. Przygotowywana rozprawa doktorska wymaga bowiem rygorystycznego podejścia metodycznego, z reguły surowo ocenianego przez recenzentów pracy. Również próba publikowania swoich wyników w czasopismach medycznych często kończy się zwróceniem pracy w celu wykonania po­ prawek dotyczących użytych technik statystycznych. W tej sytuacji pozostaje jedynie zlecenie wykonania analiz staty­ stykowi, albo też ambitna próba odkurzenia notatek z biosta­ tystyki i przegryzienia się przez trudny materiał. Na polskim rynku wydawniczym nie ma niestety dużego wyboru książek poświęconych tej tematyce. Z reguły są to albo dość stare pozycje, nie uwzględniające najnowszych dokonań w tej dziedzinie, albo przeładowane wiedzą teore­ tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa skorzystania z najlepszych wzorców dydaktycznych dostęp­ nych w literaturze obcojęzycznej. Jedną z takich pozycji jest książka Avivy Petrie i Caroline Sabin, pt. Statystyka me­ dyczna w zarysie, wydana po raz pierwszy przez Blackwell Publishing w roku 2000 w ramach serii książek przezna­ czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ­ ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo­ stała wydana w przeredagowanej i uzupełnionej wersji. W Stanach Zjednoczonych jest polecana przy przygotowa­ niach do zdania egzaminu państwowego USMLE step 1. Jej niezwykła popularność bierze się stąd, że Autorkom udało się w znakomity sposób wyważyć ilość wiedzy teore­ tycznej niezbędną do zrozumienia podstawowych pojęć sta­ tystycznych i zastosowania praktyczne pojawiające się w pracy lekarza. Opisane prostym, lecz precyzyjnym języ­ kiem rzeczywiste problemy z różnych dziedzin medycyny bardzo dobrze ilustrują sposób użycia rozmaitych technik statystycznych przedstawionych w tekście. Autorki w roz­ sądny sposób podają wzory (tam, gdzie to rzeczywiście ko­ nieczne) i całkowicie pomijają dowody potrzebne matematy­ kom, a nie lekarzom. Nie ogranicza to jednak w żaden sposób precyzji przekazywanej informacji. Autorki przy­ wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą­ cych u podstaw stosowania rozmaitych technik statystycz­ nych, nie wdając się niepotrzebnie w ich uzasadnianie. Na książkę tę zwróciłem uwagę już w roku 2000 po jej pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla studentów anglojęzycznych w Akademii Medycznej im. Ka-

rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen­ tów potwierdzają jej niezwykłą przydatność przy przygoto­ waniu zarówno do testów w okresie studiów, jak i egzami­ nu USMLE step 1. Ucieszyła mnie zatem propozycja Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ­ ki na język polski i udostępnienia tej cennej pozycji polskie­ mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak­ tu, iż tłumaczenie jest jak kobieta — „wierna nie jest piękna, a piękna nie jest wierna". Problem stanowią nie tyl­ ko nieprzetłumaczalne na język polski (ale w pełni zrozu­ miale dla naukowców) słowa, takie jak bootstrapping, jack- knifing, ale i specyfika językowa uniemożliwiająca krótkie, jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły angielski termin virological Jailure po konsultacji z wiruso­ logami rozrósł się do „braku efektu terapeutycznego po le­ czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom lekarzom za poświęcenie mi czasu na skonsultowanie termi­ nologii medycznej i będę wdzięczny za wszystkie uwagi, które mogłyby udoskonalić prezentowaną pracę. Książka Avivy Petrie i Caroline Sabin, pt. Statystyka medyczna w zarysie jest polecana zarówno kolejnym rocz­ nikom studentów wydziałów lekarskich i stomatologicznych, jak i słuchaczom studiów doktoranckich na akademiach me­ dycznych. Jako niezwykle przydatną znajdą ją również stu­ denci wydziałów fizyki uniwersytetów i politechnik tam, gdzie otwarte zostały kierunki fizyki medycznej. Może ona stanowić również znakomity materiał dydaktyczny dla pro­ wadzących wykłady i ćwiczenia z biostatystyki na wspo­ mnianych kierunkach studiów. Może też stanowić nieocenio­ ne źródło fachowych informacji dla każdego lekarza, zarówno naukowca pracującego w akademickich klinikach, jak i lekarza praktyka pragnącego poprzez samokształcenie poszerzać i doskonalić swoje umiejętności. W sprawdzeniu zdobytej wiedzy z zakresu biostatystyki może pomóc test za­ mieszczony na stronie internetowej www.medstatsaag.com (niestety nie został jeszcze spolszczony). Mam nadzieję, że książka ta zdobędzie podobną popularność u polskiego Czy­ telnika, jak w krajach zachodnich, i dostarczy mu dużo war­ tościowych i przystępnie podanych informacji. Jerzy A. Moczko

8 WSTĘP Książka Statystyka medyczna w zarysie jest skierowana do studentów akademii medycznych, badaczy medycznych, słuchaczy studiów podyplomowych w zakresie dyscyplin biomedycznych oraz personelu przemysłu farmaceutyczne­ go. Oni wszyscy na pewnym etapie życia zawodowego zetkną się z wynikami ilościowymi (własnymi lub innych ba­ daczy), które będą wymagały krytycznej analizy i interpre­ tacji. A niektórzy będą oczywiście musieli zdać ten straszli­ wy egzamin ze statystyki! Z tego powodu nieocenione jest właściwe zrozumienie statystycznych koncepcji i metodolo­ gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm Czytelnika dla statystyki co dostarczyć mu praktycznej wie­ dzy. W tym nowym wydaniu, podobnie jak to było w wyda­ niu poprzednim, naszym celem jest zapewnienie studentowi i badaczowi, jak również klinicyście napotykającemu w lite­ raturze medycznej koncepcje statystyczne, książki, która jest solidna, łatwa w czytaniu, wszechstronna, związana z tematem i użyteczna w praktycznym zastosowaniu. Wierzymy, że książka Statystyka medyczna w zarysie będzie szczególnie użyteczna jako pomoc dla wykładowców statystyki, również jako źródło odnośników. Struktura wy­ dania drugiego pozostaje taka sama jak wydania pierwsze­ go. Tak jak inne książki z serii ...w zarysie składa się z od­ rębnych, dwu-, trzy- lub rzadko czterostronicowych rozdziałów, z których każdy omawia inny aspekt statystyki medycznej. Z naszych własnych doświadczeń dydaktycz­ nych znałyśmy trudności, jakie napotykali nasi studenci podczas zgłębiania statystyki medycznej, i starałyśmy się wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się ograniczyć teoretyczną zawartość książki do poziomu wy­ starczającego do zrozumienia użytych procedur, lecz który nie zaciemnia jeszcze ich praktycznych zastosowań. Statystyka medyczna jest obszernym przedmiotem obej­ mującym wielką liczbę zagadnień. W książce podajemy pod­ stawowe koncepcje statystyki medycznej i przewodnik po najczęściej stosowanych procedurach statystycznych. Epidemiologia jest ściśle powiązana ze statystyką medycz­ ną, omawiamy więc podstawowe zagadnienia tej dziedziny, związane z planowaniem i interpretacją badania. Załączamy również rozdziały, którymi Czytelnik zainteresuje się jedy­ nie okazjonalnie, lecz które mimo wszystko są fundamental­ ne dla wielu obszarów badań medycznych; na przykład me­ dycyna oparta na dowodach, przeglądy systematyczne i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu­ maczymy zasady leżące u podstaw tych zagadnień tak, by Czytelnik był w stanie zrozumieć i zinterpretować ich wyni­ ki, jeżeli takowe zostaną zamieszczone w literaturze. Porządek pierwszych 30 rozdziałów tego wydania odpo­ wiada wydaniu pierwszemu. Większość tych rozdziałów po­ została nie zmieniona w nowym wydaniu. Niektóre zawierają stosunkowo małe zmiany, uwzględniające ostatnie zdobycze, oraz odwołania, zmiany wynikają również z reorganizacji materiału. Większe dodatki odnoszą się do stosunkowo zło­ żonych form analizy regresji, które obecnie są używane sze­ rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie, częściowo dlatego, że związane z tym oprogramowanie jest bardziej dostępne i efektywne, niż było w przeszłości. Zmo­ dyfikowałyśmy rozdział o wynikach binarnych i regresji lo­ gistycznej (rozdział 30), włączając nowy rozdział o często­ ściach i regresji Poissona (rozdział 31) oraz znacząco rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz­ ne", tak że składa się on teraz z trzech rozdziałów: „Uogól­ nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające w modelach statystycznych" (rozdział 33) oraz „Zagadnienia związane z modelowaniem statystycznym" (rozdział 34). Zmodyfikowałyśmy również rozdział 41, który opisuje róż­ ne podejścia do analizy danych sklasteryzowanych, i doda­ łyśmy rozdział 42, o różnych metodach regresyjnych, które mogą być użyte do analizy tego typu danych, W wydaniu pierwszym zamieszczono krótki opis analizy szeregów cza­ sowych, z czego zdecydowałyśmy się zrezygnować w dru­ gim wydaniu, jako że wydawał się zbyt skrótowy, aby być praktycznie użytecznym, a jego rozwinięcie wymagałoby wyjścia poza przyjęte granice trudności. Z powodu usunię­ cia, jak i dodania pewnych rozdziałów, numeracja rozdzia­ łów w wydaniu drugim różni się od tej z poprzedniego wy­ dania, począwszy od rozdziału 30. Większość rozdziałów w dalszej części książki, które były również w wydaniu pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie, Opisowi każdej techniki statystycznej towarzyszy przy­ kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy ze wspólnych badań, w których uczestniczyłyśmy my lub na­ si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze­ czywiste dane z wydanych publikacji. Tam, gdzie było to możliwe, użyłyśmy tych samych danych w więcej niż jednym rozdziale, aby odzwierciedlić rzeczywistość analizy danych, która rzadko jest ograniczona do jednej techniki lub podej­ ścia. Chociaż uważamy, że należy podawać wzory i wyja­ śniać logikę postępowania, starałyśmy się unikać szczegółów złożonych obliczeń — większość Czytelników ma dostęp do komputerów i jest mato prawdopodobne, że będą Oni do­ konywali ręcznie obliczeń, może poza tymi najprostszymi. Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika jest umiejętność interpretacji wyników z pakietu kompute­ rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania wyników wybrałyśmy wydruki komputerowe. W pewnych sytuacjach, gdy podejrzewałyśmy trudności interpretacyj­ ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute­ rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po­ wszechnym użyciu istnieje wiele pakietów statystycznych; chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać postać wyników, nie ograniczyłyśmy się do wydruku z ja­ kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze znanych - SAS, SPSS oraz Stata. W całym tekście jest wiele odwołań mających Czytelniko­ wi ułatwić dotarcie do różnych procedur. Podstawowy ze­ staw tablic statystycznych jest zawarty w Dodatku A. Książ­ ki Neave H. R.: Elementary Statistical Tables, Routledge 1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd., Blackwell Publishing, Oxford 1970, obok wielu innych, za­ wierają wersje pełniejsze, których Czytelnik potrzebuje przy bardziej precyzyjnych obliczeniach przeprowadzanych

bez użycia komputera. Słowniczek terminów (Dodatek D) po­ daje przystępne wyjaśnienia większości użytej terminologii. Wiemy, że największą trudnością, jaką napotyka niesta- tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto­ wałyśmy dwa schematy blokowe, których można użyć za­ równo w celu podjęcia decyzji co do odpowiedniej metody w danej sytuacji, jak i w celu znalezienia jej w prezentowa­ nej książce. Oba schematy blokowe zamieszczono przezor­ nie na wewnętrznej stronie okładek, aby zapewnić do nich łatwy dostęp. Jako narzędzie pomocne w ocenie własnych postępów Czytelnik znajdzie interaktywne ćwiczenia zamieszczone na naszej stronie internetowej (www.medstatsaag.com). Strona ta zawiera również pełny zestaw cytowań (niektóre z nich prowadzą bezpośrednio do Medline) uzupełniających odnośniki zawarte w tekście i pozwalających odnaleźć bazowe informacje dotyczące przykładów. Czytelnikom, któ­ rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta­ tystyki medycznej, możemy polecić następujące książki: Altman D. G.: Practical Statistics for Medical Research. Chapman and Hall, Londyn 1991. Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods in Medical Research. Blackwell Science, Oxford 2001. Pocock S. J.: Clinical Trials: A Practical Approach. Wiley, Chichester 1983. Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi i Jonathanowi Sterne'owi, którzy opracowali nieocenione komentarze i sugestie do drugiego wydania, oraz Richardo­ wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro- wi za ich uwagi na temat pierwszego wydania. Chcemy podziękować każdemu, kto pomógł nam zdobyć dane do przykładów. Oczywiście, bierzemy pełną odpowiedzialność za jakiekolwiek błędy, które pozostały w tekście lub przy­ kładach. Chcemy również podziękować Mikowi, Geraldowi, Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili nasze przygotowania do wydania pierwszego i żyli z nami podczas trudnych prób opracowania wydania drugiego. Aviva Petrie Caroline Sabin Londyn

1 RODZAJE DANYCH DANE I STATYSTYKI Celem większości prowadzonych prac badawczych jest ze­ branie danych na temat określonego obszaru badań. Dane Obejmują obserwacje jednej lub wielu zmiennych. Każda wielkość podlegająca zmianom nosi nazwę zmiennej. Na przykład możemy zbierać podstawowe informacje kli­ niczne i demograficzne o pacjentach z określonym schorze­ niem, Interesujące nas zmienne mogą obejmować płeć, wiek i wzrost pacjentów. Dane uzyskuje się zazwyczaj z próby, która reprezentu­ je interesującą nas populację. Naszym celem jest znaczące skondensowanie danych i wydobycie z nich użytecznej in­ formacji. Statystyka obejmuje metody zbierania, podsumo­ wywania, analizy i wyciągania wniosków z danych: w tym celu stosujemy techniki statystyczne. Dane mogą przyjmować rozmaite formy. Przed podję­ ciem decyzji co do wyboru najbardziej odpowiedniej meto­ dy statystycznej musimy wiedzieć, z jakim typem danych mamy do czynienia. Każda zmienna i odpowiadająca jej da­ na może być albo kategorialna, albo numeryczna (ryci­ na 1.1). DANE KATEGORIALNE (JAKOŚCIOWE) Ten typ danych pojawia się, gdy każda jednostka może na­ leżeć wyłącznie do jednej z pewnej liczby oddzielnych kate­ gorii danej zmiennej. • Dane nominalne — kategorie nie są uporządkowane, lecz mają po prostu nadane nazwy. Przykładami mogą być grupy krwi (A, B, AB i 0) lub stan cywilny (żonaty/wdo­ wiec/kawaler itp). W ostatnim przypadku nie zakładamy, że małżeństwo jest lepsze (lub gorsze) od pozostawania w sta­ nie bezżennym. • Dane porządkowe — kategorie są w pewien sposób uporządkowane. Jako przykład można podać stan zaawan­ sowania choroby (zaawansowany, umiarkowany, łagodny, brak choroby) lub natężenie bólu (ciężki, umiarkowany, ła­ godny, brak bólu). Zmienna kategorialna jest binarna lub dychotomiczna, jeżeli może przyjmować jedynie dwie kategorie. Przykłada­ mi mogą być odpowiedzi „tak/nie", „zmarł/żyje", „pacjent jest chory/pacjent jest zdrowy". DANE NUMERYCZNE (ILOŚCIOWE) Ten typ danych pojawia się w chwili, gdy zmienne przyjmu­ ją wartości numeryczne. Dane numeryczne możemy podzie­ lić na dwa typy. • Dane dyskretne — występują, gdy zmienne mogą przybierać jedynie wartości całkowite. Przykładem mogą być liczby zdarzeń, takie jak liczba wizyt u lekarza rodzin­ nego w ciągu roku lub liczba epizodów chorobowych w cią­ gu ostatnich pięciu lat. • Dane ciągłe — występują, gdy nie ma innych ograni­ czeń wartości, jakie może przyjmować zmienna, niż te, któ­ re ograniczają nas w trakcie wykonywania pomiaru, np. masa ciała lub wzrost. ROZRÓŻNIANIE TYPÓW DANYCH Często wykorzystujemy różne metody statystyczne w zależ­ ności od tego, czy dane są kategorialne, czy też numerycz­ ne. Chociaż rozróżnienie między danymi kategorialnymi a numerycznymi jest zazwyczaj proste, w pewnych sytu­ acjach może się okazać niejasne. Na przykład, gdy mamy do czynienia ze zmienną o dużej liczbie uporządkowanych kategorii (np. skala stopnia bólu z siedmioma kategoriami) może być trudno ją odróżnić od dyskretnej zmiennej nume­ rycznej. Rozróżnienie między dyskretnymi i ciągłymi dany­ mi numerycznymi może być jeszcze mniej oczywiste, choć w ogólności ma ono znikomy wpływ na wyniki większości analiz. Przykładem zmiennej traktowanej często jako dys­ kretna jest wiek (choć tak naprawdę jest to zmienna ciągła). Zazwyczaj odnosimy się do „wieku w dniu ostatniej roczni­ cy urodzin", a nie do „wieku jako takiego", i dlatego kobie­ ta, która podaje, że ma 30 lat, mogła właśnie obchodzić swo­ je 30. urodziny lub właśnie zbliżać się do 31. rocznicy urodzin. Nie należy na początku zapisywać danych numerycznych jako kategorialnych (np. poprzez zapisywanie grupy wieko­ wej, do której należy pacjent zamiast jego/jej aktualnego wieku), ponieważ gubi się w ten sposób ważną informację. Łatwo można dokonać konwersji zebranych danych nume­ rycznych do danych kategorialnych. Rycina 1.1. Diagram przedstawiający różne typy zmiennych. 10 Opracowywanie danych

DANE POCHODNE W badaniach medycznych możemy też napotkać inne rodza­ je danych. Obejmują one: • Procenty — mogą pojawić się, gdy oceniamy poprawę stanu zdrowia u pacjentów podlegających leczeniu, np. para­ metr funkcji oddechowej pacjenta (wymuszona objętość wyde­ chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ­ stwie leczenia nowym lekiem. W tym przypadku interesuje nas raczej stopień poprawy, a nie wartość bezwzględna. • Proporcje lub ilorazy — czasami możemy napotkać proporcje lub iloraz dwóch zmiennych. Na przykład wskaź­ nik masy ciała (BMI), obliczany jako masa osobnika (kg) po­ dzielona przez kwadrat jego/jej wzrostu (m 2 ), jest często używany w celu oszacowania nadwagi lub niedowagi. • Częstości — częstości chorób. Liczba zachorowań wśród obiektów badania jest dzielona przez całkowitą licz­ bę lat obserwacji wszystkich osobników w tym badaniu (rozdział 31). Dane takie są powszechnie stosowane w na­ ukach epidemiologicznych (rozdział 12). • Punktacja — czasami, gdy nie możemy zmierzyć wiel­ kości, stosujemy wartości arbitralne, np. punktację. Na przy­ kład, odpowiedzi na pytania dotyczące jakości życia mogą zostać zsumowane w celu uzyskania pewnej ogólnej wielko­ ści charakteryzującej jakość życia każdego osobnika. Wszystkie wymienione powyżej zmienne w większości analiz mogą być traktowane jako zmienne numeryczne. Tam, gdzie zmienną uzyskuje się z więcej niż jednej wartości (np. licznik i mianownik w procentach), jest rzeczą istotną zapisa­ nie wszystkich tych wartości. Na przykład, 10% poprawa wskaźnika oceny leczenia może mieć rozmaite znaczenie kli­ niczne w zależności od wartości tego wskaźnika przed lecze­ niem. DANE UCIĘTE Dane ucięte możemy napotkać w takich na przykład sytu­ acjach: • Jeżeli mierzymy dane laboratoryjne, używając narzę­ dzia, które jest w stanie zarejestrować dane powyżej pew­ nego poziomu, to żadne wartości pomiarowe leżące poniżej tego poziomu nie zostają zidentyfikowane. Na przykład, je­ żeli mierzymy poziomy wirusa poniżej poziomu jego wykry­ walności, to wartości te opisujemy jako „nieoznaczalne", mimo że w próbce mogło być nieco wirusów. • W badaniach, w których część pacjentów wypada z grupy badanej przed czasem zakończenia badania. Ten typ danych jest omówiony bardziej szczegółowo w rozdziale 44. /. Rodzaje danych 11

2 WPROWADZANIE DANYCH Przy wykonywaniu jakichkolwiek badań niemal zawsze wprowadza się dane do pakietu oprogramowania kompute­ rowego. Komputery są nieocenione, jeśli chodzi o poprawę dokładności i prędkości zbierania danych oraz ich analizy, ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz­ ne podsumowania danych i generować nowe zmienne. War­ to poświęcić nieco czasu na zaplanowanie wprowadzania danych — może to zaoszczędzić wiele wysiłku w później­ szych etapach. FORMATY WPROWADZANIA DANYCH Istnieje wiele sposobów wprowadzania i zapamiętywania danych w komputerze. Większość pakietów statystycznych pozwala na bezpośrednie wprowadzenie danych. Jednakże ograniczeniem takiego podejścia jest fakt, że niejednokrot­ nie nie można przenieść tych danych do innego pakietu. Pro­ stą alternatywą jest zapamiętanie danych albo w arkuszu kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres dostępnych w nich procedur statystycznych jest najczęściej mocno ograniczony i dla przeprowadzenia analiz trzeba zwykle przenieść dane do specjalistycznego pakietu staty­ stycznego. Bardziej elastycznym sposobem rozwiązania problemu jest umieszczenie danych w plikach ASCII lub plikach tek­ stowych. Dane zapisane w formacie ASCII mogą być odczy­ tywane przez większość pakietów. Format ASCII składa się po prostu z wierszy tekstu, który można oglądać na ekranie komputera. Zazwyczaj każda zmienna w pliku jest oddzielo­ na od następnej pewnym ogranicznikiem, najczęściej spa­ cją lub przecinkiem. Jest to tzw. format swobodny. Najprostszym sposobem wprowadzenia danych w forma­ cie ASCII jest użycie edytora tekstowego lub pakietu edycyj­ nego. W formacie tym można też zapisać dane złożone w ar­ kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz danych odpowiada zazwyczaj innemu obiektowi badania, a każda kolumna odpowiada innej zmiennej, chociaż czasa­ mi stosowane są wiersze kontynuacyjne — gdy dla każdego obiektu zbierana jest duża liczba zmiennych. PLANOWANIE WPROWADZANIA DANYCH Podczas zbierania danych w trakcie badania często będziesz potrzebował do ich zapisania formularza lub kwestionariusza. Staranne zaprojektowanie formularza pozwoli na zmniejsze­ nie nakładu pracy przy wprowadzaniu danych. Ogólnie, for­ mularze/kwestionariusze zawierają serię kratek, w których zapisuje się dane — z reguły każda możliwa cyfra w odpowie­ dzi musi mieć osobną kratkę. DANE KATEGORIALNE Niektóre pakiety statystyczne mają problemy z obsługą da­ nych nienumerycznych. Dlatego przed wprowadzeniem da­ nych do komputera trzeba czasem przyporządkować kody numeryczne do danych kategorialnych. Na przykład, można przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu, ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać dodane do formularzy w trakcie zbierania danych. Dla da­ nych binarnych, np. dla odpowiedzi tak/nie, często wygod­ nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla „nie"). • Zmienne kodowane pojedynczo — istnieje jedna moż­ liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie można udzielić na to pytanie jednocześnie odpowiedzi „tak" i „nie". • Zmienne kodowane wielokrotnie — dla każdego re­ spondenta możliwa jest więcej niż jedna odpowiedź. Na przykład: jakie symptomy występują u tego pacjenta. W tym przypadku osobnik może mieć dowolną liczbę symp­ tomów. Istnieją dwie metody kodowania tego typu danych w zależności od tego, która z sytuacji ma miejsce. • Istnieje tylko kilka możliwych symptomów, a każdy osobnik może mieć kilka z nich. Można stworzyć pew­ ną liczbę zmiennych binarnych, które oznaczają, czy pacjent odpowiedział tak lub nie na temat obecności każ­ dego możliwego symptomu. Na przykład: czy pacjent kaszle?, czy pacjenta boli gardło? • Istnieje wielka liczba możliwych symptomów, lecz spodziewamy się, że każdy pacjent ma tylko kilka z nich. Można stworzyć pewną liczbę zmiennych nomi­ nalnych; każda kolejna zmienna pozwala wtedy nazwać symptom występujący u pacjenta. Na przykład: jaki wy­ stąpił pierwszy symptom u pacjenta?, jaki był drugi symptom? Z góry trzeba tu zadecydować o maksymalnej liczbie symptomów, jakie mogą wystąpić u pacjenta. DANE NUMERYCZNE Dane numeryczne należy wprowadzać z taką samą dokład­ nością, z jaką zostały one zmierzone, a jednostka pomiaru powinna być jednakowa dla wszystkich obserwacji w obrę­ bie zmiennej. Na przykład, masa powinna być wyrażona w kilogramach lub funtach, lecz nigdy w obu jednostkach na zmianę. KILKA FORMULARZY DLA PACJENTA Czasami informacje zbiera się od tego samego pacjenta przy więcej niż jednej okazji. Ważne jest wtedy zapewnie­ nie tego samego, unikalnego identyfikatora (np. numeru se­ ryjnego) powiązanego z osobnikiem — umożliwia on połącze­ nie wszystkich danych uzyskanych w badaniu na temat tego osobnika. PROBLEMY Z DATAMI I CZASEM Daty i czas powinny być wprowadzane w sposób jednolity, np. albo jako dzień/miesiąc/rok, albo miesiąc/dzień/rok, ale nigdy wymiennie. Ważną sprawą jest znalezienie forma­ tu, jaki może być odczytywany przez pakiet statystyczny. 12 Opracowywanie danych

KODOWANIE BRAKUJĄCYCH WARTOŚCI Przed rozpoczęciem wprowadzania danych należy rozważyć, co chce się zrobić z danymi brakującymi. W większości przy­ padków do reprezentowania brakujących danych trzeba użyć specjalnego symbolu. Pakiety statystyczne obsługują braki danych w rozmaity sposób. Niektóre z nich używają znaków specjalnych (np. kropka lub gwiazdka) do wskazania braku­ jących danych, podczas gdy inne wymagają zdefiniowania własnego kodu dla wartości brakującej (najczęściej stosowa­ ne wartości to 9,999 lub -99). Wybrana wartość musi być ta­ ką wartością, która nie może zaistnieć w tej zmiennej. Na przykład, przy wprowadzaniu zmiennej kategorialnej za­ wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re­ prezentowania wartości brakujących można wybrać kod 9. Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać inny kod. Zmienne brakujące zostaną dokładniej omówione w rozdziale 3. Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia. Dane zebrano w próbie 64 kobiet zarejestrowanych w centrum hemofilii w Londynie jako część badania nad wpływem wrodzonych zaburzeń krzepnięcia na cią­ żę i poród. Kobietom zadawano pytania związane z ich problemami krzepnięcia oraz pierwszą ciążą (lub ich obecną ciążą, jeżeli w trakcie przeprowadzanego wywia­ du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie­ wielką część danych po ich wprowadzeniu do arkusza kalkulacyjnego, lecz przed dokonaniem poprawek. Schematy kodowania dla zmiennych kategorialnych znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar­ kusza reprezentuje kolejny obiekt badania; każda kolum­ na przedstawia inną zmienną. Jeżeli kobieta jest nadal w ciąży, jej wiek w chwili porodu został przeliczony na podstawie oszacowanej daty narodzin dziecka. Dane związane z żywymi urodzeniami przedstawiono w roz­ dziale 37. Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie. 2. Wprowadzanie danych 13 PRZYKŁAD

3 KONTROLA BŁĘDÓW I W każdym badaniu zawsze istnieje możliwość pojawienia się błędów w zbiorze danych albo w fazie początkowej pod­ czas dokonywania pomiarów, albo podczas ich zbierania, przepisywania czy wprowadzania do komputera. Jednakże liczbę błędów powstających przy wprowadzaniu i przepisy­ waniu można zredukować poprzez uważne sprawdzanie da­ nych po ich wprowadzeniu. Proste wzrokowe przejrzenie danych często pozwala wychwycić wartości, które są w spo­ sób oczywisty błędne. W tym rozdziale sugerujemy pewne techniki, których można używać przy sprawdzaniu danych. BŁĘDY PRZY WPROWADZANIU Najczęstszym źródłem błędów przy wprowadzaniu danych jest tzw. palcówka. Przy małej liczbie danych można je porów­ nać z danymi na oryginalnych formularzach/kwestionariu­ szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa­ dzaniu. Jednakże przy dużej liczbie danych procedura ta jest niezwykle czasochłonna. Można również dwukrotnie wprowa­ dzić te same dane i porównać oba pliki programem kompute­ rowym. Każda różnica między oboma zestawami danych wskazuje na błąd przy wprowadzaniu. Chociaż podejście to nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze­ stawach, lub tego, że sama wartość na formularzu/kwestiona­ riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę­ dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie więcej czasu przy wprowadzaniu danych, co powoduje konse­ kwencje finansowe i czasowe. KONTROLA BŁĘDÓW • Dane kategorialne — Stosunkowo łatwo można spraw­ dzić dane kategorialne, skoro każda zmienna może przyjmo­ wać tylko jedną z ograniczonej liczby wartości. Dlatego też wartość niedozwolona musi być błędem. • Dane numeryczne — Dane numeryczne są często trud­ ne do sprawdzenia, a jednocześnie podatne na błędy. Na przykład, podczas wprowadzania danych numerycznych łatwo jest przestawić cyfry lub pozycję przecinka dziesięt­ nego. Dane numeryczne można sprawdzać przez badanie zakresu — dolnej i górnej granicy określonej dla danej zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za­ znaczona dla dalszego badania. • Daty — Często sprawdzenie poprawności daty jest trud­ ne, chociaż czasami wiadomo, że powinna ona należeć do pewnego okresu czasu. Daty można sprawdzać w celu upew­ nienia się, że są one prawidłowe. Na przykład, 30 lutego mu­ si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub każdy miesiąc powyżej 12. Można również stosować pewne reguły logiczne. Na przykład, data urodzin pacjenta powinna odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro­ dzić się przed włączeniem do badania (przynajmniej w więk­ szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin­ ni się pojawiać na kolejnych wizytach kontrolnych! Przy poprawianiu wszystkich błędów wartość powinna zostać zmieniona jedynie wtedy, gdy mamy dowód, że został 14 Opracowywanie danych popełniony błąd. Nie należy zmieniać wartości tylko dlatego, że wyglądają nietypowo. OPRACOWYWANIE DANYCH BRAKUJĄCYCH Zawsze istnieje możliwość wystąpienia braku niektórych da­ nych. Jeżeli brakuje dużej części danych, to mało prawdopo­ dobne jest uzyskanie wiarygodnych rezultatów. Należy za­ wsze zbadać przyczynę pojawiania się braków danych — jeżeli braki danych mają tendencję do skupiania się w pewnej zmiennej i/lub w określonej podgrupie obiektów, może to oznaczać, że zmienna nie jest stosowalna lub nigdy nie została pomierzona dla tej grupy osób badanych. Jeżeli to jest rzeczywistą przyczyną, może okazać się konieczne wykluczenie tej zmiennej lub grupy obiektów z analizy. Szczególne problemy możemy napotkać, kiedy szansa wystą­ pienia zmiennych brakujących jest silnie związana z najbar­ dziej interesującą nas w badaniu zmienną (np. zmienną wy­ nikową w analizie regresji — rozdział 27). W tej sytuacji nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż­ my na przykład, że jesteśmy zainteresowani pomiarem, któ­ ry odzwierciedla stan zdrowia pacjentów i dla niektórych pacjentów brakuje tej informacji, ponieważ nie czuli się wy­ starczająco dobrze, by pojawić się na zaplanowanej wizycie w klinice: jeżeli nie weźmiemy pod uwagę brakujących da­ nych w analizie, najprawdopodobniej otrzymamy zbyt opty­ mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe jest zredukowanie tego obciążenia przez zastosowanie odpo­ wiednich metod statystycznych1 lub przez oszacowanie jakąś metodą brakujących danych2 , jednakże najbardziej pożąda­ ną opcją jest minimalizacja od samego początku liczby bra­ kujących danych. WARTOŚCI ODSKAKUJĄCE Czym są wartości odskakujące? Wartości odskakujące są obserwacjami, które różnią się od większości danych i są niezgodne z pozostałymi danymi. Wartości te mogą być prawdziwymi obserwacjami osób ba­ danych z bardzo ekstremalnymi poziomami zmiennej. Jed­ nakże mogą też być wynikiem błędów przy wprowadzaniu lub błędnego doboru jednostek i dlatego należy sprawdzić wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie, czy w zbiorze danych mamy do czynienia z wartościami od­ skakującymi, gdyż mogą one mieć znaczący wpływ na wy­ niki niektórych typów analiz (rozdział 29). Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie stanowiła wartość odskakującą w większości zbiorów da­ nych. Chociaż wartość ta jest istotnie bardzo duża w porów­ naniu z przeciętnym wzrostem kobiet, może być wartością 1 Laird N. M.: Missing data in longitudinal studies. Statistics in Medicine, 1988, 7, 305-315. 2 Engels J. M., Diehr R: Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology, 2003, 56, 968-976.

prawdziwą, a kobieta ta może być po prostu bardzo wysoka. W tym przypadku, zanim podejmiesz decyzję o ważności wy­ niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość, kontrolując inne zmienne, takie jak wiek i masa ciała. War­ tość powinna zostać zmieniona jedynie wtedy, gdy istnieje wyraźny dowód, że jest ona nieprawdziwa. Badanie wartości odskakujących Najprostszą metodą jest wydrukowanie danych i ich wzro­ kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie jest za duża i gdy potencjalna wartość odskakująca jest o wiele mniejsza lub o wiele większa od pozostałych danych. Badanie rozstępu również powinno pozwolić zidentyfikować możliwe wartości odskakujące. Alternatywę stanowi wykre­ ślenie w jakiś sposób danych (rozdział 4) — wartości odska­ kujące można łatwo identyfikować na histogramach i wy­ kresach rozrzutu (zobacz również dyskusję o wartościach odskakujących w analizie regresji w rozdziale 29). Radzenie sobie z wartościami odskakującymi Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub niższe, niż można się tego spodziewać. Jednakże włączenie wartości odskakujących może mieć wpływ na wyniki niektórych technik statystycznych. Pro­ stym wyjściem z tej sytuacji jest wykonanie analizy naj­ pierw przy uwzględnieniu, a potem przy wykluczeniu tych wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości odskakujące nie mają na nie wielkiego wpływu. Jednakże jeżeli wyniki drastycznie się zmieniają, należy zastosować odpowiednie metody, które podczas analizy da­ nych nie zostają zaburzane przez wartości odskakujące. Me­ tody te obejmują użycie transformacji (rozdział 9) i testów nieparametrycznych (rozdział 17). Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw­ dzany jesr w celu usunięcia błędów. Niektóre ze wskaza­ nych niezgodności su prostymi błędami popełnionymi przy wprowadzaniu. Na przykład, kod „41" w kolumnie „płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni­ ka z pominięcia informacji o pici: pozostała część danych pacjentki 20. została wprowadzona do nieprawidłowych kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach wieku ciążowego i masy ciała) też są najprawdopodobniej błędami, lecz przed powzięciem decyzji należy sprawdzić materiały źródłowe, jako że mogą one być prawdziwymi wartościami odskakującymi. W naszym przykładzie wiek ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa­ no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie można było odnaleźć prawidłowej masy ciała tego dziecka, wartość wprowadzono jako brakującą. 3. Kontrola błędów i wartości odskakujące ' 15 Rycina 3.1. Kontrola błędów w zestawie danych.

4 GRAFICZNA PREZENTACJA DANYCH Jedną z pierwszych rzeczy, które przydają się po wprowa­ dzeniu danych do komputera, jest jakaś forma ich podsumo­ wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić za pomocą diagramów, tabel i statystyk podsumowujących (rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia­ mi do przedstawiania danych, tworzenia prostych, podsumo­ wujących rycin oraz wykrywania wartości odskakujących i trendów, zanim zostaną przeprowadzone jakiekolwiek for­ malne analizy. JEDNA ZMIENNA Rozkłady częstości Empiryczny rozkład częstości zmiennej wiąże każdą moż­ liwą obserwację, klasę obserwacji (tj. zakres wartości) lub kategorię z obserwowaną częstością jej pojawiania się. Je­ żeli zastąpimy każdą częstość przez częstość względną (procent całkowitej częstości), możemy porównywać rozkła­ dy częstości w dwóch lub więcej grupach osób badanych. Prezentacja rozkładów częstości Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla danych kategorialnych lub niektórych numerycznych dys­ kretnych, możemy je przedstawić graficznie. • Wykres słupkowy lub kolumnowy — dla każdej katego­ rii rysujemy osobny pionowy lub poziomy słupek, którego dłu­ gość jest proporcjonalna do częstości występowania danych w tej kategorii. Słupki oddzielamy małymi przerwami, aby wskazać, że dane są kategorialne lub dyskretne (rycina 41a). • Wykres kołowy — dzielimy kółko na sekcje, po jednej dla każdej kategorii, tak by powierzchnia każdej sekcji była proporcjonalna do częstości występowania danych w tej ka­ tegorii (rycina 4.Ib). Często trudniej jest przedstawić dane numeryczne cią­ gle, gdyż najpierw muszą być one wstępnie opisane suma­ rycznie. Najczęściej stosuje się następujące diagramy: • Histogram — jest podobny do wykresu słupkowego, ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin­ no być przerw (rycina 4.Id). Szerokość każdego słupka jest uzależniona od zakresu wartości dla danej zmiennej. Na przykład, masa ciała dziecka (rycina 4.Id) może być ska­ tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg, ..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna do częstości występowania danych w tym zakresie. Dlatego, jeżeli jedna grupa pokrywa szerszy zakres wartości niż in­ ne, jej podstawa będzie szersza, a wysokość mniejsza. Zwykle stosuje się od 5 do 20 grup: zakresy powinny być na tyle wąskie, by mogły zilustrować charakterystyczne Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2). (a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro- dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y). 16 Opracowywanie danych

3 665 53 9751 955410 987655 9531100 731 99843110 654400 6 7 10 dipropionian beklometazonu 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 0,4 39 99 1135677999 0148 00338899 001355 00114569 6 01 19 placebo Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie­ ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21). wzory w rozkładzie danych, lecz nie aż tak wąskie, by przedstawiały indywidualne dane. Histogram powinien zo­ stać opisany starannie, tak aby granice między kategoriami byty wyraźnie zdefiniowane. • Wykres punktowy — każda obserwacja jest reprezen­ towana przez jedną kropkę na poziomej (lub pionowej) linii (rycina 4.1e). Jest to bardzo prosty sposób przedstawiania danych, lecz może być niewygodny przy dużych zbiorach. Często na diagramach pokazuje się miarę zbiorczą, taką jak średnia czy mediana (rozdział 5). Taki typ wykresu może być stosowany również dla danych dyskretnych. • Wykres typu „łodyga z liśćmi" — jest to połączenie diagramu i tablicy; przypomina histogram położony na boku i jest faktycznie zbiorem wartości danych zapisanych w kie­ runku rosnącym. Zazwyczaj rysuje się pionową „łodygę", złożoną z pierwszych kilku cyfr mierzonych wartości, upo­ rządkowanych w jakimś kierunku. Z „łodygi" wystają „li­ ście" — tj. końcowe cyfry każdej uporządkowanej wielkości, które zapisujemy w układzie poziomym (rycina 4.2) we wzrastającym porządku numerycznym. • Wykres skrzynkowy (zwany często „pudełkiem z wą­ sami") — jest to ustawiony pionowo lub poziomo prostokąt, którego boki odpowiadają górnemu lub dolnemu kwartylowi wartości pomiarowych (rozdział 6). Linia przeprowadzona przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo­ czynające się na bokach prostokąta zazwyczaj reprezentują wartości minimalną i maksymalną, lecz czasami oznaczają odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty (rozdział 6, rycina 6.1). Na wykresie tym można również za­ znaczyć wartości odskakujące. Kształt rozkładu częstości Wybór najodpowiedniejszej metody statystycznej często za­ leży od kształtu rozkładu. Rozkład danych jest najczęściej jednomodalny, przez co posiada jeden pik. Czasami rozkład jest bimodalny (dwa piki) lub równomierny (każda wartość jest jednakowo prawdopodobna, na skutek czego nie wystę­ puje żaden pik). W przypadku rozkładu jednomodalnego za­ sadniczym celem jest wskazanie, gdzie leży większość da­ nych w stosunku do wartości maksymalnej i minimalnej. W szczególności należy oszacować, czy rozkład jest: • symetryczny — scentrowany wokół pewnego punktu środkowego, z jedną stroną będącą lustrzanym odbiciem drugiej strony (rycina 5.1); • przekrzywiony w prawo (dodatnio skośny) — ma dłu­ gi ogon złożony z jednej lub większej liczby wysokich war­ tości. Takie dane są często spotykane w badaniach medycz­ nych (rycina 5.2); • przekrzywiony w lewo (ujemnie skośny) — ma długi ogon złożony z jednej lub większej liczby niskich wartości (rycina 4.Id). DWIE ZMIENNE Jeżeli jedna zmienna jest kategorialna, możemy narysować osobne diagramy pokazujące rozkłady drugiej zmiennej dla każdej z kategorii. Inne wykresy odpowiednie dla takich da­ nych to wykresy słupkowe, kolumnowe klasteryzowane lub segmentowane (rycina 4.1c). Jeżeli obie zmienne są numeryczne lub porządkowe, można przedstawić związek między nimi za pomocą wykre­ su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym wykreśla się wartość jednej zmiennej w zależności od dru­ giej. Jedna zmienna jest zwykle nazywana zmienną x i jest przedstawiana na osi poziomej. Druga zmienna, nazywana zmienną y, jest wykreślana na osi pionowej. IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH METODAMI GRAFICZNYMI Często wartości skrajne możemy wykrywać przy użyciu pre­ zentacji danych jednej zmiennej. Na przykład, bardzo długi ogon po jednej stronie histogramu może wskazywać na war­ tość odskakującą. Jednakże czasami wartości odskakujące stają się widoczne dopiero wtedy, gdy analizujemy związek pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie nieprawdopodobnie niska u kobiety o wzroście 1,9 m. 4. Graficzna prezentacja danych 17

5 OPIS DANYCH: WARTOŚĆ PRZECIĘTNA PODSUMOWYWANIE DANYCH Bardzo trudno jest mieć jakiekolwiek „wyczucie" co do zbio­ ru pomiarów numerycznych, chyba że możemy je w jakiś znaczący sposób podsumować. Użytecznym punktem wyjścia jest często diagram (rozdział 4). Konstruując miary, które opisują ważne charakterystyki danych, możemy również in­ formację skondensować. W szczególności, jeżeli mamy jakieś spostrzeżenie na temat tego, co stanowi wartość reprezenta­ tywną i jeżeli wiemy jak szeroko wokół niej są rozrzucone wartości, możemy stworzyć pewien obraz danych. Wartość przeciętna jest ogólnym określeniem miary położenia; opi­ suje ona typowy pomiar. Ten rozdział poświęcamy miarom przeciętnym, z których najczęściej używa się średniej i me­ diany (tabela 5.1). W rozdziale 6 wprowadzimy miary, które opisują rozrzut lub rozproszenie obserwacji. ŚREDNIA ARYTMETYCZNA Średnia arytmetyczna (często po prostu zwana średnią) zbioru wartości jest obliczana przez dodanie do siebie wszystkich wartości i podzielenie tej sumy przez liczbę war­ tości w zbiorze. Rzeczą przydatną jest streszczenie tego słownego opisu przez wzór algebraiczny. Stosując notację matematyczną, za­ pisujemy nasz zbiór n wartości zmiennej xjako xx , x2 , x3 ,..., xn . Na przykład, jeżeli x reprezentuje wzrost osobnika (cm), to Xj przedstawia wzrost pierwszego osobnika, a xt —wzrost /tego osobnika itd. Możemy zapisać wzór na średnią arytme­ tyczną obserwacji, oznaczając ją symbolem x, w postaci: Stosując notację matematyczną, zapis możemy skrócić do: gdzie Z (duża grecka litera sigma) oznacza sumę, nato­ miast dolny oraz górny indeks przy Z wskazuje, że sumuje­ my wartości od i = 1 do n. Ta postać jest często dalej skra­ cana do formy: MEDIANA Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo­ czynając od najmniejszej wartości i kończąc na największej, wtedy medianą będzie wartość środkowa uporządkowane­ go szeregu. Mediana dzieli uporządkowany zbiór wartości na dwie polowy, z równą liczbą wartości powyżej i poniżej mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser­ wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją w uporządkowanym szeregu. Tak więc, jeśli na przykład n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war­ tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy ściśle mówiąc, mediana nie istnieje. Jednakże wtedy obliczamy ją zazwyczaj jako średnią arytmetyczną dwóch środkowych obserwacji w uporządkowanym szeregu danych [tj. n/2 i (n/2 + 1)]. Tak więc, jeżeli na przykład n - 20, to mediana jest średnią arytmetyczną z 20/2 =10 oraz (20/2 + D = = (10 + 1) = 11 (dziesiątej i jedenastej wartości) w uporząd­ kowanym szeregu danych. Mediana jest zbliżona do średniej, jeżeli dane mają roz­ kład symetryczny (rycina 5.1), jest mniejsza niż średnia, gdy dane mają rozkład prawoskośny (rycina 5.2), natomiast większa niż średnia przy rozkładzie lewoskośnym. WARTOŚĆ MODALNA Wartość modalna jest wartością najczęściej pojawiającą się w zbiorze danych; jeżeli dane są ciągłe, zazwyczaj je grupu­ jemy i obliczamy modalną dla grup. Niektóre zbiory danych nie mają wartości modalnej, ponieważ każda wartość poja­ wia się tylko raz. Czasami występuje więcej niż jedna war­ tość modaina; dzieje się tak wtedy, gdy dwie lub więcej wartości pojawiają się taką samą liczbę razy, a częstość wy­ stępowania każdej z nich jest większa niż częstość wystę­ powania każdej innej wartości. Wartość modalna jest rzad­ ko stosowana jako miara podsumowująca. ŚREDNIA GEOMETRYCZNA Średnia arytmetyczna nie jest odpowiednią miarą położe­ nia, jeżeli dane są skośne. Jeżeli dane są prawoskośne, możemy uczynić rozkład bardziej symetrycznym poprzez zlogarytmowanie (z podstawą dziesiętną lub naturalną) każdej wartości w szeregu danych (rozdział 9). Średnia arytmetyczna wartości zlogarytmowanych jest miarą poło­ żenia danych przetransformowanych. Aby otrzymać miarę, która będzie miała takie same jednostki jak oryginalne ob­ serwacje, musimy dokonać transformacji odwrotnej (tj. wziąć antylogarytm) średniej z logarytmów danych; miarę tę nazywamy średnią geometryczną. Przy założeniu, że rozkład danych zlogarytmowanych jest w przybliżeniu sy­ metryczny, średnia geometryczna jest zbliżona do media­ ny i mniejsza niż wartość średnia z surowych danych (ry­ cina 5.2). ŚREDNIA WAŻONA Średniej ważonej używamy wtedy, gdy pewne wartości in­ teresującej nas zmiennej są ważniejsze niż inne. W celu uwidocznienia stopnia ważności dołączamy wagi w{ do każ­ dej wartości x; z naszej próbki. Jeżeli wartości xn mają odpowiadające wagi średnia wa­ żona jest określona jako: 18 Opracowywanie danych

Tablica 5.1. Zalety i wady miar przeciętnych. Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja­ ko że rozkład wartości oznaczających wiek wygląda na symetrycz­ ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje przerywana linia. Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój- glicerydów w próbie 232 mężczyzn, którzy przebyli zawał serca 'rozdział 19). Jako że rozkład wartości oznaczających poziom trój- źhcerydów jest prawoskośny, średnia daje wyższe wartości prze­ ciętne niż mediana lub średnia geometryczna. Miara przeciętna Zalety Średnia • Można ją stosować w przypadku wszystkich wartości. • Zdefiniowana algebra­ icznie, łatwa w algo- rytmizacji. • Znany rozkład próbko­ wania (rozdział 9). Mediana • Nie jest zniekształca­ na przez wartości odskakujące. • Nie zniekształcana przez dane skośne. Modalna • Łatwo daje się wyzna­ czać dla danych kate- gorialnych. Średnia • Przed transformacją geome- odwrotną ma takie tryczna same zalety jak średnia. • Odpowiednia dla roz­ kładów prawoskośnych. Średnia • Takie same zalety jak ważona średnia. • Przypisuje względną wagę do każdej obser­ wacji. • Zdefiniowana algebra­ icznie. Wady • Zniekształcana przez wartości odskakujące. • Zniekształcana w przy­ padku rozkładów sko­ śnych. * Pomija większość do­ stępnych informacji. • Nie zdefiniowana alge­ braicznie. • Skomplikowany rozkład próbkowania. • Pomija większość do­ stępnych informacji. • Nie zdefiniowana alge­ braicznie. • Nieznany rozkład prób­ kowania. • Daje się stosować jedy­ nie w przypadku, gdy transformacja logaryt­ miczna wytwarza roz­ kład symetryczny. • Wagi muszą być znane lub oszacowane. Na przykład, przypuśćmy, że jesteśmy zainteresowani wyznaczeniem średniego czasu pobytu pacjentów hospitali­ zowanych w szpitalach w okręgu i znamy średni czas zwol­ nienia pacjentów do domu w każdym szpitalu. Jedną z moż­ liwości będzie uwzględnienie jako wagi liczby pacjentów w każdym ze szpitali. Średnia ważona i średnia arytmetyczna są identyczne, gdy każda waga jest równa jedności. 5. Opis danych: wartość przeciętna 19 Wiek matki w chwili narodzin dziecka (w latach) Poziom trójolicerydów (mmol/L)

6 OPIS DANYCH: ROZPROSZENIE PODSUMOWYWANIE DANYCH Jeżeli jesteśmy w stanie wyznaczyć dwie miary podsumo­ wujące dla zmiennej ciągłej — jedną, która wskazuje war­ tość przeciętną i drugą opisującą rozproszenie danych — Wtedy dokonujemy kondensacji danych w sposób znaczący. W rozdziale 5 wytłumaczyłyśmy, jak dobrać odpowiednią miarę przeciętną. Ten rozdział poświęcamy omówieniu naj­ bardziej znanych miar rozproszenia (dyspersji lub zmien­ ności), które to miary zostały porównane w tablicy 6.1. Rozstęp jest różnicą między największą i najmniejszą wartością w zbiorze danych; często podaje się te dwie war­ tości zamiast ich różnicy. Trzeba zauważyć, że rozstęp daje mylącą wielkość rozproszenia, gdy w danych znajdują się wartości odskakujące (rozdział 3). ROZSTĘPY UZYSKIWANE Z PERCENTYLI Czym są percentyle? Przypuśćmy, że uporządkowaliśmy dane w kierunku wzro­ stu ich wielkości, rozpoczynając od wartości najmniejszej i kończąc na największej. Wartość zmiennej x, poniżej któ­ rej w uporządkowanym szeregu znajduje się 1% wartości (a 99% wartości leży powyżej), jest zwana pierwszym per- centylem. Wartość x, poniżej której leży 2% obserwacji, zwana jest drugim percentylem itd. Wartości x, które dzie­ lą uporządkowany zbiór na 10 równych pod względem licz­ by części, tj. dziesiąty, dwudziesty, trzydziesty,... dziewięć­ dziesiąty percentyl zwane są decylami. Wartości, które dzielą uporządkowany zbiór na cztery równe pod względem liczby części, tj. dwudziesty piąty, pięćdziesiąty i siedem­ dziesiąty piąty percentyl nazywamy kwartylami. Pięćdzie­ siąty centyl jest medianą (rozdział 5). Posługiwanie się percentylami Miarę rozproszenia niezaburzaną przez wartości skrajne możemy uzyskać, wykluczając wartości ekstremalne w zbiorze danych i wyznaczając rozstęp dla pozostałych ob­ serwacji. Rozstęp międzykwartylowy definiujemy jako róż­ nicę między pierwszym i trzecim kwartylem, tj. pomiędzy dwudziestym piątym i siedemdziesiątym piątym percenty­ lem (rycina 6.1). Zawiera on centralnych 50% obserwacji z uporządkowanego szeregu, 25% obserwacji leży poniżej je­ go dolnej granicy, a 25% — powyżej jego górnej granicy. Rozstęp międzydecylowy zawiera 80% centralnych obser­ wacji, tj. leżące między dziesiątym i dziewięćdziesiątym percentylem. Często używa się rozstępu zawierającego 95% centralnych obserwacji, tj. wykluczających 2,5% obserwacji powyżej jego górnej granicy i 2,5% poniżej dolnej granicy (rycina 6.1). Możemy używać tego przedziału do diagnozo­ wania choroby, przy założeniu, że jest on wyznaczony i wy­ starczającej liczby wartości zmiennej dla osób zdrowych. Jest on często określany jako przedział odniesienia, zakres odniesienia lub zakres normalny (rozdział 38). WARIANCJA Jedną z metod mierzenia rozproszenia danych jest wyzna­ czenie, w jakim stopniu każda z obserwacji jest oddalona od średniej arytmetycznej. Oczywiście, im większe są te od­ ległości, tym większa jest zmienność obserwacji. Nie może­ my jednak używać średniej arytmetycznej tych odległości jako miary rozproszenia, gdyż dodatnie różnice dokładnie pokryją się z różnicami ujemnymi. Problem ten możemy obejść przez podniesienie każdej odległości do kwadratu i znalezienie średniej z kwadratów odległości (rycina 6.2); wielkość tę nazywamy wariancją. Jeżeli mamy próbę n obserwacji xlT x2, x3, ..., xn, dla których średnia wynosi Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka (rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar­ tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi­ mum i minimum. Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości wieku matki w chwili porodu (rozdział 2) wokół wartości średniej. Wariancja jest obliczana przez dodanie podniesionych do kwadratu odległości między poszczególnymi punktami a średnią i następnie podzielenie przez (n - 1). 20 Opracowywanie danych

i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle omaczoną pr2ez s2 , jako Jak widać, nie jest to dokładnie sama średnia arytme­ tyczna kwadratów odległości, ponieważ dokonujemy dziele­ nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że w naszych badaniach niemal zawsze opieramy się na próbie danych (rozdział 10). Można wykazać teoretycznie, że otrzy­ mamy lepsze oszacowanie wariancji w populacji, gdy doko­ namy dzielenia przez (n- 1). Jednostką wariancji jest jednostka oryginalnej obserwa­ cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona jest w kg, jednostką wariancji jest kg2 . ODCHYLENIE STANDARDOWE Odchylenie standardowe jest pierwiastkiem kwadratowym 2 wariancji. W próbie n obserwacji jest równe: Możemy wyobrazić sobie odchylenie standardowe jako rodzaj wartości przeciętnej odległości obserwacji od warto­ ści średniej. Jest ono wyrażone w tych samych jednostkach, co dane surowe. Jeżeli podzielimy odchylenie standardowe przez wartość średnią i wyrazimy ten iloraz w procentach, otrzymamy tzw. współczynnik zmienności. Jest on miarą rozproszenia niezależną od jednostek, lecz powoduje pewne teoretyczne niedogodności, na skutek czego nie jest lubiany przez staty­ styków. ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW I MIĘDZY NIMI Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla jednego osobnika, możemy się spodziewać, że wystąpi pew­ na zmienność (zmienność wewnątrzgrupowa) między jego wynikami. Może się to zdarzyć dlatego, że dany osobnik nie zawsze odpowiada w dokładnie ten sam sposób i/lub z powodu błędu pomiarowego. Jednakże wariancja we­ wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą wyznaczymy, biorąc pojedynczy pomiar każdego osobnika w grupie (zmienność międzygrupowa). Na przykład, 17-let- ni chłopiec ma pojemność życiową płuc pomiędzy 3,60 a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie. Wartość pojedynczych pomiarów zebranych u 10 chłopców w tym samym wieku zawiera się natomiast między 2,98 a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz­ dział 13). Tablica 6.1. Zalety i wady miar rozproszenia. Miara rozproszenia Rozstęp Rozstęp oparty o percentyle Wariancja Odchylenie standardowe Zalety • Łatwo daje się wy­ znaczyć. • Zazwyczaj nie znie­ kształcany przez wartości odskakujące. • Niezależny od wiel­ kości próby. • Odpowiedni dla danych skośnych. • Wykorzystuje wszystkie wartości. • Zdefiniowana alge­ braicznie. • Te same zalety jak wariancji. • Jednostka miary jest taka sama jak jedno­ stka pomiaru surowego. • Łatwe w interpretacji. Wady • Można go stosować w przypadku tylko dwóch wartości. • Zniekształcany przez wartości odskakujące. • Ma tendencję do wzro­ stu, gdy rośnie wiel­ kość próby. • Trudny do policzenia. • Nie może być stosowany dla małych prób. • Bierze pod uwagę jedy­ nie dwie wartości. • Niezdefiniowany alge­ braicznie. • Jednostka miary jest kwadratem jednostki pomiaru surowego. • Czułe na wartości odskakujące. • Niewłaściwe dla danych skośnych. 6. Opis danych: rozproszenie 21

7 ROZKŁADY TEORETYCZNE: ROZKŁAD NORMALNY W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych utworzyć empiryczny rozkład częstości. Rozkład ten kontra­ stuje z teoretycznym rozkładem prawdopodobieństwa, który jest opisany modelem matematycznym. Jeżeli nasz ekspery­ mentalny rozkład przybliża jakiś szczególny rozkład częstotli­ wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym rozkładzie do udzielenia odpowiedzi na temat danych. Często trzeba w tym celu obliczyć prawdopodobieństwo. ZROZUMIENIE PRAWDOPODOBIEŃSTWA Prawdopodobieństwo (prób — probability) jest miarą nie­ pewności; leży u podstaw teorii statystyki. Mierzy ono szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają­ cego (zdarzenia niepojawiającego się) jest równe jeden mi­ nus prawdopodobieństwo zdarzenia pojawiającego się. Prawdopodobieństwo zdarzenia warunkowego, tzn. praw­ dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło inne zdarzenie, omówimy w rozdziale 45. Prawdopodobieństwo możemy wyznaczyć, stosując róż­ ne podejścia. • Subiektywne — stopień naszej osobistej wiary, że zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec 2050 roku). • Częstościowe — proporcja liczby zdarzeń zjawiska przy eksperymencie powtarzanym wielką liczbę razy (np. ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie­ zafałszowanej monety). • Aprioryczne — wymaga znajomości modelu teoretycz­ nego, zwanego rozkładem częstości, który opisuje prawdo­ podobieństwa wszystkich możliwych wyników eksperymen­ tu. Na przykład, teoria genetyczna pozwala opisać rozkład prawdopodobieństwa otrzymania określonego koloru oczu u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny o oczach brązowych. Odbywa się to przez wyszczególnienie wszystkich możliwych genotypów koloru oczu i prawdopo­ dobieństw ich wystąpienia. REGUŁY PRAWDOPODOBIEŃSTWA Możemy stosować reguły dodawania i mnożenia prawdopo­ dobieństw. • Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza­ jemnie się wykluczają (tzn. każde wystąpienie jednego zda­ rzenia wyklucza pojawienie się drugiego), wtedy prawdopo­ dobieństwo pojawienia się jednego lub drugiego zdarzenia jest równe sumie prawdopodobieństw pojawienia się każde­ go ze zdarzeń. Prób (A lub B) = Prób (A) + Prób (B) Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie dentystycznym pojawi się dorosły pacjent bez brakujących zębów, z niektórymi brakującymi zębami lub bezzębny (tzn. nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09, wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi 0,67 + 0,24 = 0,91. • Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są niezależne (tj. wystąpienie jednego ze zdarzeń nie warun­ kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że zajdą oba zdarzenia, jest równe iloczynowi prawdopodo­ bieństw zajścia każdego z nich: Prób (A i B) = Prob(A) x ProWB) Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi­ rurga stomatologicznego, prawdopodobieństwo, że obaj nie mają brakujących zębów wynosi 0,67 x 0,67 = 0,45. ROZKŁADY PRAWDOPODOBIEŃSTWA: TEORIA Zmienna losowa jest wielkością, którą może przyjąć każda ze zbioru wzajemnie wykluczających się wielkości z określonym prawdopodobieństwem. Rozkład prawdopodobieństwa poka­ zuje prawdopodobieństwa wszystkich możliwych wartości zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma­ tematycznie, posiadający średnią i wariancję, podobnie jak posiada je rozkład empiryczny. Każdy rozkład prawdopodo­ bieństwa jest zdefiniowany pewnymi parametrami, które są miarami podsumowującymi (np. średnia, wariancja), charak­ teryzującymi ten rozkład (tzn. znajomość tych parametrów pozwala w pełni opisać rozkład). Parametry te są oszacowy­ wane w próbie przez odpowiednie statystyki. W zależności od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz­ kład prawdopodobieństwa może być dyskretny lub ciągły. • Dyskretny (np. dwumianowy, Poissona) — możemy otrzymać prawdopodobieństwa odpowiadające każdej moż­ liwej wartości zmiennej losowej. Suma wszystkich tych prawdopodobieństw wynosi jeden. • Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy jedynie wyznaczyć prawdopodobieństwo, że zmienna loso­ wa x przybierze wartość z pewnego przedziału (ponieważ istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma oś przedstawia wartości x, możemy narysować krzywą z równania rozkładu (funkcja gęstości rozkładu prawdopo­ dobieństwa); przypomina ona empiryczny, względny roz- Catkowite pole pod krzywą = 1 (lub 100%) Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x. 22 Opracowywanie danych

Rycina 7.2. Funkcja gęstości praw­ dopodobieństwa rozkładu normalne­ go zmiennej x. (a) Symetryczna wokói średniej fi: wariancja = a 2 . (b) Efekt zmiany średniej (c) Efekt zmiany wariancj: Rycina 7.3. Pola (procenty całkowitego prawdopodobieństwa) pod krzywą dla (a) rozkładu normalnego x, ze średnią fi i wariancją a2 , i

8 ROZKŁADY TEORETYCZNE: INNE ROZKŁADY PARĘ SŁÓW USPOKOJENIA Teoria dotycząca rozkładów prawdopodobieństwa może wy­ dać się złożona. Z naszego doświadczenia wiemy, że chciał­ byś jedynie wiedzieć, kiedy i jak ich użyć. Dlatego naszki­ cowałyśmy jedynie najważniejsze elementy, a ominęłyśmy wzory definiujące rozkłady prawdopodobieństwa. Ich zrozumienie wymaga jedynie znajomości podstawowych po­ jęć, terminologii i prawdopodobnie (chociaż w dobie kompu­ terów rzadko), umiejętności korzystania z tablic. INNE CIĄGŁE ROZKŁADY PRAWDOPODOBIEŃSTWA Rozkłady te oparte 5ą na ciągłych zmiennych losowych. Czę­ sto nie sama zmienna mierzona, lecz statystyka otrzymana z tej zmiennej podlega takiemu rozkładowi. Całkowite pole pod krzywą funkcji rozkładu prawdopodobieństwa repre­ zentuje prawdopodobieństwo otrzymania wszystkich możli­ wych wyników i jest równe jeden (rozdział 7). Rozkład nor­ malny omówiłyśmy w rozdziale 7; inne rozkłady są opisane w tym rozdziale. Rozkład t (Dodatek A2, rycina 8.1) • Opisany przez W. S. Gossetta, który publikował pod pseu­ donimem „Student"; jest często zwany rozkładem f-Studenta. • Parametrem charakteryzującym rozkład t jest liczba stopni swobody: możemy wykreślić funkcję gęstości praw­ dopodobieństwa, jeżeli znamy równanie rozkładu t i liczbę stopni swobody. Liczbę stopni swobody omawiamy w roz­ dziale 11; należy zwrócić uwagę, że są one często blisko po­ wiązane z wielkością próby. • Jego kształt jest podobny do standaryzowanego rozkła­ du normalnego, lecz jest bardziej rozciągnięty (ma dłuższe ogony). Kształt ten przybliża się do rozkładu normalnego, w miarę jak rośnie liczba stopni swobody. • Jest szczególnie użyteczny do obliczania przedziałów ufności i testowania hipotez o jednej lub dwóch średnich (rozdziały 19-21). Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500. 24 Opracowywanie danych Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2) • Jest rozkładem prawoskośnym, przybierającym warto­ ści dodatnie. • Jest określony przez liczbę stopni swobody (rozdział 11). • Jego kształt zależy od liczby stopni swobody; staje się bardziej symetryczny i przybliża się do rozkładu normalne­ go, w miarę jak wzrasta liczba stopni swobody. • Jest szczególnie przydatny do analizy danych katego- rialnych (rozdziały 23-25). Rozkład F (Dodatek A5) • Jest prawoskośny. • Jest zdefiniowany przez proporcje. Rozkład stosunku dwóch oszacowywanych wariancji obliczonych z danych o rozkładzie normalnym przybliża rozkład F. • Dwa parametry, które charakteryzują ten rozkład, to liczby stopni swobody (rozdział 11) licznika i mianownika proporcji. • Rozkład F jest szczególnie przydatny przy porównywa­ niu dwóch wariancji (rozdział 18) oraz więcej niż dwóch śred­ nich przy użyciu analizy wariancji (ANOVA, rozdział 22). Rozkład lognormalny • Jest rozkładem prawdopodobieństwa zmiennej loso­ wej, której logarytm (o podstawie 10 lub e) podlega rozkła­ dowi normalnemu. • Jest silnie prawoskośny (rycina 8.3a). • Jeżeli obliczymy logarytm z naszych surowych danych, które są prawoskośne, i otrzymujemy rozkład empiryczny o kształcie zbliżonym do normalnego (rycina 8.3b), to nasze dane przybliżają rozkład lognormalny. • Wiele zmiennych w medycynie podlega rozkładowi lognormalnemu. Po transformacji tych zmiennych poprzez obliczenie logarytmów możemy wykorzystać właściwości rozkładu normalnego do wnioskowania o tych zmiennych (rozdział 7). • Jeżeli dane mają rozkład lognormalny, możemy użyć średniej geometrycznej (rozdział 5) jako podsumowującej miary położenia. Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1, 2, 5 i 10.

Rycina 8.3. (a) Rozkład lognormalny poziomów trójglicerydów u 232 męż­ czyzn, u których wystąpiła choroba serca (rozdział 19); (b) przybliżony roz­ kład normalny wartości log10 (poziom trójglicerydów). Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu). DYSKRETNE ROZKŁADY PRAWDOPODOBIEŃSTWA Zmienna losowa, która określa rozkład prawdopodobieństwa, jest dyskretna. Suma prawdopodobieństw wszystkich wza­ jemnie wykluczających się zdarzeń równa się jeden. Rozkład dwumianowy • Przypuśćmy, że w danej sytuacji są możliwe tylko dwa wyniki: „sukces" lub „porażka". Na przykład, jesteśmy zain­ teresowani, czy po sztucznym zapłodnieniu in vitro (IVF) ko­ bieta pocznie dziecko (sukces), czy też nie (porażka). Jeżeli weźmiemy n - 100 niespokrewnionych kobiet podlegających IVF (każda z tym samym prawdopodobieństwem poczęcia), obserwowana liczba poczęć (sukcesów) będzie losową zmien­ ną binomialną. Często koncepcja tego rozkładu jest wyjaśnia­ na poprzez n niezależnych powtórzeń eksperymentu (np. 100 rzutów monetą), w którym wynik jest albo sukcesem (np. orzeł), albo porażką. • Dwoma parametrami, które opisują rozkład dwumiano­ wy, są n, liczba osobników w próbie (lub powtórzeń ekspery­ mentu), oraz 7Z, prawdziwe prawdopodobieństwo sukcesu dla każdego osobnika (lub każdego eksperymentu). • Jego średnia (wartość zmiennej losowej, której spo­ dziewamy się po analizie n osobników lub po powtórzeniu eksperymentu n razy) wynosi rut. Jego wariancja wynosi nnd-n). • Dla małego n rozkład jest prawoskośny, gdy n < 0,5, i lewoskośny, gdy JC > 0,5. Rozkład staje się bardziej syme­ tryczny, gdy rośnie wielkość próby (rycina 8.4), i przybliża rozkład normalny, jeżeli zarówno nn, jak i n(l- jr) są więk­ sze niż 5. • Rozkładu dwumianowego możemy użyć, gdy wniosku­ jemy o proporcjach. W szczególności, gdy analizujemy pro­ porcje, często używamy przybliżenia normalnego rozkładu dwumianowego. Rozkład Poissona • Zmienna losowa Poissona jest liczbą zdarzeń pojawiają­ cych się niezależnie i losowo w czasie lub przestrzeni z pew­ ną średnią częstością^. Na przykład, dzienna liczba przyjęć do szpitala podlega rozkładowi Poissona. Możemy użyć naszej wiedzy o rozkładzie Poissona do wyznaczenia prawdopodo­ bieństwa pewnej liczby przyjęć określonego dnia. • Parametrem opisującym rozkład Poissona jest średnia, tzn. przeciętna częstość fi. • W rozkładzie Poissona średnia równa się wariancji. • Jest to rozkład prawoskośny, gdy średnia jest mała, lecz staje się coraz bardziej symetryczny, gdy średnia rośnie; przybliża wtedy rozkład normalny. 8. Rozkłady teoretyczne: inne rozkłady 25