Základy biostatistiky a metodologie vědecké práce

Předmět na 3. lékařská fakulta |

C2FY012

Sylabus

Osnova přednášek: Statistické postupy v medicíně Deskriptivní statistika I Deskriptivní statistika II Testování hypotéz – 2 skupiny Analýza rozptylu při jednoduchém třídění Kontingenční tabulky Korelace a jednoduchá a mnohorozměrná regrese Logistická regrese ROC analýza a analýza přínosů a nákladů Analýza přežití Analýza hlavních komponent - PCA

1. Statistické postupy v medicíně: Student se obeznámí se důvody použití statistických metod v medicíně, seznámí se základní strukturou tvorby, plnění cílů klinických a jiných vědeckých projektů, s tvorbou vědeckých publikací a přednášek.

2. a

3. Deskriptivní statistické metody I a II Struktura: Absolutní četnosti Relativní četnosti Míry polohy a variability Pravděpodobnost a různá pravděpodobnostní rozložení Studenti se seznámí s absolutními a relativními četnostmi a jejich dělením, stejně tak budou umět absolutní a relativní četnosti správně použít. Studenti budou schopni spočítat základní statistické parametry souboru - aritmetický průměr, medián, modus, směrodatnou odchylku, rozptyl, rozpětí atd. Studenti se naučí tyto parametry a četnosti spočítat v prostředí MS Excel a v programu STATISTICA. Studenti budou schopni spočítat základní statistické parametry souboru - aritmetický průměr, medián, modus, směrodatnou odchylku, rozptyl, rozpětí atd.

4. Testování hypotéz Struktura: úlohy o populacích, nulová a alternativní hypotéza, chyba I. a II. druhu, interval spolehlivosti, jednostranné a dvoustranné testy, 2 nezávislé výběry, párový test, neparametrické testy Studenti budou umět spočítat t-testy, Mann-Whitneyho U-test, a to jak v prostředí MS Excel, tak v programu STATISTICA. Studenti se seznámí se základy testování hypotéz, a to konkrétně s testováním hypotéz o parametrech jednoho souboru - hypotézy o rozložení a hypotézy o poloze s testováním hypotéz 2 souborů - hypotézy a poloze a hypotézy o rozptylu Také se naučí, kdy použít parametrický a kdy neparametrický test

5. Analýza rozptylu při jednoduchém třídění Struktura testování hypotéz pro tři a více skupin postup analýzy rozptylu podmínky použití analýzy rozptylu metody následného mnohonásobného porovnávání parametrické a neparametrické testy Studenti budou umět spočítat ANOVU i Kruskal-Wallisovu ANOVU i testy následného mnohonásobného porovnávání, a to jak v prostředí MS Excel, tak v programu STATISTICA. Studenti se seznámí se statistickou metodou pro nalezení statisticky významného rozdílu ve sledovaných veličinách v případě tří a více skupin pacientů. Budou rozumět důvodu, proč je nutno použít pro nalezení rozdílu mezi jednotlivými páry skupin pacientů testy následného mnohonásobného porovnávání, a to metodami LSD, pomocí Bonferroniho a Scheffeho testu. Budou vědět, kdy je možno použít klasickou ANOVU a kdy je nutné použít neparametrický Kruskal-Wallisův test.

6. Kontingenční tabulky Struktura: vztah kvalitativních a diskrétních proměnných tabulky 2 x 2 tabulky r x s hypotéza homogenity hypotéza nezávislosti Pearsonův chí-kvadrát test Fisherův exaktní test Studenti budou znát základní použití kontingenčních tabulek, které vznikají při zkoumání diskrétních nebo kvalitativních znaků. Pokud bychom chtěli pomocí kontingenčních tabulek analyzovat spojité proměnné, převádíme je nejčastěji na intervalové proměnné, kdy intervaly představují zvolený libovolný počet kategorií pro danou proměnnou. Kontingenční tabulky jsou analogií s korelační analýzou v případech, kdy tuto nemůžeme použít. Studenti budou umět interpretovat výsledky kontingenčních tabulek, budou vědět, kdy je potřeba použít Fisherův exaktní test, kdy jej můžeme použít.

7. Korelace a jednoduchá regrese Struktura: vztah dvou veličin Pearsonův a Spearmanův korelační koeficient rozdíl mezi regresí a korelací Kendallův korelační koeficient parciální korelační koeficient - zdánlivá asociaice Student se seznámí s tím, že korelační analýza slouží k nalezení a poznání statistických závislostí dvou a více proměnných a k matematickému popisu těchto vztahů a také slouží k ověření a testování různých deduktivně učiněných teorií právě o tomto zkoumaném vzájemném vztahu. Cílem tohoto zkoumání je vniknutí do podstaty sledovaných jevů a procesů určité oblasti a tím i přiblížení k tzv. příčinným (kauzálním) souvislostem. Přesto, že hlavním cílem korelační analýzy je kvantifikovat intenzitu vzájemného vztahu dvou nebo vícero proměnných, důležitou roli hraje i kvalitativní rozbor příslušného souboru dat. Nemá smysl hledat a měřit závislost tam, kde na základě logické úvahy nemůže existovat, nebo je nesmyslná. V regresní analýze se seznámí i s reziduální analýzou, která slouží k ověření statistické významnosti regresního modelu i k potvrzení, že námi vytvořený model je vhodný pro predikci.

8. Logistická regrese Struktura: definice binární, ordinální a nominální logistický model pravděpodobnost, šance, logit kvalita a statistická významnost logistického modelu klasifikační schopnost modelu

9. ROC analýza a anlýzá náklafů a přínosů Struktura: základní parametry ROC analýzy: sensitivita, specificita, pozitivní a negativní prediktivní hodnota přesnost diagnostického testu plocha pod ROC křivkou a interpretace její velikosti prahový bod – přísný, optimální nedbalý optimální určení prahového bodu pomocí analýzy přínosů a nákladů ROC křivka (Receiver Operating Characteristic curve = graf prahové operační charakteristiky) byla vyvinuta americkými vědci a poprvé použita během

2. světové války pro přesnější detekci nepřátelských objektů. Je součásti teorie detekce signálů. Dnes nachází široké uplatnění především v oblasti medicíny při lékařském rozhodování, např. v epidemiologii, radiologii, psychologii apod. V posledních letech se ROC analýza stala důležitým nástrojem v oblasti strojového učení pro vyhodnocování a porovnávání kvality algoritmů neuronových sítí a metody vytěžování dat (data mining). V oblasti medicíny se užívá především pro hodnocení kvality a síly diskriminace diagnostických, či screeningových testů, regresních a diskriminačních modelů, při zavádění nových diagnostických přístrojů, nových léků a nových způsobů léčby do medicínské praxe a také při porovnávání více diagnostických metod za účelem vybrat tu nejlepší, při porovnávání různých analytických modelů apod. Její neoddělitelnou součásti se dnes stala analýza nákladů a přínosů (Cost – Benefit Analysis).

10. Analýza přežití Struktura: cenzorovaná a necenzorovaná proměnná úmrtnostní tabulky Kaplan-Meierova metoda Coxova regrese s proporcionálním rizikem

11. Analýza hlavních komponent - PCA Struktura: určení struktury ve znacích a objektech definice PCA, hlavní komponenty, rozptyl, snížení dimenze úlohy transformace původních znaků do menšího počtu latentních proměnných grafické nástroje PCA diagnostika metody PCA Nejstarší a nejvíce používaná metoda vícerozměrné analýzy dat – 1901 (Pearson), nezávisle na něm v 1933 Hotelling. Znaky nejsou děleny na závisle a nezávisle proměnné. Metoda lineární transformace původních znaků na nové, nekorelované proměnné – hlavní komponenty. Základní charakteristikou hlavní komponenty – rozptyl. Většina informace o variabilitě původních dat je soustředěna v první komponentě, nejméně informace je soustředěno v poslední. Standardním využitím PCA je snížení dimenze úlohy bez velké ztráty informace. Hlavní komponent

Anotace

Předmět je zaměřen na metody statistické analýzy určené především pro lékařský výzkum – klinické, biologické, biochemické, biofyzikální a jiné studie. Student se postupně seznámí s metodami deskriptivní a induktivní statistiky i se statistickými epidemiologickými metodami.

Výuka začíná od základní statistické metodologie, přes jednodušší statistické metody – testování hypotéz, porovnání skupin (parametrické i neparametrické metody), t-testy, ANOVA, korelace a jednoduchá regresní analýza. Dále se student seznámí se složitými mnohorozměrnými metodami, jako jsou mnohorozměrné regresní modely, mnohorozměrné lineární modely, logistická regrese, diskriminační analýza, analýza přežití apod.

Zvládnutí výpočtu těchto modelů a interpretace výsledků bude součástí praktických cvičení, a to jak v prostředí MS Excel tak v prostředí profesionálního statistického programu Statistica.