-
Notifications
You must be signed in to change notification settings - Fork 0
/
001_testiranje_hipoteza.tex
46 lines (32 loc) · 6.68 KB
/
001_testiranje_hipoteza.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
Testiranje hipoteza dominantan je način verifikacije rezultata prilikom objavljivanja znanstvenih radova. Ronald Fisher, otac moderne statistike, pokazao je kako je moguće dokazati ili opovrgnuti rezultate eksperimenta koristeći statističke postupke \citep{fisher1922mathematical}. Prema Fisherovom testiranju hipoteza moguće je ispitati jesu li rezultati dobiveni eksperimentom statistički značajni, što bi značilo da rezultati nisu dobiveni pukom slučajnošću, već da ih je moguće reproducirati u istovjetnim uvjetima. Razvojem statistike utemeljen je uobičajen način ispitivanja statističke značajnosti prema kojem se:
\begin{enumerate}
\item postavlja inicijalna hipoteza istraživanja,
\item definiraju nulta $H_0$ i alternativna hipoteza $H_1$ (engl.\,\textit{null and alternative hypothesis}),
\item promatraju statistička obilježja podataka nad kojima će se provoditi odgovarajući statistički testovi (engl.\,\textit{statistical tests}),
\item na temelju rezultata prethodnog koraka odabire odgovarajući statistički test,
\item odabire relevantna statistička mjera $T$ (engl.\,\textit{test statistic}),
\item računa distribucija odabrane statističke mjere $T$ pod pretpostavkom da je nulta hipoteza zadovoljena (ove vrijednosti često su unaprijed izračunate i pohranjene u tablicama \citep{wilcoxon1973critical})
\item odabire razina značajnosti $\alpha$ (engl.\,\textit{significance level}), razina vjerojatnosti ispod koje se odbacuje nulta hipoteza (česti odabiri su 1\% ili 5\%, ovisno o eksperimentu),
\item računaju granične vrijednosti (engl.\,\textit{critical region}) distribucije statističke mjere $T$ za razinu značajnosti $\alpha$,
\item računa statistička mjera $T_{obs}$ dobivena iz eksperimentalnih (stvarnih) podataka,
\item donosi odluka o odbacivanju nulte hipoteze ukoliko je dobivena vrijednost $T_{obs}$ unutar graničnih vrijednosti.
\end{enumerate}
Moguć je i alternativan scenarij prema kojem se na temelju dobivene $T_{obs}$ vrijednosti računa $p$-vrijednost (engl.\,\textit{p-value}), vjerojatnost $P(H_0|D)$ dobivenih podataka $D$ pod pretpostavkom nulte hipoteze $H_0$ na temelju koje se donosi odluka o odbacivanju nulte hipoteze. U slučaju kada je $p$-vrijednost manja od postavljene razine statističke značajnosti $\alpha$, nije moguće odbaciti nultu hipotezu zbog nedovoljno dokaza. $P$-vrijednost naziva se i empirijska razina značajnosti, a ne ovisi o vrstu testa i odabranoj statističkoj mjeri. Iz tog razloga u većini radova interpretacija rezultata statističkog testiranja tumači se putem $p$-vrijednosti.
Eksperiment kojim je Fisher predstavio testiranje hipotezi je damin test kušanja čaja (engl.\,\textit{lady tasting tea}). Testom se pokušalo ustanoviti može li dama (u Fisherovom slučaju Muriel Bristol) temeljem okusa razlikovati čaj s mlijekom prema načinu spravljanja napitka (prvo čaj, zatim mlijeko ili obratno). U ovom slučaju nulta hipoteza je pretpostavka da dama ne može razlikovati čaj s mlijekom sudeći samo prema okusu. Dami je predstavljeno osam šalica čaja s mlijekom za koje je morala opisati način pripreme. Dobiveni rezultati uspoređuju se s pravim vrijednostima, te se na temelju toga provodi statistička verifikacija rezultata. Eksperiment je detaljno objašnjen u Fisherovom radu \cite{fisher1935design}. Test se smatra izuzetno bitnim za razvoj polja statistike \citep{potter2001lady}.
\section{Vrste pogrešaka}
Prilikom provođenja statističkog testa, na temelju dobivenih statističkih mjera ili $p$-vrijednosti, donosi se odluka o prihvaćanju ili odbacivanju nulte hipoteze. Sama odluka može biti pogrešna i to na dva načina:
\begin{itemize}
\item pogrešno je odbačena istinita nulta hipoteza -- pogreška tipa I \engl{type I error} ili
\item je donesena odluka kojom se ne odbacuje pogrešna nulta hipoteza -- pogreška tipa II \engl{type II error}.
\end{itemize}
Pogreška tipa I pogrešno zaključuje da je zadovoljena pretpostavka koja se eksperimentom htjela statistički dokazati. Pogrešna tipa II odbacuje istinitu pretpostavku. Primjerice, konstruirana su dva klasifikatora $C_A$ i $C_B$. Nulta hipoteza pretpostavlja kako su njihove performanse jednake. Pogreška tipa I bi se dogodila u slučaju da prihvatimo da je $C_A$ bolji od $C_B$, a da u stvarnosti rade jednako dobro. Kada bi uistinu $C_A$ radio bolje od $C_B$, a takva teza bi se odbacila statističkim testom, to znači kako je došlo do pogreške tipa II. Pogreške tipa I i II su osnovne statističke pogreške. Postoje dodatna proširenja ovih osnovnih pogrešaka, a često ovise o području primjene (medicina, računalna sigurnost, telekomunikacije \dots).
\section{Kritike testiranja hipoteza}
\label{sec:critique}
Testiranje hipoteza primjenjuje se u gotovo svim znanstvenim disciplinama. No, postupak dokazivanja statističke značajnosti je podložan brojnim kritikama. Objavljen je izuzetno velik broj radova koji kritiziraju provedbe sumnjivih statističkih postupaka, kao što su \citep{hedges1985statistical}, \citep{dar1994misuse}, \citep{yoccoz1991use}. Najprodavanija knjiga iz statistike \textit{How to lie with statistics} \citep{huff2010lie} pokušava, na način pristupačan široj publici, demonstrirati na koji je način moguće slučajno ili namjerno iskoristiti moć statističkog zaključivanja na pogrešan način. Razlozi pogrešnog provođenja statističkog testa su pogrešno tumačenje ili preskakanje jednog od koraka navedenih na početku poglavlja.
Bruce Thompson \citep{thompson1993use} navodi neke kritike konvencionalnih metoda statističkog testiranja:
1. Nulta hipoteza će se \textbf{uvijek} odbaciti, ako uzme u obzir dovoljno velika populacija. Thompson kaže:
\begin{quote}
Ispitivanje statističke značajnosti može biti vođeno tautologijom. Umorni istraživači, nakon prikupljanja skupa podataka, rade statističke testove kako bi se uvjerili da je prikupljena dovoljno velika količina podataka, što je podatak koji već znaju. Ovakva tautologija učinila je mnogo štete znanstvenoj zajednici.
\end{quote}
2. Korištenje analize varijance \engl{analysis of variance -- ANOVA} može dovesti do pogrešnih usporedbi. U višedimenzionalnim analizama primjenom hijerarhijskog pristupa moguće je povlačiti usporedbe između podataka iz različitih dimenzija, analogno poslovici: usporedba krušaka i jabuka.
3. ANOVA zahtjeva spajanje varijanci prilikom izračuna srednje devijacije (u nazivniku). Ova operacija je dozvoljena samo u slučaju da su varijable homogene, međusobno usporedive. Slično tome, analiza kovarijance \engl{analysis of covariance -- ANCOVA} pretpostavlja da je zadovoljen uvjet \textit{homogenosti regresije} \engl{Homogeneity of Regression Slopes}. Ovo su preduvjeti koje brojni istraživači ne provjeravaju \citep{thompson1993use}.