Hypotesetestning er en nødvendig procedure i statistik. En hypotesetest evaluerer to udsagn, der udelukker hinanden, for at bestemme, hvilken udsagn der bedst understøttes af prøvedataene. Når et fund siges at være statistisk signifikant, skyldes det en hypotesetest.
Bekræftelsesmetoder
Metoder til at teste statistiske hypoteser er metoder til statistisk analyse. Typisk sammenlignes to sæt statistik, eller et stikprøvedatasæt sammenlignes med et syntetisk datasæt fra en idealiseret model. Dataene skal fortolkes på en sådan måde, at de tilføjer nye betydninger. Du kan fortolke dem ved at antage en bestemt struktur af det endelige resultat og bruge statistiske metoder til at bekræfte eller afvise antagelsen. Antagelsen kaldes en hypotese, og de statistiske test, der bruges til dette formål, kaldes statistiske hypoteser.
H0- og H1-hypoteser
Der er to hovedpunkterbegreberne statistisk test af hypoteser - den såkaldte "hoved- eller nulhypotese" og " alternativ hypotese". De kaldes også Neyman-Pearson hypoteser. Den statistiske testantagelse kaldes nulhypotesen, hovedhypotesen eller forkortet H0. Det omtales ofte som standardantagelsen eller antagelsen om, at intet har ændret sig. En overtrædelse af testantagelser omtales ofte som den første hypotese, alternativ hypotese eller H1. H1 er en forkortelse for en anden hypotese, fordi det eneste, vi ved om det, er, at H0-dataene kan kasseres.
Før afvisning eller ikke afvisning af nulhypotesen, skal testresultatet fortolkes. En sammenligning anses for statistisk signifikant, hvis forholdet mellem datasættene sandsynligvis ikke er implementeringen af nulhypotesen i henhold til tærskelsandsynligheden - signifikansniveauet. Der er også godhedskriterier for statistisk hypotesetestning. Dette er navnet på hypotesetestkriteriet, som er forbundet med den formodede lov om den ukendte fordeling. Dette er et numerisk mål for uoverensstemmelsen mellem den empiriske og den teoretiske fordeling.
Procedure og kriterier til test af statistiske hypoteser
De mest almindelige hypoteseudvælgelsesmetoder er baseret på enten Akaike-informationskriteriet eller den Bayesianske koefficient. Statistisk hypotesetestning er en nøgleteknik i både inferens og Bayesiansk inferens, selvom de to typer har bemærkelsesværdige forskelle. Statistiske hypotesetestsdefinere en procedure, der kontrollerer sandsynligheden for fejlagtigt at tage stilling til en forkert standard- eller nulhypotese. Proceduren er baseret på, hvor sandsynligt det er, at det virker. Denne sandsynlighed for at træffe en forkert beslutning er usandsynligheden for, at nulhypotesen er sand, og at der ikke eksisterer nogen bestemt alternativ hypotese. Testen kan ikke vise, om den er sand eller falsk.
Alternative metoder til beslutningsteori
Der findes alternative metoder til beslutningsteori, hvor nul- og førstehypoteserne betragtes på mere lige fod. Andre beslutningstagningstilgange, såsom Bayesiansk teori, forsøger at balancere konsekvenserne af dårlige beslutninger på tværs af alle muligheder i stedet for at fokusere på en enkelt nulhypotese. En række andre tilgange til at afgøre, hvilken af hypoteserne der er korrekte, er baseret på dataene, hvilke af dem der har de ønskede egenskaber. Men hypotesetestning er den dominerende tilgang til dataanalyse inden for mange videnskabsområder.
Test af den statistiske hypotese
Når et sæt resultater adskiller sig fra et andet sæt, skal man stole på statistiske hypotesetests eller statistiske hypotesetests. Deres fortolkning kræver en ordentlig forståelse af p-værdier og kritiske værdier. Det er også vigtigt at forstå, at uanset niveauet af signifikans, kan test stadig indeholde fejl. Derfor er konklusionen muligvis ikke korrekt.
Testprocessen består afflere trin:
- En indledende hypotese er under udarbejdelse til forskning.
- Relevante nul- og alternative hypoteser er angivet.
- Forklarer statistiske antagelser om stikprøven i testen.
- Beslutning af hvilken test der er passende.
- Vælg signifikansniveauet og sandsynlighedstærsklen, under hvilken nulhypotesen vil blive forkastet.
- Fordelingen af nulhypoteseteststatistikken viser de mulige værdier, ved hvilke nulhypotesen forkastes.
- Beregning i gang.
- Der træffes en beslutning om at forkaste eller acceptere nulhypotesen til fordel for et alternativ.
Der er et alternativ, der bruger en p-værdi.
Betydningstest
Rene data er til ingen praktisk nytte uden fortolkning. I statistik, når det kommer til at stille spørgsmål om data og fortolke resultater, bruges statistiske metoder til at sikre nøjagtigheden eller sandsynligheden for svar. Når man tester statistiske hypoteser, kaldes denne klasse af metoder for statistisk test eller signifikanstest. Begrebet "hypotese" minder om videnskabelige metoder, hvor hypoteser og teorier undersøges. I statistik resulterer en hypotesetest i en mængde givet en given antagelse. Det giver dig mulighed for at fortolke, om en antagelse er sand, eller om der er foretaget en overtrædelse.
Statistisk fortolkning af test
Hypotesetestbruges til at bestemme, hvilke forskningsresultater der vil føre til afvisning af nulhypotesen for et forudbestemt signifikansniveau. Resultaterne af en statistisk hypotesetest skal fortolkes, så der kan arbejdes videre med den. Der er to almindelige former for statistiske hypotesetestkriterier. Det er p-værdi og kritiske værdier. Afhængigt af det valgte kriterium skal de opnåede resultater fortolkes forskelligt.
Hvad er en p-værdi
Output beskrives som statistisk signifikant ved fortolkning af p-værdien. Faktisk betyder denne indikator sandsynligheden for fejl, hvis nulhypotesen forkastes. Med andre ord kan den bruges til at navngive en værdi, der kan bruges til at fortolke eller kvantificere et testresultat, og til at bestemme sandsynligheden for fejl ved afvisning af nulhypotesen. For eksempel kan du udføre en normalitetstest på en stikprøve af data og finde ud af, at der er lille chance for afvigelser. Nulhypotesen skal dog ikke forkastes. En statistisk hypotesetest kan returnere en p-værdi. Dette gøres ved at sammenligne værdien af p med en forudbestemt tærskelværdi kaldet signifikansniveauet.
Betydningsniveau
Betydningsniveauet skrives ofte med det græske lille bogstav "alfa". Den generelle værdi, der bruges for alfa, er 5 % eller 0,05. En mindre alfaværdi tyder på en mere pålidelig fortolkning af nulhypotesen. P-værdien sammenlignes medforudvalgt alfaværdi. Resultatet er statistisk signifikant, hvis p-værdien er mindre end alfa. Signifikansniveauet kan inverteres ved at trække det fra en. Dette gøres for at bestemme konfidensniveauet for hypotesen givet de observerede stikprøvedata. Når man bruger denne metode til at teste statistiske hypoteser, er P-værdien sandsynlig. Det betyder, at man i processen med at fortolke resultatet af en statistisk test ikke ved, hvad der er sandt eller falsk.
Statistisk hypotesetestteori
Afvisning af nulhypotesen betyder, at der er nok statistisk bevis for, at det ser sandsynligt ud. Ellers betyder det, at der ikke er nok statistik til at afvise det. Man kan tænke på statistiske test i form af dikotomien om at forkaste og acceptere nulhypotesen. Faren ved statistisk test af nulhypotesen er, at hvis den accepteres, kan den se ud til at være sand. I stedet ville det være mere korrekt at sige, at nulhypotesen ikke er forkastet, fordi der ikke er nok statistisk bevis til at forkaste den.
Dette øjeblik forvirrer ofte nybegyndere. I et sådant tilfælde er det vigtigt at minde dig selv om, at resultatet er sandsynligt, og at selv accept af nulhypotesen stadig har en lille chance for fejl.
Sand eller falsk nulhypotese
Fortolkning af værdien af p betyder ikke, at nulhypotesen er sand eller falsk. Det betyder, at der er valgt at forkaste eller ikke forkaste nulhypotesen på et vist niveau af statistisk signifikans baseret på empirien og den valgte statistiske test. Derfor kan p-værdien opfattes som sandsynligheden for data givet under en forudbestemt antagelse indlejret i de statistiske test. P-værdien er et mål for, hvor sandsynligt dataprøven vil blive observeret, hvis nulhypotesen er sand.
Fortolkning af kritiske værdier
Nogle test returnerer ikke s. I stedet kan de returnere en liste over kritiske værdier. Resultaterne af en sådan undersøgelse fortolkes på samme måde. I stedet for at sammenligne en enkelt p-værdi med et forudbestemt signifikansniveau, sammenlignes teststatistikken med en kritisk værdi. Hvis det viser sig at være mindre, betyder det, at det ikke var muligt at forkaste nulhypotesen. Hvis den er større end eller lig, skal nulhypotesen forkastes. Betydningen af den statistiske hypotesetestalgoritme og fortolkningen af dens resultat svarer til p-værdien. Det valgte signifikansniveau er en sandsynlighedsbeslutning om at afvise eller ikke afvise basistestantagelsen givet dataene.
Fejl i statistiske test
Fortolkningen af en statistisk hypotesetest er sandsynlig. Opgaven med at teste statistiske hypoteser er ikke at finde en sand eller falsk udsagn. Testbeviser kan være forkerte. For eksempel, hvis alfa var 5%, betyder det, at for det meste 1 ud af 20nulhypotesen vil blive forkastet ved en fejl. Eller det vil det ikke på grund af den statistiske støj i dataprøven. Givet dette punkt kan en lille p-værdi, ved hvilken nulhypotesen forkastes, betyde, at den er falsk, eller at der er begået en fejl. Hvis denne type fejl begås, kaldes resultatet en falsk positiv. Og sådan en fejl er en fejl af den første slags, når man tester statistiske hypoteser. På den anden side, hvis p-værdien er stor nok til at betyde afvisning af nulhypotesen, kan det betyde, at den er sand. Eller er ikke korrekt, og der opstod en usandsynlig hændelse, som skyldtes fejlen. Denne type fejl kaldes en falsk negativ.
Sandsynlighed for fejl
Når man tester statistiske hypoteser, er der stadig en chance for at lave nogen af disse typer fejl. Falske data eller falske konklusioner er ret sandsynlige. Ideelt set bør der vælges et signifikansniveau, der minimerer sandsynligheden for en af disse fejl. For eksempel kan statistisk testning af nulhypoteser have et meget lavt signifikansniveau. Selvom signifikansniveauer såsom 0,05 og 0,01 er almindelige inden for mange videnskabsområder, er det mest almindeligt anvendte signifikansniveau 310^-7 eller 0,0000003. Det omtales ofte som "5-sigma". Det betyder, at konklusionen var tilfældig med en sandsynlighed på 1 ud af 3,5 millioner uafhængige gentagelser af eksperimenterne. Eksempler på test af statistiske hypoteser indeholder ofte sådanne fejl. Dette er også grunden til, at det er vigtigt med selvstændige resultater.bekræftelse.
Eksempler på brug af statistisk bekræftelse
Der er flere almindelige eksempler på hypotesetestning i praksis. En af de mest populære er kendt som "Tesmagning". Dr. Muriel Bristol, en kollega til biometri-grundlæggeren Robert Fisher, hævdede at være i stand til at sige med sikkerhed, om det først blev tilsat en kop te eller mælk. Fisher tilbød at give hende otte kopper (fire af hver sort) tilfældigt. Teststatistikken var enkel: at tælle antallet af succeser med at vælge en kop. Den kritiske region var den eneste succes ud af 4, muligvis baseret på det sædvanlige sandsynlighedskriterium (< 5%; 1 ud af 70 ≈ 1,4%). Fisher hævdede, at en alternativ hypotese ikke er påkrævet. Damen identificerede hver kop korrekt, hvilket blev betragtet som et statistisk signifikant resultat. Denne oplevelse førte til Fishers bog Statistical Methods for Researchers.
Eksempel på sagsøgte
Den statistiske retssagsprocedure kan sammenlignes med en straffedomstol, hvor den tilt alte formodes uskyldig, indtil det modsatte er bevist. Anklageren forsøger at bevise den tilt altes skyld. Først når der er tilstrækkelige beviser for en sigtelse, kan den tilt alte kendes skyldig. I begyndelsen af proceduren er der to hypoteser: "Den tilt alte er ikke skyldig" og "Den tilt alte er skyldig." Hypotesen om uskyld kan kun afvises, når fejl er meget usandsynlig, fordi man ikke ønsker at dømme en uskyldig tilt alt. En sådan fejl kaldes en type I fejl, og dens forekomstsjældent kontrolleret. Som en konsekvens af denne asymmetriske adfærd er type II fejl, dvs. frifindelse af gerningsmanden, mere almindelig.
Statistik er nyttig, når man analyserer store mængder data. Dette gælder også for test af hypoteser, som kan retfærdiggøre konklusionerne, selvom der ikke eksisterer nogen videnskabelig teori. I tesmagningseksemplet var det "indlysende", at der ikke var nogen forskel på at hælde mælk i te eller at hælde te i mælk.
Reel praktisk anvendelse af hypotesetestning omfatter:
- tester, om mænd har flere mareridt end kvinder;
- dokumenttilskrivning;
- Vurdering af fuldmånens indflydelse på adfærd;
- bestemme det område, inden for hvilket en flagermus kan detektere et insekt ved hjælp af et ekko;
- valg af den bedste måde at holde op med at ryge på;
- Tjekker, om kofangermærkater afspejler bilejerens adfærd.
Statistisk hypotesetestning spiller en vigtig rolle i statistik generelt og i statistisk inferens. Værditestning bruges som erstatning for den traditionelle sammenligning af forudsagt værdi og eksperimentelt resultat i kernen af den videnskabelige metode. Når en teori kun er i stand til at forudsige tegnet på en sammenhæng, kan rettede hypotesetests konfigureres på en sådan måde, at kun et statistisk signifikant resultat understøtter teorien. Denne form for evalueringsteori er den mest rigidekritik af brugen af hypotesetestning.