Antagelserne i statistisk modellering beskriver et sæt af sandsynlighedsfordelinger, hvoraf nogle antages at tilnærme fordelingen tilstrækkeligt. Et specifikt sæt data er valgt fra definitionen. De sandsynlighedsfordelinger, der er iboende i statistisk modellering, er det, der adskiller statistiske modeller fra andre, ikke-statistiske, matematiske modeller.
Forbindelse med matematik
Denne videnskabelige metode er primært forankret i matematik. Statistisk modellering af systemer er norm alt givet ved matematiske ligninger, der relaterer en eller flere tilfældige variable og muligvis andre ikke-tilfældige variable. En statistisk model er således en "formel repræsentation af en teori" (Hermann Ader, citeret Kenneth Bollen).
Alle statistiske hypotesetests og alle statistiske estimater er afledt af statistiske modeller. Mere generelt er statistiske modeller en del af grundlaget for statistisk inferens.
Statistiske metodermodellering
Uformelt kan en statistisk model opfattes som en statistisk antagelse (eller et sæt statistiske antagelser) med en bestemt egenskab: denne antagelse giver os mulighed for at beregne sandsynligheden for enhver begivenhed. Som et eksempel kan du overveje et par almindelige sekssidede terninger. Vi vil studere to forskellige statistiske antagelser om knoglen.
Den første statistiske antagelse udgør den statistiske model, for med kun én antagelse kan vi beregne sandsynligheden for enhver hændelse. Den alternative statistiske antagelse udgør ikke en statistisk model, for med kun én antagelse kan vi ikke beregne sandsynligheden for hver hændelse.
I ovenstående eksempel med den første antagelse er det let at beregne sandsynligheden for en hændelse. Men i nogle andre eksempler kan beregningen være kompleks eller endda upraktisk (for eksempel kan den kræve millioner af års beregning). For den antagelse, der udgør en statistisk model, er denne vanskelighed acceptabel: at udføre beregningen behøver ikke at være praktisk gennemførlig, kun teoretisk muligt.
Eksempler på modeller
Antag, at vi har en befolkning af skolebørn med jævnt fordelte børn. Et barns højde vil være stokastisk relateret til alderen: når vi for eksempel ved, at et barn er 7 år, påvirker dette sandsynligheden for, at barnet bliver 5 fod højt (ca. 152 cm). Vi kunne formalisere dette forhold i en lineær regressionsmodel, for eksempel: vækst=b0 + b1agei+ εi, hvor b0 er skæringspunktet, b1 er den parameter, som alderen ganges med ved opnåelse af vækstprognosen, εi er fejlleddet. Dette indebærer, at højden forudsiges af alder med en vis fejl.
En gyldig model skal matche alle datapunkter. Så en ret linje (heighti=b0 + b1agei) kan ikke være en ligning for en datamodel - medmindre den passer præcist til alle datapunkter, dvs. alle datapunkter ligger perfekt på linjen. Fejlleddet εi skal inkluderes i ligningen for at modellen passer til alle datapunkter.
For at foretage en statistisk slutning skal vi først antage nogle sandsynlighedsfordelinger for εi. For eksempel kan vi antage, at fordelingen af εi er gaussisk, med nul middelværdi. I dette tilfælde vil modellen have 3 parametre: b0, b1 og variansen af den gaussiske fordeling.
Generel beskrivelse
En statistisk model er en speciel klasse af matematiske modeller. Det, der adskiller en statistisk model fra andre matematiske modeller, er, at den er ikke-deterministisk. Det bruges til at modellere statistiske data. I en statistisk model defineret med matematiske ligninger har nogle variable således ikke specifikke værdier, men har i stedet sandsynlighedsfordelinger; det vil sige, at nogle variabler er stokastiske. I eksemplet ovenfor er ε en stokastisk variabel; uden denne variabel var modellenville være deterministisk.
Statistiske modeller bruges ofte i statistisk analyse og modellering, selvom den fysiske proces, der modelleres, er deterministisk. For eksempel er det at kaste mønter i princippet en deterministisk proces; men det er norm alt modelleret som stokastisk (via en Bernoulli-proces).
Parametriske modeller
Parametriske modeller er de mest almindeligt anvendte statistiske modeller. Med hensyn til semi-parametriske og ikke-parametriske modeller sagde Sir David Cox: "De inkluderer generelt færre antagelser om fordelingens struktur og form, men indeholder norm alt stærke uafhængighedsantagelser." Som alle andre nævnte modeller bruges de også ofte i den statistiske metode til matematisk modellering.
Modeller i flere niveauer
Multilevel-modeller (også kendt som hierarkiske lineære modeller, indlejrede datamodeller, blandede modeller, tilfældige koefficienter, tilfældige effektmodeller, tilfældige parametermodeller eller opdelte modeller) er statistiske parametermodeller, der varierer på mere end ét niveau. Et eksempel er en elevpræstationsmodel, der indeholder målinger for individuelle elever samt målinger for klasseværelser, hvor eleverne er grupperet. Disse modeller kan opfattes som generaliseringer af lineære modeller (især lineær regression), selvom de også kan udvides til ikke-lineære modeller. Disse modeller er blevetmeget mere populær, når tilstrækkelig computerkraft og software blev tilgængelig.
Modeller på flere niveauer er særligt velegnede til forskningsprojekter, hvor data for deltagere er organiseret på mere end ét niveau (dvs. indlejrede data). Analyseenheder er norm alt individer (på et lavere niveau), der er indlejret i kontekst/aggregerede enheder (på et højere niveau). Mens det laveste niveau af data i flerniveaumodeller typisk er individuelt, kan gentagne målinger af individer også overvejes. Multilevel-modeller giver således en alternativ type analyse til univariat eller multivariat gentagne målsanalyse. Individuelle forskelle i vækstkurver kan tages i betragtning. Derudover kan multilevel-modeller bruges som et alternativ til ANCOVA, hvor afhængige variable scores justeres for kovariater (f.eks. individuelle forskelle) før test for behandlingsforskelle. Multilevel-modeller er i stand til at analysere disse eksperimenter uden antagelsen om ensartede regressionshældninger, der kræves af ANCOVA.
Modeller med flere niveauer kan bruges til data med mange niveauer, selvom to-niveau modeller er de mest almindelige, og resten af denne artikel fokuserer på disse. Den afhængige variabel bør undersøges på det laveste analyseniveau.
Modelvalg
Modelvalger opgaven at udvælge fra et sæt af kandidatmodeller givet data, udført inden for rammerne af statistisk modellering. I de simpleste tilfælde overvejes et allerede eksisterende datasæt. Opgaven kan dog også gå ud på at designe eksperimenter, så de indsamlede data er velegnede til modeludvælgelsesopgaven. Givet kandidatmodeller med lignende forudsigelses- eller forklaringsevne, vil den enkleste model sandsynligvis være det bedste valg (Occams barbermaskine).
Konishi & Kitagawa siger: "De fleste statistiske inferensproblemer kan betragtes som problemer relateret til statistisk modellering." På samme måde sagde Cox: "Hvordan oversættelsen af emnet til den statistiske model udføres, er ofte den vigtigste del af analysen."
Modelvalg kan også henvise til problemet med at vælge nogle få repræsentative modeller fra et stort sæt beregningsmodeller til beslutnings- eller optimeringsformål under usikkerhed.
Grafiske mønstre
Grafisk model, eller probabilistisk grafisk model, (PGM) eller struktureret probabilistisk model, er en probabilistisk model, for hvilken grafen udtrykker strukturen af et betinget forhold mellem stokastiske variable. De bruges almindeligvis i sandsynlighedsteori, statistik (især bayesiansk statistik) og maskinlæring.
Økonometriske modeller
Økonometriske modeller er statistiske modeller, der bruges iøkonometri. En økonometrisk model definerer de statistiske sammenhænge, der menes at eksistere mellem forskellige økonomiske størrelser relateret til et bestemt økonomisk fænomen. En økonometrisk model kan udledes af en deterministisk økonomisk model, der tager højde for usikkerhed, eller fra en økonomisk model, der i sig selv er stokastisk. Det er dog også muligt at bruge økonometriske modeller, der ikke er bundet til nogen bestemt økonomisk teori.