En statistisk model er en matematisk fremskrivning, der inkorporerer et sæt forskellige antagelser om genereringen af nogle prøvedata. Udtrykket præsenteres ofte i en meget idealiseret form.
Antagelserne udtrykt i den statistiske model viser et sæt sandsynlighedsfordelinger. Mange af dem er beregnet til korrekt at tilnærme den fordeling, hvorfra et bestemt sæt af oplysninger trækkes. De sandsynlighedsfordelinger, der er iboende i statistiske modeller, er det, der adskiller fremskrivningen fra andre matematiske modifikationer.
Generel projektion
Matematisk model er en beskrivelse af systemet ved hjælp af bestemte begreber og sprog. De gælder for naturvidenskaberne (såsom fysik, biologi, geovidenskab, kemi) og ingeniørdiscipliner (såsom datalogi, elektroteknik) samt samfundsvidenskaberne (såsom økonomi, psykologi, sociologi, statskundskab).
Modellen kan hjælpe med at forklare systemet ogstudere indflydelsen af forskellige komponenter og lave forudsigelser om adfærd.
Matematiske modeller kan antage mange former, herunder dynamiske systemer, statistiske fremskrivninger, differentialligninger eller spilteoretiske parametre. Disse og andre typer kan overlappe hinanden, og denne model indeholder mange abstrakte strukturer. Generelt kan matematiske projektioner også omfatte logiske komponenter. I mange tilfælde afhænger kvaliteten af et videnskabeligt område af, hvor godt de teoretisk udviklede matematiske modeller stemmer overens med resultaterne af gentagne forsøg. Manglende overensstemmelse mellem teoretiske processer og eksperimentelle målinger fører ofte til vigtige fremskridt, efterhånden som der udvikles bedre teorier.
I de fysiske videnskaber indeholder den traditionelle matematiske model et stort antal af følgende elementer:
- Kontrolligninger.
- Yderligere undermodeller.
- Definer ligninger.
- Konstituerende ligninger.
- Antagelser og begrænsninger.
- Start- og grænsebetingelser.
- Klassiske begrænsninger og kinematiske ligninger.
Formel
En statistisk model er som regel sat af matematiske ligninger, der kombinerer en eller flere tilfældige variable og muligvis andre naturligt forekommende variable. På samme måde betragtes projektion som "et formelle koncept for et koncept."
Al statistisk hypotesetestning og statistiske evalueringer er optjent fra matematiske modeller.
Introduktion
Uformelt kan en statistisk model ses som en antagelse (eller et sæt af antagelser) med en specifik egenskab: den giver mulighed for at beregne sandsynligheden for enhver hændelse. Som et eksempel kan du overveje et par almindelige sekssidede terninger. To forskellige statistiske antagelser om knoglen skal undersøges.
Den første antagelse er:
For hver af terningerne er sandsynligheden for at få et af tallene (1, 2, 3, 4, 5 og 6): 1/6.
Ud fra denne antagelse kan vi beregne sandsynligheden for begge terninger: 1:1/6×1/6=1/36.
Mere generelt kan du beregne sandsynligheden for enhver begivenhed. Det skal dog forstås, at det er umuligt at beregne sandsynligheden for enhver anden ikke-triviel begivenhed.
Kun den første mening indsamler en statistisk matematisk model: på grund af det faktum, at det med kun én antagelse er muligt at bestemme sandsynligheden for hver handling.
I ovenstående eksempel med indledende tilladelse er det nemt at afgøre muligheden for en begivenhed. Med nogle andre eksempler kan beregningen være svær eller ligefrem urealistisk (det kan f.eks. kræve mange års beregninger). For en person, der designer en statistisk analysemodel, anses en sådan kompleksitet for at være uacceptabel: implementeringen af beregninger bør ikke være praktisk umulig og teoretisk umulig.
Formel definition
I matematiske termer betragtes den statistiske model af et system norm alt som et par (S, P), hvor S ersættet af mulige observationer, dvs. stikprøverummet, og P er sættet af sandsynlighedsfordelinger på S.
Intuitionen af denne definition er som følger. Det antages, at der er en "sand" sandsynlighedsfordeling forårsaget af den proces, der genererer visse data.
Set
Det er ham, der bestemmer parametrene for modellen. Parameterisering kræver generelt forskellige værdier for at resultere i forskellige distributioner, dvs.
skal holde (med andre ord, det skal være injektiv). En parametrisering, der opfylder kravet, siges at være identificerbar.
Eksempel
Antag, at der er et eller andet antal elever i forskellige aldre. Barnets højde vil være stokastisk relateret til fødselsåret: for eksempel, når en skoledreng er 7 år gammel, påvirker dette sandsynligheden for vækst, kun således at personen bliver højere end 3 centimeter.
Du kan formalisere denne tilgang til en lineær regressionsmodel, f.eks. som følger: højde i=b 0 + b 1agei + εi, hvor b 0 er skæringspunktet, b 1 er parameteren for hvilken alder ganges, når der opnås højdeovervågning. Dette er et fejlbegreb. Det vil sige, det antager, at højden forudsiges af alder med en bestemt fejl.
En gyldig formular skal matche alle informationspunkter. Den retlinede retning (niveau i=b 0 + b 1agei) er således ikke i stand til at være en ligning for en datamodel - hvis den ikke klart besvarer absolut alle punkter. dvsuden undtagelse ligger al information fejlfrit på linjen. Fejlmarginen εi skal indtastes i ligningen, så formen matcher absolut alle oplysninger.
For at foretage en statistisk slutning skal vi først antage nogle sandsynlighedsfordelinger for ε i. For eksempel kan man antage, at fordelingen af ε i har en gaussisk form med nul middelværdi. I dette tilfælde vil modellen have 3 parametre: b 0, b 1 og variansen af den gaussiske fordeling.
Du kan formelt angive modellen som (S, P).
I dette eksempel er modellen defineret ved at specificere S, og derfor kan nogle antagelser gøres om P. Der er to muligheder:
Denne vækst kan tilnærmes ved en lineær funktion af alder;
At fejlene i tilnærmelsen er fordelt som inde i en gaussisk.
Generelle bemærkninger
Statistiske parametre for modeller er en speciel klasse af matematisk projektion. Hvad adskiller en art fra en anden? Så det er, at den statistiske model er ikke-deterministisk. I den, i modsætning til matematiske ligninger, har visse variable således ikke bestemte værdier, men har i stedet en fordeling af muligheder. Det vil sige, at individuelle variable betragtes som stokastiske. I eksemplet ovenfor er ε en stokastisk variabel. Uden den ville fremskrivningen være deterministisk.
Opbygning af en statistisk model bruges ofte, selvom den materielle proces anses for at være deterministisk. For eksempel er det at kaste mønter i princippet en forudbestemt handling. Dette er dog stadig i de fleste tilfælde modelleret som stokastisk (gennem en Bernoulli-proces).
Ifølge Konishi og Kitagawa er der tre mål for en statistisk model:
- Forudsigelser.
- Informationsudvinding.
- Beskrivelse af stokastiske strukturer.
Projektionsstørrelse
Antag, at der er en statistisk forudsigelsesmodel, Modellen kaldes parametrisk, hvis O har en endelig dimension. I løsningen skal du skrive at
hvor k er et positivt heltal (R står for alle reelle tal). Her kaldes k modellens dimension.
Som et eksempel kan vi antage, at alle data kommer fra en univariat Gauss-fordeling:
I dette eksempel er dimensionen af k 2.
Og som et andet eksempel kan data antages at bestå af (x, y) punkter, som antages at være fordelt i en ret linje med Gaussiske residualer (med nul middelværdi). Så er dimensionen af den statistiske økonomiske model lig med 3: linjens skæringspunkt, dens hældning og variansen af fordelingen af residualer. Det skal bemærkes, at i geometri har en ret linje en dimension på 1.
Selvom ovenstående værdi teknisk set er den eneste parameter, der har dimension k, anses den nogle gange for at indeholde k distinkte værdier. For eksempel, med en endimensionel Gauss-fordeling er O den eneste parameter med en størrelse på 2, men anses nogle gange for at indeholde toindividuel parameter - middelværdi og standardafvigelse.
En statistisk procesmodel er ikke-parametrisk, hvis sættet af O-værdier er uendelig-dimensionelt. Det er også semi-parametrisk, hvis det har både endelig-dimensionelle og uendeligt-dimensionelle parametre. Formelt, hvis k er en dimension af O, og n er antallet af samples, har semi-parametriske og ikke-parametriske modeller
så er modellen semi-parametrisk. Ellers er projektionen ikke-parametrisk.
Parametriske modeller er de mest brugte statistikker. Med hensyn til semi-parametriske og ikke-parametriske projektioner udt alte Sir David Cox:
"De involverer typisk de færreste hypoteser om tekstur og distributionsform, men de inkluderer stærke teorier om selvforsyning."
Indlejrede modeller
Forveksle dem ikke med projektioner på flere niveauer.
To statistiske modeller er indlejret, hvis den første kan konverteres til den anden ved at pålægge begrænsninger på parametrene for den første. For eksempel har sættet af alle Gauss-fordelinger et indlejret sæt nulmiddelfordelinger:
Det vil sige, du skal begrænse middelværdien i sættet af alle Gauss-fordelinger for at få fordelinger med nul middelværdi. Som et andet eksempel har den kvadratiske model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) en indlejret lineær model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - dvs. parameter b2 er lig med 0.
I begge disse eksempler har den første model en højere dimensionalitet end den anden model. Dette er ofte, men ikke altid tilfældet. Et andet eksempel er sættet af Gauss-fordelinger med positivt middel, som har dimension 2.
Sammenligning af modeller
Det antages, at der er en "sand" sandsynlighedsfordeling, der ligger til grund for de observerede data induceret af den proces, der genererede dem.
Og også modeller kan sammenlignes med hinanden ved hjælp af eksplorativ analyse eller bekræftelse. I en eksplorativ analyse formuleres forskellige modeller, og der foretages en vurdering af, hvor godt hver af dem beskriver dataene. I en bekræftende analyse sammenlignes den tidligere formulerede hypotese med den oprindelige. Fælles kriterier for dette omfatter P 2, Bayesiansk faktor og relativ sandsynlighed.
Konishi og Kitagawas tanke
“De fleste problemer i en statistisk matematisk model kan opfattes som prædiktive spørgsmål. De er norm alt formuleret som sammenligninger af flere faktorer."
Yderligere sagde Sir David Cox: "Som en oversættelse fra emnet er problemet i den statistiske model ofte den vigtigste del af analysen."