Statistisk information: indsamling, behandling, analyse

2024 Forfatter: Angel Austin | [email protected]. Sidst ændret: 2023-12-17 05:21

Igennem statistikkernes historie er der blevet gjort forskellige forsøg på at skabe en taksonomi af måleniveauer. Psykofysiker Stanley Smith Stevens definerede nominelle, ordinale, interval- og proportionale skalaer.

Nominelle målinger har ingen signifikant rækkefølge blandt værdier og tillader enhver en-til-en-konvertering.

Regulære dimensioner har upræcise forskelle mellem på hinanden følgende værdier, men har en specifik rækkefølge af disse værdier og tillader enhver rækkefølgebevarende transformation.

Intervalmålinger har meningsfulde afstande mellem punkter, men nulværdien er vilkårlig (som i tilfældet med længde- og temperaturmålinger i Celsius eller Fahrenheit) og giver mulighed for enhver lineær transformation.

Forholdsdimensioner har både en meningsfuld nulværdi og afstande mellem forskellige dimensioner og giver mulighed for enhver skaleringstransformation.

Variabler og klassificering af oplysninger

Fordi variablernesvarende kun til nominelle eller ordinære mål, kan ikke med rimelighed måles numerisk, og er nogle gange grupperet som kategoriske variable. Forholds- og intervalmålingerne er grupperet som kvantitative variable, som kan være enten diskrete eller kontinuerlige på grund af deres numeriske karakter. Sådanne distinktioner er ofte løst relateret til datatype i datalogi, da dikotome kategoriske variabler kan repræsenteres af boolske værdier, polytome kategoriske variabler med vilkårlige heltal i en integral datatype og kontinuerte variable med reelle komponenter, der involverer flydende kommaberegning. Men visningen af statistiske informationsdatatyper afhænger af, hvilken klassifikation der anvendes.

Andre klassifikationer

Andre klassifikationer af statistiske data (information) er også blevet oprettet. For eksempel skelnede Mosteller og Tukey mellem karakterer, rækker, opt alte andele, optællinger, beløb og saldi. Nelder beskrev på et tidspunkt kontinuerlige tællinger, kontinuerlige forhold, korrelation af tællinger og kategoriske måder at kommunikere data på. Alle disse klassificeringsmetoder bruges til indsamling af statistiske oplysninger.

Problems

Spørgsmålet om, hvorvidt det er hensigtsmæssigt at anvende forskellige slags statistiske metoder på data opnået gennem forskellige måle- (indsamlings-) procedurer kompliceres af spørgsmål vedrørende konvertering af variabler og den præcise fortolkning af spørgsmålforskning. Forholdet mellem data og det, det beskriver, afspejler simpelthen det faktum, at visse former for statistiske udsagn kan have sandhedsværdier, der ikke er invariable under visse transformationer. Hvorvidt transformationen er værd at overveje, afhænger af det spørgsmål, du forsøger at besvare.

Hvad er en datatype

Datatypen er en grundlæggende komponent i det semantiske indhold af en variabel og kontrollerer, hvilke slags sandsynlighedsfordelinger der logisk kan bruges til at beskrive variablen, de tilladte operationer på den, typen af regressionsanalyse, der bruges til at forudsige den osv. Konceptet for en datatype er ens på begrebet måleniveau, men mere specifikt - for eksempel kræver dataoptællinger en anden fordeling (Poisson eller binomial) end for ikke-negative reelle værdier, men begge falder ind under samme måleniveau (koefficientskala).

vægte

Der er gjort forskellige forsøg på at skabe en taksonomi af måleniveauer til behandling af statistisk information. Psykofysiker Stanley Smith Stevens definerede nominelle, ordinale, interval- og proportionale skalaer. Nominelle målinger har ikke en signifikant rækkefølge blandt værdierne og tillader enhver en-til-en konvertering. Almindelige målinger har upræcise forskelle mellem successive værdier, men adskiller sig i den signifikante rækkefølge af disse værdier og tilladerenhver ordensbevarende transformation. Intervalmålinger har meningsfulde afstande mellem målinger, men nulværdien er vilkårlig (som i tilfældet med længde- og temperaturmålinger i Celsius eller Fahrenheit) og giver mulighed for enhver lineær transformation. Forholdsdimensioner har både en meningsfuld nulværdi og afstande mellem forskellige definerede dimensioner og giver mulighed for enhver skaleringstransformation.

Data, der ikke kan beskrives ved hjælp af et enkelt tal, er ofte inkluderet i tilfældige vektorer af reelle tilfældige variable, selvom der er en voksende tendens til at behandle dem selv. Sådanne eksempler vil blive diskuteret nedenfor.

Tilfældige vektorer

Individuelle elementer kan være korrelerede eller ikke. Eksempler på fordelinger brugt til at beskrive korrelerede tilfældige vektorer er den multivariate normalfordeling og den multivariate t-fordeling. Generelt kan der være vilkårlige korrelationer mellem alle elementer, men dette bliver ofte uoverskueligt over en vis størrelse, hvilket kræver yderligere begrænsninger på de korrelerede komponenter.

Tilfældige matricer

Tilfældige matricer kan arrangeres lineært og behandles som tilfældige vektorer, men dette er muligvis ikke en effektiv måde at repræsentere korrelationer mellem forskellige elementer. Nogle sandsynlighedsfordelinger er specifikt designet til tilfældige matricer, såsom den normale matrixdistribution og Wishart-distribution.

Random Sequences

Nogle gange betragtes de som de samme som tilfældige vektorer, men i andre tilfælde anvendes udtrykket specifikt til tilfælde, hvor hver tilfældig variabel kun korrelerer med nærliggende variable (som i en Markov-model). Dette er et speci altilfælde af det Bayesianske netværk og bruges til meget lange sekvenser, såsom genkæder eller lange tekstdokumenter. En række modeller er specielt designet til sådanne sekvenser, såsom skjulte Markov-sekvenser.

tilfældige processer

De ligner tilfældige sekvenser, men kun når længden af sekvensen er ubestemt eller uendelig, og elementerne i sekvensen behandles en efter en. Dette bruges ofte til data, der kan beskrives som tidsserier. Det gælder, når det f.eks. kommer til aktiekursen næste dag.

Konklusion

Analysen af statistisk information afhænger helt af kvaliteten af dens indsamling. Sidstnævnte er til gengæld stærkt forbundet med mulighederne for dets klassificering. Selvfølgelig er der mange typer klassificering af statistiske oplysninger, som læseren selv kunne se, når han læste denne artikel. Ikke desto mindre vil tilstedeværelsen af effektive værktøjer og en god beherskelse af matematik, såvel som viden inden for sociologi, gøre deres arbejde, så du kan udføre enhver undersøgelse eller undersøgelse uden væsentlige fejlkorrektioner. Kilder til statistiske oplysninger i formularenmennesker, organisationer og andre sociologiske fag er heldigvis repræsenteret i stor overflod. Og ingen vanskeligheder kan stå i vejen for en sand opdagelsesrejsende.