Logistisk regression: model og metoder

Indholdsfortegnelse:

Logistisk regression: model og metoder
Logistisk regression: model og metoder
Anonim

Metoder til logistisk regression og diskriminantanalyse bruges, når det er nødvendigt klart at differentiere respondenterne efter målkategorier. I dette tilfælde er grupperne selv repræsenteret ved niveauer af én enkeltvariant parameter. Lad os se nærmere på den logistiske regressionsmodel og finde ud af, hvorfor den er nødvendig.

Logistisk regression
Logistisk regression

Generelle oplysninger

Et eksempel på et problem, hvor logistisk regression bruges, er klassificeringen af respondenter i grupper, der køber og ikke køber sennep. Differentiering udføres i overensstemmelse med sociodemografiske karakteristika. Det drejer sig især om alder, køn, antal pårørende, indkomst osv. I drift er der differentieringskriterier og en variabel. Sidstnævnte koder for de målkategorier, som respondenterne faktisk skal opdeles i.

Nuancer

Det skal siges, at rækken af tilfælde, hvor logistisk regression anvendes, er meget snævrere end for diskriminantanalyse. I denne forbindelse overvejes brugen af sidstnævnte som en universel differentieringsmetodemere foretrukket. Desuden anbefaler eksperter at starte klassifikationsundersøgelser med diskriminantanalyse. Og kun i tilfælde af usikkerhed om resultaterne, kan du bruge logistisk regression. Dette behov skyldes flere faktorer. Logistisk regression bruges, når der er en klar forståelse af typen af uafhængige og afhængige variable. Derfor vælges en af de 3 mulige procedurer. I diskriminantanalyse beskæftiger forskeren sig altid med én statisk operation. Det involverer én afhængig og flere uafhængige kategoriske variabler med enhver type skala.

Visninger

Opgaven for en statistisk undersøgelse, der bruger logistisk regression, er at bestemme sandsynligheden for, at en bestemt respondent vil blive tildelt en bestemt gruppe. Differentiering udføres i henhold til visse parametre. I praksis er det i henhold til værdierne af en eller flere uafhængige faktorer muligt at klassificere respondenterne i to grupper. I dette tilfælde finder binær logistisk regression sted. De angivne parametre kan også bruges ved opdeling i grupper på mere end to. I en sådan situation finder multinomiel logistisk regression sted. De resulterende grupper er udtrykt i niveauer af en enkelt variabel.

Logistisk regression
Logistisk regression

Eksempel

Lad os sige, at der er respondenternes svar på spørgsmålet om, hvorvidt de er interesserede i tilbuddet om at købe en grund i Moskvas forstæder. Mulighederne er "nej"og ja. Det er nødvendigt at finde ud af, hvilke faktorer der har en overvejende indflydelse på potentielle køberes beslutning. For at gøre dette bliver respondenterne stillet spørgsmål om territoriets infrastruktur, afstanden til hovedstaden, området på stedet, tilstedeværelsen / fraværet af en boligbygning osv. Ved hjælp af binær regression er det muligt at distribuere respondenterne i to grupper. Den første vil omfatte dem, der er interesserede i købet - potentielle købere, og den anden, henholdsvis dem, der ikke er interesserede i et sådant tilbud. For hver respondent vil derudover blive beregnet sandsynligheden for at blive tildelt en eller anden kategori.

Komparative egenskaber

Forskellen fra de to muligheder ovenfor er det forskellige antal grupper og typen af afhængige og uafhængige variable. Ved binær regression studeres for eksempel en dikotom faktors afhængighed af en eller flere uafhængige forhold. Desuden kan sidstnævnte have enhver type skala. Multinomiel regression betragtes som en variation af denne klassificeringsmulighed. I den hører mere end 2 grupper til den afhængige variabel. De uafhængige faktorer skal have enten en ordinal eller en nominel skala.

Logistisk regression i spss

I den statistiske pakke 11-12 blev en ny version af analyse introduceret - ordinær. Denne metode bruges, når den afhængige faktor tilhører den samme navn (ordinære) skala. I dette tilfælde vælges uafhængige variable af én bestemt type. De skal enten være ordinære eller nominelle. Klassificeringen i flere kategorier anses for den mestuniversel. Denne metode kan bruges i alle undersøgelser, der anvender logistisk regression. Den eneste måde at forbedre kvaliteten af en model på er dog at bruge alle tre teknikker.

kvalitetskontrol af tilstrækkelighed og logistisk regression
kvalitetskontrol af tilstrækkelighed og logistisk regression

Ordinal klassifikation

Det skal siges, at der tidligere i den statistiske pakke ikke var nogen typisk mulighed for at udføre specialiserede analyser for afhængige faktorer med en ordinal skala. For alle variable med mere end 2 grupper blev den multinominelle variant brugt. Den relativt nyligt introducerede ordinalanalyse har en række funktioner. De tager højde for skalaens specifikationer. I mellemtiden betragtes ordinær logistisk regression i læremidler ofte ikke som en separat teknik. Dette skyldes følgende: Ordinal analyse har ikke nogen væsentlige fordele i forhold til multinomial. Forskeren kan godt bruge sidstnævnte i nærværelse af både en ordinal og en nominel afhængig variabel. Samtidig adskiller klassifikationsprocesserne sig næsten ikke fra hinanden. Det betyder, at udførelse af ordinalanalyse ikke vil forårsage nogen vanskeligheder.

Analysemulighed

Lad os overveje et simpelt tilfælde - binær regression. Antag, at efterspørgslen efter kandidater fra et bestemt storbyuniversitet vurderes i forbindelse med markedsføringsforskning. I spørgeskemaet blev respondenterne stillet spørgsmål, herunder:

  1. Er du ansat? (ql).
  2. Indtast år for eksamen (sp. 21).
  3. Hvad er gennemsnitteteksamensscore (gennemsnit).
  4. Køn (q22).

Logistisk regression vil evaluere virkningen af uafhængige faktorer aver, q 21 og q 22 på variablen ql. Forenklet sagt vil formålet med analysen være at bestemme den sandsynlige beskæftigelse af kandidater baseret på oplysninger om feltet, eksamensår og GPA.

logistisk sigmoid regressionsindikator
logistisk sigmoid regressionsindikator

Logistisk regression

For at indstille parametre ved hjælp af binær regression, brug menuen Analyser►Regression►Binær logistik. I vinduet Logistisk regression skal du vælge den afhængige faktor fra listen over tilgængelige variabler til venstre. Det er ql. Denne variabel skal placeres i feltet Afhængig. Derefter er det nødvendigt at indføre uafhængige faktorer i Covariates plot - q 21, q 22, gennemsnit. Så skal du vælge, hvordan du vil inkludere dem i din analyse. Hvis antallet af uafhængige faktorer er mere end 2, bruges metoden til samtidig introduktion af alle variabler, som er indstillet som standard, men trin for trin. Den mest populære måde er Backward:LR. Ved at bruge knappen Vælg kan du inkludere ikke alle respondenter i undersøgelsen, men kun en specifik målkategori.

Definer kategoriske variabler

Knappen Kategorisk skal bruges, når en af de uafhængige variable er nominel med mere end 2 kategorier. I denne situation, i vinduet Definer Kategoriske Variabler, placeres netop en sådan parameter i afsnittet Kategoriske Kovariater. I dette eksempel er der ingen sådan variabel. Derefter følger i drop-down listen Kontrastvælg punktet Afvigelse, og tryk på knappen Skift. Som et resultat vil der dannes flere afhængige variable fra hver nominel faktor. Deres antal svarer til antallet af kategorier i startbetingelsen.

Gem nye variabler

Ved at bruge knappen Gem i undersøgelsens hoveddialogboks indstilles oprettelsen af nye parametre. De vil indeholde de indikatorer, der er beregnet i regressionsprocessen. Især kan du oprette variabler, der definerer:

  1. Tilhører en specifik klassifikationskategori (gruppemedlemskab).
  2. Sandsynlighed for at tildele en respondent til hver undersøgelsesgruppe (Probabilities).

Når du bruger knappen Indstillinger, får forskeren ingen væsentlige muligheder. Derfor kan den ignoreres. Efter at have klikket på knappen "OK", vil resultaterne af analysen blive vist i hovedvinduet.

logistisk regressionskoefficient
logistisk regressionskoefficient

Kvalitetstjek for tilstrækkelighed og logistisk regression

Overvej tabellen omnibus-test af modelkoefficienter. Den viser resultaterne af analysen af kvaliteten af modellens tilnærmelse. På grund af det faktum, at en trin-for-trin-indstilling blev indstillet, skal du se på resultaterne af den sidste fase (trin 2). Et positivt resultat vil blive overvejet, hvis der konstateres en stigning i Chi-kvadrat-indikatoren, når man går videre til næste trin med en høj grad af signifikans (Sig. < 0,05). Modellens kvalitet vurderes i Modellinjen. Hvis der opnås en negativ værdi, men den ikke anses for signifikant med modellens overordnede høje væsentlighed, vil den sidstekan anses for praktisk egnet.

Borde

Model Summary gør det muligt at estimere det totale variansindeks, som er beskrevet af den konstruerede model (R Square index). Det anbefales at bruge Nagelker-værdien. Nagelkerke R Square-parameteren kan betragtes som en positiv indikator, hvis den er over 0,50. Derefter evalueres resultaterne af klassifikationen, hvor de faktiske indikatorer for at tilhøre en eller anden kategori under undersøgelse sammenlignes med dem, der er forudsagt baseret på regressionsmodellen. Til dette bruges Klassifikationstabellen. Det giver os også mulighed for at drage konklusioner om rigtigheden af differentiering for hver gruppe under overvejelse.

logistisk regressionsmodel
logistisk regressionsmodel

Den følgende tabel giver mulighed for at finde ud af den statistiske signifikans af de uafhængige faktorer, der indgår i analysen, såvel som hver ikke-standardiseret logistisk regressionskoefficient. Baseret på disse indikatorer er det muligt at forudsige tilhørsforholdet for hver respondent i stikprøven til en bestemt gruppe. Ved at bruge knappen Gem kan du indtaste nye variabler. De vil indeholde information om tilhørsforhold til en bestemt klassifikationskategori (Predictedcategory) og sandsynligheden for at blive inkluderet i disse grupper (Predicted probabilities membership). Efter at have klikket på "OK", vises beregningsresultaterne i hovedvinduet i Multinomial Logistic Regression.

Den første tabel, som indeholder indikatorer, der er vigtige for forskeren, er Model Fitting Information. Et højt niveau af statistisk signifikans ville indikere høj kvalitet ogegnethed til at bruge modellen til løsning af praktiske problemer. En anden vigtig tabel er Pseudo R-Square. Det giver dig mulighed for at estimere andelen af total varians i den afhængige faktor, som bestemmes af de uafhængige variabler, der er valgt til analyse. I henhold til tabellen med likelihood-ratiotests kan vi drage konklusioner om den statistiske signifikans af sidstnævnte. Parameterestimater afspejler ikke-standardiserede koefficienter. De bruges i konstruktionen af ligningen. Derudover blev den statistiske signifikans af deres indvirkning på den afhængige faktor bestemt for hver kombination af variable. I mellemtiden bliver det i markedsundersøgelser ofte nødvendigt at differentiere respondenter efter kategori, ikke individuelt, men som en del af målgruppen. Til dette bruges tabellen Observerede og forudsagte frekvenser.

Praktisk anvendelse

Den overvejede analysemetode er meget brugt i handlendes arbejde. I 1991 blev den logistiske sigmoid-regressionsindikator udviklet. Det er et letanvendeligt og effektivt værktøj til at forudsige sandsynlige priser, før de "overophedes". Indikatoren er vist på kortet som en kanal dannet af to parallelle linjer. De er lige langt fra trenden. Korridorens bredde afhænger udelukkende af tidsrammen. Indikatoren bruges, når man arbejder med næsten alle aktiver - fra valutapar til ædle metaller.

logistisk regression i spss
logistisk regression i spss

I praksis er der udviklet 2 nøglestrategier til brug af instrumentet: til breakout ogen tur. I sidstnævnte tilfælde vil den erhvervsdrivende fokusere på dynamikken i prisændringer inden for kanalen. Når værdien nærmer sig støtte- eller modstandslinjen, lægges der et bet på sandsynligheden for, at bevægelsen starter i den modsatte retning. Hvis prisen kommer tæt på den øvre grænse, så kan du slippe af med aktivet. Hvis det er på den nedre grænse, så bør du overveje at købe. Breakout-strategien involverer brug af ordrer. De er installeret uden for grænserne på en relativt lille afstand. I betragtning af, at prisen i nogle tilfælde overtræder dem i kort tid, bør du spille det sikkert og indstille stoptabs. Samtidig skal den erhvervsdrivende naturligvis, uanset den valgte strategi, så roligt som muligt opfatte og vurdere den opståede situation på markedet.

Konklusion

Dermed giver brugen af logistisk regression dig mulighed for hurtigt og nemt at klassificere respondenter i kategorier i henhold til de givne parametre. Når du analyserer, kan du bruge en hvilken som helst bestemt metode. Især multinomiel regression er universel. Eksperter anbefaler dog at bruge alle de ovenfor beskrevne metoder i kombination. Dette skyldes det faktum, at i dette tilfælde vil kvaliteten af modellen være væsentligt højere. Dette vil igen udvide rækkevidden af dens anvendelse.

Anbefalede: