Multidimensional skalering: definition, mål, mål og eksempel

Indholdsfortegnelse:

Multidimensional skalering: definition, mål, mål og eksempel
Multidimensional skalering: definition, mål, mål og eksempel
Anonim

Multivariate scaling (MDS) er et værktøj til visualisering af lighedsniveauet for individuelle tilfælde i et datasæt. Det refererer til et sæt relaterede ordinationsmetoder, der anvendes til visualisering af information, især til at vise informationen indeholdt i en afstandsmatrix. Dette er en form for ikke-lineær dimensionalitetsreduktion. MDS-algoritmen har til formål at placere hvert objekt i et N-dimensionelt rum på en sådan måde, at afstandene mellem objekter bevares bedst muligt. Hvert objekt tildeles derefter koordinater i hver af de N dimensioner.

Antallet af dimensioner af MDS-grafen kan overstige 2 og er specificeret på forhånd. Valg af N=2 optimerer objektplacering for 2D-spredningsplottet. Du kan se eksempler på flerdimensionel skalering på billederne i artiklen. Eksempler med symboler på russisk er særligt illustrative.

Multidimensionel skalering
Multidimensionel skalering

Essence

Metode til flerdimensionel skalering (MMS,MDS) er et udvidet sæt af klassiske værktøjer, der generaliserer optimeringsproceduren for et sæt tabsfunktioner og inputmatricer af kendte afstande med vægte og så videre. I denne sammenhæng kaldes en nyttig tabsfunktion stress, som ofte minimeres ved en procedure kaldet stress majorization.

Manuel

Der er flere muligheder for flerdimensionel skalering. MDS-programmer minimerer automatisk belastningen for at få en løsning. Kernen i den ikke-metriske MDS-algoritme er en todelt optimeringsproces. Først skal den optimale monotone nærhedstransformation findes. For det andet skal konfigurationspunkter placeres optim alt, så deres afstande matcher de skalerede nærhedsværdier så tæt som muligt.

Eksempel på multidimensionel skalering
Eksempel på multidimensionel skalering

Udvidelse

En udvidelse af metrisk multidimensionel skalering i statistik, hvor målrummet er et vilkårligt glat ikke-euklidisk rum. Hvor forskellene er afstande på en overflade og målrummet er en anden overflade. Tematiske programmer giver dig mulighed for at finde en vedhæftet fil med minimal forvrængning af en overflade til en anden.

Trin

Der er flere trin i at udføre en undersøgelse ved hjælp af multivariat skalering:

  1. Formulering af problemet. Hvilke variabler vil du sammenligne? Hvor mange variabler vil du sammenligne? Til hvilket formål vil undersøgelsen blive brugt?
  2. Henter inputdata. Respondenterne bliver stillet en række spørgsmål. For hvert par produkter bliver de bedt om at vurdere ligheden (norm alt på en 7-punkts Likert-skala fra meget ens til meget forskellig). Det første spørgsmål kunne være til Coca-Cola/Pepsi, for eksempel det næste til øl, det næste til Dr. Pepper osv. Antallet af spørgsmål afhænger af antallet af mærker.
Afstandsskalering
Afstandsskalering

Alternative tilgange

Der er to andre tilgange. Der er en teknik kaldet "Perceptual Data: Derived Approach", hvor produkter dekomponeres i attributter, og evalueringen udføres på en semantisk differentiel skala. En anden metode er "præferencedatatilgangen", hvor respondenterne bliver spurgt om præferencer frem for ligheder.

Den består af følgende trin:

  1. Lancering af MDS statistiske program. Software til at udføre proceduren er tilgængelig i mange statistiske softwarepakker. Der er ofte et valg mellem metrisk MDS (som omhandler interval- eller forholdsniveaudata) og ikke-metrisk MDS (som omhandler ordinære data).
  2. Bestemmelse af antallet af målinger. Forskeren skal bestemme antallet af målinger, han vil lave på computeren. Jo flere målinger, jo bedre er den statistiske tilpasning, men jo sværere er det at fortolke resultaterne.
  3. Vis resultater og definer målinger - det statistiske program (eller relateret modul) viser resultaterne. Kortet viser hvert produkt (norm alt i 2D).plads). Produkternes nærhed til hinanden indikerer enten deres lighed eller præference, afhængigt af hvilken tilgang der blev brugt. Det er dog ikke altid klart, hvordan målinger faktisk svarer til målinger af systemadfærd. En subjektiv vurdering af overensstemmelse kan foretages her.
  4. Tjek resultater for pålidelighed og validitet - beregn R-kvadrat for at bestemme andelen af skaleret datavarians, der kan tages højde for af MDS-proceduren. Kvadrat R 0,6 betragtes som det mindst acceptable niveau. R i kvadrat med 0,8 anses for god til metrisk skalering, mens 0,9 anses for god til ikke-metrisk skalering.
Multivariate skaleringsresultater
Multivariate skaleringsresultater

Forskellige test

Andre mulige tests er stresstests af Kruskal-typen, splitdatatests, datastabilitetstests og gentest pålidelighedstests. Skriv detaljeret om resultaterne i testen. Sammen med kortlægningen skal der i det mindste angives et mål for afstand (f.eks. Sorenson-indeks, Jaccard-indeks) og pålidelighed (f.eks. stressværdi).

Det er også meget ønskeligt at give en algoritme (f.eks. Kruskal, Mather), som ofte bestemmes af det anvendte program (som nogle gange erstatter algoritmerapporten), hvis du har givet en startkonfiguration eller haft et tilfældigt valg, nummer af dimensionskørsler, Monte Carlo-resultater, antal iterationer, stabilitetsscore og proportional varians for hver akse (r-kvadrat).

Visuel information og dataanalysemetodeflerdimensionel skalering

Informationsvisualisering er studiet af interaktive (visuelle) repræsentationer af abstrakte data for at forbedre menneskelig kognition. Abstrakte data omfatter både numeriske og ikke-numeriske data, såsom tekstmæssige og geografiske oplysninger. Informationsvisualisering adskiller sig dog fra videnskabelig visualisering: "det er informativ (informationsvisualisering), når en rumlig repræsentation er valgt, og scivis (videnskabelig visualisering), når en rumlig repræsentation er givet."

Informationsvisualiseringsområdet opstod fra forskning i menneske-computer-interaktion, computervidenskabelige applikationer, grafik, visuelt design, psykologi og forretningsmetoder. Det bliver i stigende grad brugt som en væsentlig komponent i videnskabelig forskning, digitale biblioteker, datamining, finansielle data, markedsundersøgelser, produktionskontrol og så videre.

Metoder og principper

Informationsvisualisering antyder, at visualiserings- og interaktionsmetoder drager fordel af den menneskelige perceptions rigdom, hvilket giver brugerne mulighed for samtidigt at se, udforske og forstå store mængder information. Informationsvisualisering har til formål at skabe tilgange til at kommunikere abstrakte data, information på en intuitiv måde.

Farve multidimensionel skalering
Farve multidimensionel skalering

Dataanalyse er en integreret del af al anvendt forskning og problemløsning i industrien. MestDe grundlæggende tilgange til dataanalyse er visualisering (histogrammer, spredningsplot, overfladeplot, trækort, parallelle koordinatplot osv.), statistik (hypotesetestning, regression, PCA osv.), dataanalyse (matching osv.)..d.) og maskinlæringsmetoder (klynger, klassificering, beslutningstræer osv.).

Blandt disse tilgange er informationsvisualisering eller visuel dataanalyse den mest afhængige af det analytiske personales kognitive færdigheder og tillader opdagelsen af ustrukturerede handlingsrettede indsigter, der kun er begrænset af menneskelig fantasi og kreativitet. En analytiker behøver ikke at lære nogle komplekse teknikker for at kunne fortolke datavisualiseringer. Informationsvisualisering er også et hypotesegenereringsskema, der norm alt kan og er ledsaget af mere analytisk eller formel analyse, såsom statistisk hypotesetestning.

Undersøgelse

Det moderne studie af visualisering begyndte med computergrafik, som "fra begyndelsen blev brugt til at studere videnskabelige problemer. Men i de første år begrænsede manglen på grafikkraft ofte dens anvendelighed. Prioriteringen af visualisering begyndte udviklet i 1987 med udgivelsen af speciel software til computergrafik og visualisering i videnskabelig databehandling. Siden da har der været adskillige konferencer og workshops arrangeret i fællesskab af IEEE Computer Society og ACM SIGGRAPH".

De dækkede de generelle emner datavisualisering, informationsvisualisering og videnskabelig visualisering,samt mere specifikke områder såsom volumengengivelse.

Multidimensionel mærkeskalering
Multidimensionel mærkeskalering

Oversigt

Generalized Multidimensional Scaling (GMDS) er en udvidelse af metrisk multidimensional skalering, hvor målrummet er ikke-euklidisk. Når forskellene er afstande på en overflade, og målrummet er en anden overflade, giver GMDS dig mulighed for at finde indlejringen af en overflade til en anden med minimal forvrængning.

GMDS er en ny forskningslinje. I øjeblikket er hovedapplikationerne deformerbar objektgenkendelse (for eksempel til 3D ansigtsgenkendelse) og teksturmapping.

Formålet med multidimensionel skalering er at repræsentere multidimensionelle data. Multidimensionelle data, det vil sige data, der kræver mere end to eller tre dimensioner at repræsentere, kan være svære at fortolke. En tilgang til forenkling er at antage, at dataene af interesse ligger på en indlejret ikke-lineær manifold i et højdimensionelt rum. Hvis samleren har en lav nok dimension, kan dataene visualiseres i lavdimensionelt rum.

Mange af de ikke-lineære dimensionsreduktionsmetoder er relateret til lineære metoder. Ikke-lineære metoder kan bredt klassificeres i to grupper: dem, der giver kortlægning (enten fra højdimensionelt rum til lavdimensionelt indlejring eller omvendt), og dem, der blot giver visualisering. I sammenhæng med maskinlæring kan kortlægningsmetoder ses somen indledende fase af feature-ekstraktion, hvorefter mønstergenkendelsesalgoritmer anvendes. Norm alt er dem, der bare giver visualiseringer, baseret på nærhedsdata - altså afstandsmålinger. Multidimensionel skalering er også ret almindelig inden for psykologi og andre humaniora.

Diagonal multidimensional skalering
Diagonal multidimensional skalering

Hvis antallet af attributter er stort, er rummet af unikke mulige strenge også eksponentielt stort. Jo større dimensionen er, jo sværere bliver det at skildre rummet. Dette giver en masse problemer. Algoritmer, der opererer på højdimensionelle data, har en tendens til at have meget høj tidskompleksitet. Reduktion af data til færre dimensioner gør ofte analysealgoritmer mere effektive og kan hjælpe maskinlæringsalgoritmer med at lave mere præcise forudsigelser. Det er derfor, multidimensionel dataskalering er så populær.

Anbefalede: