Klyngemetode: beskrivelse, grundlæggende begreber, applikationsfunktioner

2024 Forfatter: Angel Austin | [email protected]. Sidst ændret: 2023-12-17 05:21

Klyngemetoden er opgaven med at gruppere et sæt objekter på en sådan måde, at de i samme gruppe ligner hinanden mere end objekter i andre industrier. Det er den primære opgave for datamining og en generel statistisk analyseteknik, der bruges på mange områder, herunder maskinlæring, mønstergenkendelse, billedgenkendelse, informationssøgning, datakomprimering og computergrafik.

Optimeringsproblem

Klyngemetoden i sig selv er ikke én specifik algoritme, men en generel opgave, der skal løses. Dette kan opnås med forskellige algoritmer, der adskiller sig væsentligt i forståelsen af, hvad en gruppe udgør, og hvordan man finder den effektivt. Anvendelsen af klyngemetoden til dannelse af metasubjekter omfatter brugen af en gruppe medsmå afstande mellem medlemmer, tætte områder af rummet, intervaller eller visse statistiske fordelinger. Derfor kan klyngedannelse formuleres som et multi-objektiv optimeringsproblem.

Den passende metode og parameterindstillinger (herunder elementer såsom afstandsfunktionen, der skal bruges, tæthedstærsklen eller antallet af forventede klynger) afhænger af det individuelle datasæt og den tilsigtede brug af resultaterne. Analyse som sådan er ikke en automatisk opgave, men en iterativ proces med videnopdagelse eller interaktiv multi-objektiv optimering. Denne klyngemetode inkluderer prøve- og fejlforsøg. Det er ofte nødvendigt at ændre dataforbehandling og modelparametre, indtil resultatet opnår de ønskede egenskaber.

Ud over udtrykket "klyngning" er der en række ord med lignende betydninger, herunder automatisk klassifikation, numerisk taksonomi, bothryologi og typologisk analyse. Subtile forskelle ligger ofte i brugen af klyngemetoden til at danne metasubjektrelationer. Mens de resulterende grupper i dataekstraktion er af interesse, er det i automatisk klassificering allerede den diskriminerende magt, der udfører disse funktioner.

Klyngeanalyse var baseret på adskillige værker af Kroeber i 1932. Det blev introduceret i psykologien af Zubin i 1938 og af Robert Tryon i 1939. Og disse værker er blevet brugt af Cattell siden 1943 til at angive klassificeringen af klyngemetoder i teorien.

Viltid

Begrebet "klynge" kan ikke defineres præcist. Dette er en af grundene til, at der er så mange klyngemetoder. Der er en fællesnævner: en gruppe af dataobjekter. Forskellige forskere bruger dog forskellige modeller. Og hver af disse anvendelser af klyngemetoder involverer forskellige data. Konceptet fundet af forskellige algoritmer adskiller sig væsentligt i dets egenskaber.

Brug af klyngemetoden er nøglen til at forstå forskellene mellem instruktionerne. Typiske klyngemønstre omfatter:

Centroid s. Dette er f.eks. når k-betyder klynge repræsenterer hver klynge med én middelvektor.
Forbindelsesmodel s. Dette er f.eks. hierarkisk clustering, som bygger modeller baseret på afstandsforbindelse.
Distributionsmodel s. I dette tilfælde modelleres klynger ved hjælp af klyngemetoden til at danne statistiske metasubjektfordelinger. Såsom multivariat normal separation, som er anvendelig til forventningsmaksimeringsalgoritmen.
Density model s. Disse er for eksempel DBSCAN (Spatial Clustering Algorithm with Noise) og OPTICS (Order Points for Structure Detection), som definerer klynger som forbundne tætte områder i datarummet.
Subspace model c. Ved biclustering (også kendt som co-clustering eller to tilstande) modelleres grupper med begge elementer og med de relevante attributter.
Model s. Nogle algoritmer gør det ikkeraffineret forhold til deres klyngemetode for at generere meta-emneresultater og blot give informationsgruppering.
Model baseret på grafer. En klike, det vil sige en undergruppe af noder, sådan at hver anden forbindelse i kantdelen kan betragtes som en prototype af klyngeformen. Svækkelsen af den samlede efterspørgsel er kendt som kvasi-kliker. Præcis det samme navn er præsenteret i HCS-klyngealgoritmen.
Neurale modeller s. Det bedst kendte uovervågede netværk er det selvorganiserende kort. Og det er disse modeller, der norm alt kan karakteriseres som lig en eller flere af ovenstående klyngemetoder til dannelse af meta-subjektresultater. Det inkluderer subspace-systemer, når neurale netværk implementerer den nødvendige form for principal eller uafhængig komponentanalyse.

Dette udtryk er i virkeligheden et sæt af sådanne grupper, som norm alt indeholder alle objekterne i sættet af dataklyngemetoder. Derudover kan det indikere forholdet mellem klynger til hinanden, såsom et hierarki af systemer indbygget i hinanden. Grupperingen kan opdeles i følgende aspekter:

Hård centroid-klyngemetode. Her tilhører hvert objekt en gruppe eller er uden for den.
Blødt eller sløret system. På dette tidspunkt hører hvert objekt allerede til en vis grad til en hvilken som helst klynge. Det kaldes også c-betyder fuzzy clustering-metoden.

Og mere subtile forskelle er også mulige. For eksempel:

Streng partitioneringsklynger. Herhvert objekt tilhører præcis én gruppe.
Streng partitioneringsklynger med afvigelser. I dette tilfælde hører objekter muligvis heller ikke til nogen klynge og betragtes som unødvendige.
Overlappende klyngedannelse (også alternativ, med flere visninger). Her kan objekter tilhøre mere end én gren. Involverer typisk solide klynger.
Hierarkiske klyngemetoder. Objekter, der tilhører en undergruppe, tilhører også det overordnede undersystem.
Danning af underrum. Selvom det ligner overlappende klynger, inden for et unikt defineret system, bør gensidige grupper ikke overlappe hinanden.

Instruktioner

Som nævnt ovenfor kan klyngealgoritmer klassificeres baseret på deres klyngemodel. Den følgende gennemgang vil kun vise de mest fremtrædende eksempler på disse instruktioner. Da der kan være over 100 publicerede algoritmer, er det ikke alle, der leverer modeller til deres klynger og kan derfor ikke nemt klassificeres.

Der er ingen objektivt korrekt klyngealgoritme. Men som nævnt ovenfor er instruktionen altid i observatørens synsfelt. Den bedst egnede klyngealgoritme til et bestemt problem skal ofte vælges eksperimentelt, medmindre der er en matematisk grund til at foretrække en model frem for en anden. Det skal bemærkes, at en algoritme designet til en enkelt type norm alt ikke fungerer medet datasæt, der indeholder et radik alt andet emne. For eksempel kan k-means ikke finde ikke-konvekse grupper.

Forbindelsesbaseret clustering

Denne forening er også kendt under sit navn, den hierarkiske model. Det er baseret på den typiske idé, at objekter er mere forbundet med nabodele end til dem, der er meget længere væk. Disse algoritmer forbinder objekter og danner forskellige klynger afhængigt af deres afstand. En gruppe kan hovedsageligt beskrives ved den maksimale afstand, der er nødvendig for at forbinde de forskellige dele af klyngen. På alle mulige afstande vil der dannes andre grupper, som kan repræsenteres ved hjælp af et dendrogram. Dette forklarer, hvor det almindelige navn "hierarkisk clustering" kommer fra. Det vil sige, at disse algoritmer ikke giver en enkelt partition af datasættet, men i stedet giver en omfattende autoritetsrækkefølge. Det er takket være ham, at der er et dræn med hinanden på bestemte afstande. I et dendrogram angiver y-aksen den afstand, hvormed klyngerne kommer sammen. Og objekterne er arrangeret langs X-linjen, så grupperne ikke blandes.

Forbindelsesbaseret clustering er en hel familie af metoder, der adskiller sig i den måde, de beregner afstande på. Ud over det sædvanlige valg af afstandsfunktioner skal brugeren også tage stilling til tilslutningskriteriet. Da en klynge består af flere objekter, er der mange muligheder for at beregne den. Et populært valg er kendt som single-lever gruppering, dette er metodenfuld link, som indeholder UPGMA eller WPGMA (uvægtet eller vægtet ensemble af par med aritmetisk middelværdi, også kendt som middellinkklyngning). Derudover kan det hierarkiske system være agglomerativt (startende med individuelle elementer og kombinere dem i grupper) eller opdeling (startende med et komplet datasæt og opdele det i sektioner).

Distribueret clustering

Disse modeller er tættest beslægtet med statistikker, der er baseret på opdelinger. Klynger kan let defineres som objekter, der højst sandsynligt tilhører den samme distribution. Et praktisk træk ved denne tilgang er, at den minder meget om den måde, kunstige datasæt oprettes på. Ved at udtage tilfældige objekter fra en distribution.

Selvom det teoretiske grundlag for disse metoder er fremragende, lider de af et nøgleproblem, kendt som overfitting, medmindre der er pålagt grænser for modellens kompleksitet. En større forening vil norm alt forklare dataene bedre, hvilket gør det svært at vælge den rigtige metode.

Gaussisk blandingsmodel

Denne metode bruger alle mulige former for forventningsmaksimeringsalgoritmer. Her er datasættet norm alt modelleret med et fast (for at undgå at tilsidesætte) antal Gauss-fordelinger, der initialiseres tilfældigt, og hvis parametre er iterativt optimeret til bedre at passe til datasættet. Dette system vil konvergere til et lok alt optimum. Derfor kan flere løbeture giveforskellige resultater. For at få den tætteste klyngedannelse tildeles funktioner ofte til den Gauss-fordeling, som de højst sandsynligt hører til. Og for blødere grupper er dette ikke nødvendigt.

Distributionsbaseret klyngedannelse skaber komplekse modeller, der i sidste ende kan fange sammenhængen og afhængigheden mellem attributter. Imidlertid pålægger disse algoritmer en ekstra byrde for brugeren. For mange datasæt i den virkelige verden er der muligvis ikke en kortfattet defineret matematisk model (for eksempel at antage, at en Gauss-fordeling er en ret stærk antagelse).

Densitetsbaseret klyngedannelse

I dette eksempel er grupperne grundlæggende defineret som områder med højere impermeabilitet end resten af datasættet. Genstande i disse sjældne dele, som er nødvendige for at adskille alle komponenter, betragtes norm alt som støj- og kantpunkter.

Den mest populære tæthedsbaserede klyngemetode er DBSCAN (Spatial Noise Clustering Algorithm). I modsætning til mange nyere metoder har den en veldefineret klyngekomponent kaldet "density reachability". I lighed med link-baseret clustering er den baseret på forbindelsespunkter inden for bestemte afstandstærskler. Denne metode indsamler dog kun de emner, der opfylder tæthedskriteriet. I den originale version, defineret som det mindste antal andre objekter i denne radius, består klyngen af alletæthedsrelaterede emner (som kan danne en fri-form gruppe, i modsætning til mange andre metoder), og alle objekter, der er inden for det tilladte område.

En anden interessant egenskab ved DBSCAN er, at dens kompleksitet er ret lav - den kræver et lineært antal intervalforespørgsler mod databasen. Og det er også usædvanligt, at det i det væsentlige vil finde de samme resultater (dette er deterministisk for kerne- og støjpunkter, men ikke for grænseelementer) i hver kørsel. Derfor er det ikke nødvendigt at køre det flere gange.

Den største ulempe ved DBSCAN og OPTICS er, at de forventer et vist fald i tætheden for at detektere klyngegrænser. For eksempel, i datasæt med overlappende Gauss-fordelinger - et almindeligt anvendelsestilfælde for kunstige objekter - forekommer klyngegrænserne, der genereres af disse algoritmer, ofte vilkårlige. Dette sker, fordi tætheden af grupper konstant falder. Og i et gaussisk blandingsdatasæt udkonkurrerer disse algoritmer næsten altid metoder såsom EM-clustering, som er i stand til nøjagtigt at modellere disse typer systemer.

Mean forskydning er en klyngetilgang, hvor hvert objekt flyttes til det tætteste område i nabolaget baseret på et estimat af hele kernen. I sidste ende konvergerer objekterne til lokale uigennemtrængelighedsmaksima. I lighed med k-betyder klyngedannelse kan disse "densitetsattraktorer" tjene som repræsentanter for et datasæt. Men det gennemsnitlige skiftkan detektere vilkårligt formede klynger svarende til DBSCAN. På grund af den dyre iterative procedure og tæthedsestimering er den gennemsnitlige forskydning norm alt langsommere end DBSCAN eller k-Means. Derudover er anvendeligheden af den typiske skiftalgoritme på højdimensionelle data vanskelig på grund af den uensartede opførsel af kernedensitetsestimatet, hvilket fører til overdreven fragmentering af klyngehalerne.

Rating

klyngemetode til dannelse af metasubjekt

Bekræftelse af klyngeresultater er lige så vanskeligt som klyngedannelse i sig selv. Populære tilgange omfatter "intern" scoring (hvor systemet er reduceret til et enkelt kvalitetsmål) og selvfølgelig "ekstern" scoring (hvor klyngningen sammenlignes med en eksisterende "ground truth"-klassifikation). Og den menneskelige eksperts manuelle score og indirekte score findes ved at undersøge nytten af klyngedannelse i den tilsigtede applikation.

Interne flagforanst altninger lider under det problem, at de repræsenterer funktioner, der i sig selv kan betragtes som klyngemål. For eksempel er det muligt at gruppere data givet af Silhouette-koefficienten, bortset fra at der ikke er nogen kendt effektiv algoritme til at gøre det. Ved at bruge en sådan intern målestok til evaluering er det bedre at sammenligne ligheden mellem optimeringsproblemer.

Det udvendige mærke har lignende problemer. Hvis der er sådanne etiketter af "grundsandhed", så er der ingen grund til at klynge. Og i praktiske applikationer er der norm alt ikke sådanne begreber. På den anden side afspejler etiketterne kun én mulig opdeling af datasættet, hvilket ikke betyderat der ikke er nogen anden (måske endnu bedre) klyngedannelse.

Så ingen af disse tilgange kan i sidste ende bedømme den faktiske kvalitet. Men dette kræver menneskelig vurdering, hvilket er yderst subjektivt. Ikke desto mindre kan sådanne statistikker være informative til at identificere dårlige klynger. Men man bør ikke udelukke den subjektive vurdering af en person.

Indre mærke

Når resultatet af en klyngedannelse evalueres ud fra data, der selv er blevet klynget, omtales dette som dette udtryk. Disse metoder tildeler generelt det bedste resultat til en algoritme, der skaber grupper med høj lighed inden for og lav mellem grupper. En af ulemperne ved at bruge interne kriterier i klyngeevaluering er, at høje scorer ikke nødvendigvis fører til effektive applikationer til informationssøgning. Denne score er også skæv over for algoritmer, der bruger den samme model. For eksempel optimerer k-betyder clustering naturligt funktionsafstande, og et internt kriterium baseret på det vil sandsynligvis overvurdere den resulterende clustering.

Derfor er disse evalueringsforanst altninger bedst egnede til at få en idé om situationer, hvor en algoritme klarer sig bedre end en anden. Men det betyder ikke, at hver information giver mere pålidelige resultater end andre. Gyldighedsperioden målt med et sådant indeks afhænger af påstanden om, at strukturen eksisterer i datasættet. En algoritme udviklet til nogle typer har ingen chance, hvis sættet indeholder radik altforskellig sammensætning, eller hvis vurderingen måler forskellige kriterier. For eksempel kan k-betyder clustering kun finde konvekse klynger, og mange scoreindekser antager samme format. I et datasæt med ikke-konvekse modeller er det uhensigtsmæssigt at bruge k-midler og typiske evalueringskriterier.

Ekstern evaluering

Med denne form for balling evalueres klyngeresultater baseret på data, der ikke blev brugt til gruppering. Det vil sige som kendte klassemærker og eksterne tests. Sådanne spørgsmål består af et sæt præklassificerede genstande og er ofte skabt af eksperter (mennesker). Som sådan kan referencesæt ses som guldstandarden for evaluering. Disse typer af scoringsmetoder måler, hvor tæt klyngingen er på givne referenceklasser. Det er dog for nylig blevet diskuteret, om dette er tilstrækkeligt til rigtige data eller kun for syntetiske sæt med faktisk sandhed. Da klasser kan indeholde intern struktur, og de eksisterende attributter muligvis ikke tillader adskillelse af klynger. Også ud fra et videnopdagelsessynspunkt giver reproduktion af kendte fakta ikke nødvendigvis det forventede resultat. I et særligt begrænset clustering-scenarie, hvor metainformation (såsom klasseetiketter) allerede bruges i grupperingsprocessen, er det ikke trivielt at beholde al information til evalueringsformål.

Nu er det klart, hvad der ikke gælder for klyngemetoder, og hvilke modeller der bruges til disse formål.