Seaborn Cluster Map

Seaborn Cluster Map

Seaborn er en bemerkelsesverdig visualiseringsmodul for Python som lar deg plotte statistisk visuals. Den er basert på matplotlib -programvaren og er tett forbundet med Pandas datastrukturer. I en uovervåket læring hjelper grupperingsteknikker i anskaffelse av strukturerte data. I denne artikkelen får vi se hva et klyngekart er og hvordan du konstruerer og bruker dette til en rekke formål.

Syntaks av klyngekartet i Seaborn

Vi har en enkel syntaks for Seaborn Cluster -kartet her:

1
Seaborn.ClusterMap (data ,, Standard_scale = ingen, FigSize = (6, 8), ** Kwargs)

Nedenfor forklarte vi parameteren som ble bestått inne i den sjøbornklyngefunksjonen sammen med noen valgfrie parametere.

data: For gruppering brukes rektangulære data. NAS er ikke tillatt.

pivot_kws: Hvis dataene er i en ryddig datafram, kan du bruke søkeordparametrene til å lage en rektangulær dataaframe med en pivot.

metode: For å beregne klynger, bruk koblingsmetoden. For ytterligere detaljer, se dokumentasjonen for scipy.klynge.hierarki.kobling().

metrisk: Dataene skal måles i form av avstand. Flere parametere finner du i scipy.romlig.avstand.PDIST () Dokumentasjon. Du kan opprette hver koblingsmatrise manuelt og levere den som en rad. COL -kobling bruker beregningene (eller metodologiene) for rader og kolonner.

z_score: Hvorvidt Z-score skal beregnes for kolonnene eller radene eller ikke. Z -score beregnes som z = (x - gjennomsnitt)/STD, noe som betyr at hver rad (kolonnes) verdier vil bli trukket fra radens (kolonnes) gjennomsnitt, deretter delt av radens (kolonnes) standardavvik (kolonne). Dette garanterer gjennomsnittlig 0 og en variant av 1 for hver rad (kolonne).

Standard_scale: Enten du skal normalisere den dimensjonen, betyr å trekke minimum og dele hver rad eller kolonne med det maksimale.

Figstørrelse: Figurens totale størrelse som inkluderer bredde og høyden.

rad, col _cluster: Hvis sant, vil radene og kolonnene bli gruppert sammen.

ROW, Col _Colors: Fargene for å merke radene eller kolonnene. Det kan brukes til å se om dataene i en samling er gruppert samlet. For flere farger på merkingen, kan du bruke de stablede listene eller en dataaframe hvis du leveres i form av en panda. DataFrame eller Pandas er begge gode alternativer. Fargetiketter er avledet fra Dataframes feltnavn eller seriens navn. Fargene i DataFrame/-serien er også korrelert med datasettet etter indeks, noe som sikrer at fargene blir presentert i riktig sekvens.

Dendrogram, farger _Ratio: Prosentandelen av den grafiske størrelsen er dedikert til de to grenseseksjonene. Når et par er spesifisert, refererer det til rad- og COL -forholdet.

cbar_pos: I diagrammet er fargefeltaksene i riktige posisjoner. Fargelinjen er slått av hvis du setter den til ingen.

Kwargs: Heatmap mottar alle de andre nøkkelordparametrene ().

Vi vil konstruere et varmekart ved hjelp av de hierarkiske klyngene gjennom Seaborns ClusterMap -funksjon. Seaborns clustermap er en veldig nyttig funksjon. Vi viser deg hvordan du bruker det med noen eksempler:

Eksempel 1:

Klyngekartet over Seaborn er en matriksgrafikk som lar deg visualisere matriseelementene dine som et varmekart mens du samtidig viser en klynging av radene og kolonnene. I det påfølgende eksemplet hentet vi inn de nødvendige bibliotekene. Deretter opprettet vi en dataramme av de ansatte som inkluderer navn, ID -er, alder og lønn. Vi konverterte denne datarammen til pandaene ved å bruke PD.DataFrame -funksjon. Vi setter indeksen for ansatt.

Etter dette opprettet vi et klyngekart over denne datarammen ved å kalle Seaborn Cluster -funksjonen og sende Employee_Data inn i den funksjonen. Et annet søkeordargument, annot, brukes, og er satt til sann. Denne parameteren gjør det mulig for oss å se de virkelige tallene som vises på klyngekartets varmekart.

Utgangen fra klyngekartet er i følgende figur. Merk at radene og kolonnene våre er omorganisert av Seaborn:

Eksempel 2:

La oss bruke eksemplet datasettet “MPG” for å lage et klyngekart. Vi må filtrere dataene vi sender til disse klyngekartene ned til antall kolonner i datarammen.

Begynn med å importere de nødvendige bibliotekene. Vi lastet datasettet til "MPG" inne i "DataFrame_mpg" -variabelen. Vi brukte også Dropna -funksjonen for å fjerne nullradene inne i datarammen. Vi skrev ut kolonnens navn i "MPG" DataFrame sammen med kolonnestørrelsen. Deretter har vi en klyngekartfunksjon der hele “MPG” DataFrame sendes med de spesifiserte kolonnene.

De tre kolonnene er vist i konsollen.

Når vi utførte den forrige koden, ser vi et klyngekart med bare en kolonne med en lys farge. Dette er fordi skalaene for disse flere kolonnene er forskjellige.

Eksempel 3:

Det er flere alternativer for å skalere dataene i klyngekartfunksjonen. Men en enkel metode er å bruke standardskala -argumentet. Hvis vi vil skalere hver rad, må vi passere en verdi på null som et argument. Hvis vi vil skalere hver kolonne, vil verdien være 1. Nå har vi en skalaverdi på 1. Vi passerte også et metodeargument inne i klyngefunksjonen som tildelte en verdi som singel. Strengen kan sendes som en enkelt verdi, som er en minimal kobling.

Datarammen “Iris” klyngekartet er litt annerledes i figuren da vi passerte en skala og metodeparametere.

Eksempel 4:

Her la vi til Row_Color -parameteren inne i Seaborn Cluster Map -funksjonen. Vi tildelte hver farge til feltarten og trakk informasjonen fra artskolonnen til datarrammen Penguins.

Konklusjon

Nå kan du etablere sjøklyngekartet siden vi forklarte det med noen eksempler på de forskjellige parametrene som er bestått. Seaborns ClusterMap har også mange alternativer for å beregne en lengde eller likhet nett fra dataene for å lage et varmekart.