Scipy K-Means

Scipy K-Means
Python-programmeringsspråk er det mest brukte språket i disse dager siden dets fri kildekode gratis biblioteker tiltrekker seg utviklerne. Nybegynnere og ekspertutviklere foretrekker å jobbe i Python i stedet for noe annet programmeringsspråk på høyt nivå. Scipy er et av de utrolige bibliotekene med Python som gjør programmering enklere og enkelt. Scipy -biblioteket er bygget på det numpy biblioteket, og utvider funksjonalitetene og metodene. Her skal vi utforske den scipy k-Means-metoden. For å hjelpe deg med hvordan du forstår K-Means algoritmefunksjonene i et Python-program, viser vi deg noen klare og praktiske eksempler.

Hva er gruppering i python003f?

Det generelle konseptet med gruppering er å lage grupper av lignende typer data. Det er prosessen med å skille dataene med de samme egenskapene i forskjellige typer klynger. Helsevesen, finans, detaljhandel og andre felt bruker ofte klyngeteknikkene for å utføre de forskjellige analytiske oppgavene. Clustering in Python utfører de samme funksjonalitetene ved hjelp av ekstremt enkle algoritmer. Det er mange metoder for gruppering i Python, men Scipy gir bare to moduler for gruppering som er K-betyr og hierarkiale gruppering. Vi dedikerer denne artikkelen til K-Means-modulen. Derfor, ved hjelp av eksempler, vil vi lære om K-Means-gruppering av Scipy Library.

Hva er K-Means Clustering Algoritme?

Det tar et datasett og antall klynger som skal lages som input og returnerer det spesifiserte antallet klynger av de gitte dataene. Det følger den euklidiske avstandsmekanismen for å lage klyngene. For det første finner K-Means-algoritmen klyngen Centroid, og kategoriserer deretter hvert element til sin nærmeste gjennomsnitt, gjentar prosessen for det gitte antallet klyngetid, og oppretter det spesifiserte antallet klynger av de gitte dataene.

Hva er Scipy K-Means Clustering?

Scipy-biblioteket gir en K-Means klyngeteknikk som er den samme partisjoneringsmetoden der hver klynge av dataene er representert med den beregnede centroid. I den beregnede centroid har alle datapunktene samme gjennomsnittlige avstand fra midten av klyngen. Scipy -biblioteket tilbyr to klyngepakker, VQ og Hierarchy, som tilbyr forskjellige klyngemetoder. Klyngen.VQ-klyngeemballasje er vektorkvantiseringsmodulen som gir K-Means Clustering-metoden. Vektorkvantisering er veldig nyttig i forvrengning og reduksjon av den forbedrede nøyaktigheten. For å lage klynger med K-Means-metoden på Scipy-biblioteket, må vi følge følgende trinn:

Først må du installere Scipy -pakken med følgende uttalelse:

Det er veldig viktig å ha alle bibliotekene installert før du bruker noen funksjonsmetode for biblioteket. Derfor, hvis du ennå ikke har installert Scipy -biblioteket, kan du installere det med Pip Install Scipy -setningen. Etter det, gi dataene for å lage klyngen og antallet klynge som også skal lages. Normaliser deretter dataene med følgende uttalelse:

Her brukes Whiten -funksjonen til VQ -pakker til å normalisere dataene. "Data" -parameteren representerer inndataene og "CF" -parameteren brukes til å sjekke om inndataene bare inneholder endelige tall eller ikke. Neste trinn er å lokalisere centroid for de oppgitte dataene. Følgende uttalelse brukes til å beregne centroid av dataene:

"Data" og "CF" -parametere er de samme som Whiten -funksjonen og representerer den samme informasjonen. Tilleggsparametrene er "k", "iterasjoner" og "terskel" der k representerer antall klynger som skal lages, iterasjon representerer antall iterasjoner som skal utføres av funksjonen, og terskel representerer terskelverdien for funksjonsavslutning. La oss nå demonstrere et eksempel slik at vi praktisk talt kan se hvordan K-Means-funksjonen fungerer.

Eksempel:

Her skal vi gi et eksempel for å demonstrere trinnene vi forklarte tidligere. Når du har et komplett praktisk eksempel, kan du enkelt forstå konseptet. La oss henvise til den gitte koden i følgende skjermbilde:

Siden vi allerede installerte Scipy -biblioteket, er det ikke nødvendig å installere det eksplisitt igjen. Den første kodelinjen brukes til å importere Numpy -biblioteket som "NP" i programmet. Etter det, Scipy.klynge.VQ -pakken importeres til programmet for å bruke Whiten-, Kmeans- og VQ -modulene. "Data" -variabelen initialiseres med en 2-D-matrise som deretter sendes til Whiten-funksjonen for datarormalisering. De normaliserte dataene kan vises i utdataene når utskriftserklæringen brukes til å vise den.

Kmeans () -funksjonen beregner centroid for de gitte dataene. De gitte dataene sendes til Kmeans -funksjonen med antall klynger som skal gjøres. Centroid -verdien for hvert dataelement kan også vises i utdataene, da utskriftserklæringen brukes til å vise dem. Gjennomsnittet av dataene blir også tatt og vises i utdataene med utskriftserklæringen.

Til slutt, for gruppering, brukes VQ -funksjonen. De gitte dataene og beregnede centroidverdiene sendes til VQ -funksjonen og vises i utdataene ved hjelp av utskriftsuttalelsen. For å få den komplette utgangen på ett sted, kan du henvise til følgende skjermbilde:

Som du ser har vi først de normaliserte dataene som blir returnert av Whiten -funksjonen. Deretter har vi centroidene for hver dataverdi. Etter det blir gjennomsnittet av dataene gitt, etterfulgt av klyngeindeksene. Du kan utføre denne koden i hvilken som helst Python -kompilator i systemet ditt som Spyder, Pypy, Jupiter, etc. Du kan også bruke online kompilatorene som samarbeid som også er kjent som Colab.

Konklusjon

Denne artikkelen er dedikert til K-Means Clustering Algoritme. Her lærte vi om gruppering, K-betyr klynging og K-betyr klynging med Scipy Library. Først lærte vi det grunnleggende konseptet med klynging. Deretter undersøkte vi den spesifikke K-Means Cluster-metoden. Til slutt lærte vi den komplette K-Means-metoden levert av Scipy Library. Vi demonstrerte også et eksempel for å forklare hvert trinn.