Pandas kuttfunksjon

Pandas kuttfunksjon
I dataanalyse er numeriske data allestedsnærværende. Ofte kan du møte numeriske data som er kontinuerlig på ekstremt store størrelser eller sterkt forvrengt. Det kan generelt være å foretrekke å ordne dataene i forskjellige perioder. Når dataene er fordelt på nyttige divisjoner, kan den beskrivende statistikken utføres mer effektivt.

Å transformere de statistiske dataene til datasett er en lek med Pandas 'innebygd CUT () -funksjon. Bare de endimensjonale matrise-lignende elementene er kompatible med Cut () -metoden. Når vi har en haug med numeriske data og trenger å kjøre en viss statistisk vurdering, er Cut () -metoden praktisk.

La oss forestille oss, for illustrasjon, at vi får en rekke verdier fra 5 til 15. Deretter deler vi disse tallene i to kategorier og klassifiserer dem. Vi omtaler disse samlingene som binger. Som et resultat skiller vi disse dataene i binger 1 og 2, som er henholdsvis 5 til 10 og 10 til 15. Når vi har begge søppelkassene, kan vi evaluere hvilke tall som er større og hvilke som er små. Derfor er 10 til 15 større enn 5 til 10, og omvendt. Dette fører til begrepene “lavt” og “høydepunkter” som refererer til henholdsvis de lavere verdiene og de større.

Denne tilnærmingen er kjent som å merke dataene med Pandas 'Cut () -teknikk. Bruk Cut () -funksjonen hvis du noen gang trenger å dele opp dataene i segmentene og angi tallene i binger. Den nevnte metoden er også gunstig for å konvertere en uendelig verdi til kategoriske data.

Pandas Cut () Metode Syntaks

Den endimensjonale matrisen som må plasseres i søpla er representert av "x”Symbol. For klassifiseringen, “Søppelkasse”Definerer søppelgrensene. “Ikke sant”Angir om den høyre grensen skal beholdes eller ikke; Standardinnstillingen er sann. “Etiketter”Hjelp med å representere så vel som å klassifisere søppelkassene enten høye eller nedturer. Det gir instruksjoner for merkingen på de returnerende containerne og skal ha den nøyaktige størrelsen som for de resulterende binsene. Boolsk eller matriser er begge akseptable i etiketter. “Retbins”Bestem om søppelkassene skal returneres eller ikke. Begrepet “presisjon”Beskriver nøyaktighetsnivået som brukes mens du bevarer og presenterer etikettene for søppelkassene. “inkluderer lavest”Bestemmer om det opprinnelige intervallet er omfattende eller ikke. Hver gang binsens grenser ikke er særegne, "Duplikater”Angir om du vil kaste en verdi eller fjerne en ikke-spiselig.

Eksempel 1: Segmentering av verdier i binger

Vi starter den praktiske demonstrasjonen av Pandas Cut () -funksjonen med det grunnleggende og enkle eksemplet på å sette verdiene til en dataramme i binsene ved å segmentere dem.

Det første du trenger å gjøre før du begynner å jobbe med hovedkoden er å importere de nødvendige bibliotekene i Python. I denne illustrasjonen importerte vi to Python -biblioteker som er "Panda" og "Numpy".

Pandas -biblioteket gjør oss i stand til å bruke Pandas -funksjonene inkludert Cut () -funksjonen som er vårt diskusjonsemne i dag. Mens det andre biblioteket som vi importerte er numpy, er det blant de beste brukte Python -verktøyene for statistiske beregninger. For å fylle DataFrame -objektet, bruker vi Numpy for å lage de vilkårlige heltallene.

Nå begynner vi med hovedkoden som kan sees i forrige bilde.

Her opprettet vi en variabel som "new_df" som lagrer en rekke tilfeldig genererte tall. “PD.DataFrame ”påberopes for å generere en DataFrame. Det krever 2 parametere: Kolonnetittelen “Verdi” og “NP.tilfeldig.Randint ”-funksjon. “NP.tilfeldig.Randint ”genererer tilfeldige tall for den definerte DataFrame. Det tar tre parametere - minimumsverdi, maksimal verdi og lengden/størrelsen på matrisen. Vi definerte minimumsverdien som 5 og maks. Verdien som 50 og lengden på matrisen er satt til 10. Så det genererer 10 tilfeldige tall fra 5 til 50. Deretter benyttet vi “Print ()” -uttrykket for å skrive ut DataFrame “New_DF”.

Her kan du se en dataaframe med kolonnen "verdier" med 10 verdier.

Nå oppretter vi en annen kolonne som "Value_bins" i den eksisterende DataFrame, i.e. new_df. Vi kaller deretter Pandas Cut (). Vi gir parametrene til kuttmetoden. “X” tildeles navnet på DataFrame/Array som vi trenger å plassere i søpla. I vårt eksempel er det "new_df [verdier]" der "verdi" er navnet på kolonnen som kuttet () brukes. Den andre parameteren for kuttparameteren som vi brukte er "søppelkassen" for å definere kantene på søpla. Her ønsker vi å dele opp dataene i 4 binger fra (5, 20], (20, 30], (30, 40], (40, 50].

I den siste utskriftserklæringen kalte vi "unike ()" -funksjonen som genererer en rekke unike verdier.

Utgangsbildet viser DataFrame med søpla. Du kan legge merke til at "20" også blir lagt til i søpla. Det er et resultat av standard inkludering av høyre kant. Hvis vi ikke trenger det, bruk Cut () -metoden med riktig = falskt alternativ.

Eksempel 2: Merk av binsene

Vi kan legge til etiketter til søppelkassene med Pandas Cut () -funksjonen.

For illustrasjonsformål opprettet vi en dataramme med Pandas DataFrame -funksjonen slik vi opprettet i forrige eksempel. Denne DataFrame inneholder en kolonne “Nummer” som lagrer en rekke størrelse 10 med tilfeldig genererte verdier fra 11 til 32. Deretter oppretter vi en annen kolonne i samme DataFrame og navngir den “Numbers_labels”. Vi påkaller Pandas Cut () -funksjonen. Inne i denne funksjonen nevner vi navnet på kolonnen i vår DataFrame for å bruke Cut () -funksjonen. Siden vi trenger å kutte og segmentere dataene i 2 binger, gir vi 2 grenser for søpla som (11, 22], (22, 32].

Den neste tingen er å definere etikettene til søppelkassene. I "etiketter" -argumentet passerer vi de to uttrykkene som "lavt" og "høydepunkter".

Vi bruker samme prosedyre som før, men i tillegg til å dele resultatene i binger, merker vi nå binsene som høye og lav.

De statistiske verdiene er differensiert til binger. Deretter kan vi observere hvilke tall som er større og hvilke som er mindre. I innkalling av kutt (), setter vi rett = usant fordi vi trenger 10 for å være et element av høydepunkter.

Utgangsbildet viser søppelkassene med "lave" og "høye" etiketter. De små verdiene er merket som lav.

Konklusjon

Denne artikkelen er basert på Pandas Cut () -funksjonen. Det inkluderer introduksjonen til Pandas Cut () -funksjonen samt behovet for å bruke denne metoden. Vi forklarte alle nødvendige detaljer og gjør deg kjent med det grunnleggende om Cut () -funksjonen. Vi utdypet hver parameter for denne funksjonen i lettfattelige vilkår. Vi utførte de praktiske kodeeksemplene implementert på Spyder for å la deg øve på denne metoden med dem. På en lignende måte kan du øve på de andre parametrene for CUT () -funksjonen. Vi gjorde en forsettlig innsats for å gi deg den beste og mest hendige læringsøvelsen og for å hjelpe deg med å lære nye konsepter i programmering.