Pandas -binger

Pandas -binger
I denne opplæringen lærer du om Cut () og QCUT () -funksjonene, de to forskjellige Pandas -metodene for å binde dataene dine. Du kan binde dataene i like store og tilpassede binger. Mens det å sette dataene i tilpassede søppelkasser kan hjelpe deg med å få et innblikk i de logiske kategoriseringsklassifiseringene, gjør de like store binger det enkelt å forstå distribusjonen. Binning av dataene kan utføres ved hjelp av CUT () og QCUT () -funksjonene.

Kutt () funksjon

Når det er påkrevd å sortere og segmentere dataverdiene i binger, bruker du CUT () -metoden. Cut () -metoden fungerer bare med objektene som endimensjonale matriser. Cut () -metoden utfører statistisk analyse på et stort sett med skalar/numeriske data. Denne funksjonen kan også konvertere elementene i en matrise til forskjellige binger.

Syntaks:

Pandas.kutt (data, binger, til høyre, etiketter, retbins)

Parametere:

  1. x: Unidimensjonal matrise; matrisen som vi vil ha bin.
  2. binger: Søppelkanter er definert for segmenteringen.
  3. Ikke sant: Dette er satt til sant som standard. Det indikerer om den høyre kant av søppelkantene er inkludert eller ikke
  4. Etiketter: Kan være en bool eller en rekke, og den er valgfri. Etikettene for de påfylte søppelkassene er spesifisert. Lengden må samsvare med de produserte søppelkassene. Hvis det er usant, er det bare heltallsindikatorene.
  5. Retbins: Bool, falsk som standard. Om søppelkassene returneres eller ikke. Når søppelkassene blir levert som en skalar, er det nyttig.

Eksempel 1: med binsparameter
La oss ha en dataaframe som inneholder 12 heltall i "Values1" -kolonnen. Lag 8 binger i området 15 hver og lagre søppelkassene i "bins" -kolonnen.

Importer pandaer
Numerisk = Pandas.DataFrame ('Values1': [12,34,56,44,45,34,45,32,67,89,100,34])
trykk (numerisk)
# Lag 8 binger
numerisk ['bins'] = pandas.kutt (numerisk ['verdier1'], bins = [1,15,30,45,60,75,90,105])
skrive ut()
trykk (numerisk)
skrive ut()
Print (Numeric ['Bins'].unik())

Produksjon:

Forklaring:
Søppelkassene er laget for alle verdier. Vi viser også søppelstørrelsene ved hjelp av den unike () funksjonen. Nå kan du se at en søppel er tildelt for hver verdi.

Eksempel 2: med etiketter parameter
Lag 5 binger i området 10 hver og lagre søppelkassene i "binger" -kolonnen for dataaframet med 7 rader.

Importer pandaer
Numerisk = Pandas.DataFrame ('Values1': [2,5,12,32,20,3,10])
# Lag 5 binger og spesifiser etiketter for hver søppel.
numerisk ['bins'] = pandas.kutt (numerisk ['verdier1'], bins = [1,10,20,30,40], etiketter = ['First', 'Second', 'Third', 'Last'])
skrive ut()
trykk (numerisk)

Produksjon:

Forklaring:
Søppelkassene er laget for alle verdier.

  1. For [1-10] bin er etiketten "først". Verdiene 2, 5, 3 og 10 faller under den første søpla.
  2. For [11-20] søppelkassen er etiketten “Second”. Verdiene 12 og 20 faller under den andre søpla.
  3. For [21-30] bin er etiketten "tredje". Ingen verdier er i dette området.
  4. For [31-40] -kassen er etiketten "sist". Verdien 32 faller under denne søpla.

QCut () -funksjon

QCUT () -funksjonen er kjent som en "kvantebasert diskretisering" -metode. Dette betyr at QCUT () brukes til å lage de like store binger ved å dele de underliggende dataene. QCUT () -funksjonen er også kjent som "kvantbasert diskretiseringsfunksjon". Dette betyr at QCUT () brukes til å dele de underliggende dataene i søppelkassene i like store størrelser.

Syntaks:

Pandas.kutt (data, q, til høyre, etiketter, retbins)

Parametere:

  1. x: Unidimensjonal matrise, matrisen som vi vil ha bin.
  2. q: Antall kvantiler.
  3. Ikke sant: Dette er satt til sant som standard. Det indikerer om den høyre kant av søppelkantene er inkludert eller ikke.
  4. Etiketter: Kan være en bool eller en rekke, og den er valgfri. Etikettene for de påfylte søppelkassene er spesifisert. Lengden må samsvare med de produserte søppelkassene. Hvis det er usant, er det bare heltallsindikatorene.
  5. Retbins: Bool, falsk som standard. Om søppelkassene returneres eller ikke. Når søppelkassene blir levert som en skalar, er det nyttig.

Eksempel 1:
La oss ha et dataafram som inneholder 12 heltall i både “Verdier1” og “Verdier2” -kolonner. Lag 2 kvantiler for begge kolonnene.

Importer pandaer
Numerisk = Pandas.DataFrame ('Values1': [12,34,56,44,45,34,45,32,67,89,100,34],
'Verdier2': [11,22,33,44,55,66,77,88,99,100,12,12])
trykk (numerisk)
# Lag 2 kvantiler for verdier1 kolonne
Numerisk ['Bin Values ​​1'] = Pandas.QCUT (Numeric ['Values1'], 2)
# Lag 2 binger for verdier1 kolonne
Numerisk ['Bin Values ​​2'] = Pandas.QCUT (Numeric ['Values2'], 2)
skrive ut()
trykk (numerisk)

Produksjon:

Forklaring:
Vi opprettet 2 kvantiler for hver kolonne. Nå kan du se at hver kvantil har et like stort antall verdier.

  1. I kolonnen "Verdier1" er kvantilene (11.999, 44.5] og (44.5, 100.0]. Det er 6 for begge kvantilene.
  2. I kolonnen "Verdier2" er kvantilene (10.999, 49.5] og (49.5, 100.0]. Det er 6 for begge kvantilene.

Eksempel 2: QCut () vs Cut ()
La oss ha et dataafram som inneholder 12 heltall i både “Verdier1” og “Verdier2” -kolonner. Nå, ved hjelp av kutt (), lager du to binger. Og ved hjelp av QCut (), lag 2 kvantiler for "Values2" -kolonnen.

Importer pandaer
Numerisk = Pandas.DataFrame ('Values1': [12,34,56,44,45,34,45,32,67,89,100,34],
'Verdier2': [11,22,33,44,55,66,77,88,99,100,12,12])
# Lag 2 kvantiler for verdier2 kolonne
numerisk ['qcut ()'] = pandas.QCUT (Numerisk ['Verdier2'], Q = 2)
# Lag 2 binger for verdier2 kolonne
Numerisk ['Cut ()'] = Pandas.kutt (numerisk ['verdier2'], binger = 2)
print (numeric ['qcut ()'])
skrive ut()
print (numeric ['cut ()'])

Produksjon:

Forklaring:
Nå ser du den faktiske forskjellen:

QCut () grupperer dataene i like deler. Seks (6) verdier kommer under (10.999, 49.5] og ytterligere 6 under (49.5, 100.0]. Mens i kutt () er 7 verdier under (10.911, 55.5] og ytterligere 5 verdier kommer under (10.911, 55.5].

Konklusjon

Vi diskuterte om CUT () og QCUT () funksjoner for å binde dataene i Pandas Python. Vi så syntaks for begge funksjonene og beskrev deres parametere for å hjelpe deg mens du brukte disse funksjonene. I eksemplene på denne opplæringen viste vi deg hvordan du kan segmentere dataene i binger, merke binsene og hvordan du bruker de like store størrelsesdataene ved å bruke CUT () og QCUT () -funksjoner. Nå kan det hende du kan binde dataene på egen hånd ved å bruke disse funksjonene.