Pandas gjennomsnitt

Pandas gjennomsnitt
"I denne opplæringen vil vi demonstrere hvordan vi bruker Pandas Mean Technique for å beregne gjennomsnittet. Gjennomsnittet av de numeriske verdiene i en Pandas -serie eller Pandas DataFrame bestemmes ved bruk av middel- () -funksjonen. Et av verktøyene som forenkler prosessen med å importere og evaluere datapandaer i stor grad er en av dem. Gjennomsnittsverdien for den valgte aksen returneres av Pandas 'Dataframe.Mean () Funksjon. Hvis metoden brukes på et Pandas -serieobjekt, produserer den et skalarnummer som representerer gjennomsnittet av alle data eller forekomster i DataFrame. Det er vanlig å bruke dette verktøyet på en enkelt kolonne DataFrame, men gjennomsnittlig () -funksjonen i Pandas kan fungere på hele Pandas DataFrames, serieobjekter og individuelle DataFrame -kolonner.”

Hvordan bruke Pandas gjennomsnittsfunksjon?

Vi må først forstå syntaksen før vi ser på hvordan du bruker gjennomsnittlig () -metoden for å beregne gjennomsnittet. Avhengig av hva slags objekt du bruker, vil Pandas Mean -metoden bestemme syntaks. Gjennomsnitt () kan brukes på DataFrame, Series og individuelle kolonner i DataFrame.

Syntaks for å bruke gjennomsnittlig () -funksjonen for DataFrames

Følgende er syntaksen for å bruke middelfunksjonen () på en dataaframe.

Syntaks: df.mener( )

Du må skrive inn DataFrame -navnet ditt etterfulgt av.middel () for å påkalle metoden når du bruker middel () på en hel dataframe. Gjennomsnittet () prøver som standard å operere på hver kolonne når den brukes på en hel dataaframe. Imidlertid består utgangen vanligvis bare av midlene til numeriske variabler. Du kan også bruke noen få ekstra valgfrie parametere for å endre utfallet vi får litt ved å bruke middel- () -funksjonen.

Syntaks for å bruke middelfunksjonen for Pandas -serien

Når du bruker gjennomsnittlig () -teknikk på en serie, er syntaksen ganske lik den for en DataFrame.

Syntaks: serie.mener( )

Det er noen argumenter du kan bruke for å endre resultatene når du bruker Mean () på en serie, akkurat som med DataFrames.

Syntaks for å bruke middelfunksjonen () for individuelle kolonner i DataFrame

Siden DataFrame -kolonner er Pandas -serieobjekter, krever bruk av Pandas Mean på en kolonne to trinn: Bruke DOT -syntaks for å hente den spesifiserte kolonnen og deretter kalle middel () -funksjonen.

Syntaks: df.kolonne.mener( )

For eksempel vil du bruke koden “DF.kolonne.mean () ”Hvis DataFrame heter DF og kolonnen du ønsker å operere på, kalles“ kolonne ”. Den vil da beregne gjennomsnittet for akkurat den ene kolonnen.

Parametere

akser: Dette er en referanse til aksen for funksjonen som skal brukes.

Skipna: Det inkluderer ikke nullverdier i beregningen av resultatet.

nivå: Hvis aksen er en multiindex, teller den sammen med det nivået og kollapser i en serie.

Numeric_only:

Bare int, float og boolske kolonner er til stede. Hvis ingen, vil den prøve å bruke alt før du bruker bare numerisk informasjon. Ikke brukt til serien.

Returnerer: Hvis nivået er spesifisert, gir det gjennomsnittet av DataFrame eller Series.

Nå har vi forstått syntaksen, så la oss fortsette videre for å implementere den i eksemplene nedenfor.

Eksempel 1: Finn gjennomsnittsverdien for DataFrame -kolonnen

Først vil Pandas og Numpy -modulene bli importert, så lager vi vår dataframe. La oss opprette et utvalg DataFrame som har data fra ansatte i et selskap.


Vi har produsert en dataaframe ved å bruke PD.DataFrame () -funksjonen og lagret posten til 10 ansatte i DF DataFrame ved å passere parametere inne i PD.DataFrame () i.e. EMP, kolonner og indeks. PRINT () -funksjonen brukes til å visualisere DataFrame.

La oss beregne gjennomsnittet av en enkelt kolonne i en DataFrame. Her finner vi gjennomsnittet/gjennomsnittet av aldersvariabelen.


Aldersvariabelen blir i dette tilfellet hentet ved hjelp av “Dot Syntax.”Vi bruker koden DF.alder for å oppnå det. Men like etter beregner vi gjennomsnittet ved å bruke .mener(). Dette trekker i hovedsak alderskolonnen fra DF DataFrame og beregner gjennomsnittet av den kolonnen.

Eksempel nr. 2: Finn gjennomsnittet av hele DataFrame

La oss deretter bruke gjennomsnittlig () -metoden på en hel DF DataFrame, som vi har laget i eksempel nr. 1 som følger:


Ovennevnte skript vil beregne gjennomsnittet av alle numeriske kolonner i vår DF DataFrame.


Gjennomsnittlig () -metoden beregnet gjennomsnittet av hver numerisk variabel når gjennomsnitt () ble kalt på hele DataFrame. Derfor beregnet det gjennomsnittsalderen, lønnen og bonusen til DF DataFrame. Således, ved bruk av gjennomsnittlig () -metoden på hele DataFrame, er gjennomsnittsalderen 27.000000, gjennomsnittlig lønn er 17650.000000, og gjennomsnittlig bonus er 2055.555556.

Eksempel nr. 3: Finn gjennomsnittet av DataFrame, inkludert manglende verdier

Har du lagt merke til at det er de samme manglende verdiene i vår DF DataFrame? Skipna -alternativet til gjennomsnittet () er alltid konfigurert som Skipna = True som standard. Pandas Mean () ignorerer manglende verdier hvis Skipna -alternativet er satt til True. Ved å spesifisere skipna = falsk, kan vi deaktivere det.


Gjennomsnittet av kolonner som har manglende verdier vil være NAN.


Alder og bonus kolonne betyr begge nan. Dette skyldes manglende verdier i alders- og bonusvariabler som nå er inkludert i utgangen. Du kan velge å hoppe over disse verdiene når en variabel har dem ved å sette skipna = sant. Alternativt vil du bruke Pandas Fillna -metoden for å fylle ut de manglende verdiene.

Eksempel 4: Finn gjennomsnittet gruppert etter en kategorisk variabel

Her beregnes gjennomsnittslønnen med bonus. Dette involverte noen trinn:

    1. gruppere dataene etter bonus ved bruk av Groupby ()
    2. Hent lønnsvariabelen
    3. Ring middelfunksjonen ()


Som du kan se, bruk .Groupby ([Bonus]) har konvertert verdiene for bonus som en gruppe der dataverdien skjedde mer enn en gang (2000 skjedde 3 ganger). Koden df.Groupby (['Bonus']).Lønn.Gjennomsnitt () beregnet gjennomsnittet av lønnsverdier mot de grupperte verdiene for bonusvariabelen.

Eksempel 5: Beregn det betingede gjennomsnittet for den kategoriske variabelen

Den samme DF DataFrame vil også bli brukt i dette eksemplet. Følgende kode viser hvordan du bestemmer gjennomsnittet for "lønn" -kolonnen for bare radene til DataFrame når "bonus" -kolonnen har en verdi større enn 1800.


Et sett med rader og kolonner kan nås ved hjelp av DF. loc [] eiendom etter etiketter. I koden ovenfor kan du se at gjennomsnittslønnen for rader med bonuser større enn 1800 vises i lønnskolonnen. Det betyr at gjennomsnittslønnen til de personene/ansatte hvis bonus er større enn 1800 er 16500.0.

Konklusjon

For å bestemme gjennomsnittsverdien til en Pandas -serie eller dataramme, bruker vi gjennomsnittlig () -metoden. Du skal nå ha en bedre forståelse av arbeidet med Pandas Mean Method etter å ha gått gjennom denne artikkelen. For å bestemme gjennomsnittsverdien til en Pandas dataaframe eller serie, brukes middelmetoden (). Med eksemplene prøvde vi å lære deg hvordan du finner gjennomsnittet av en kolonne i en dataframme, finne gjennomsnittet gruppert av en kategorisk variabel, og hvordan finne betinget middel ved bruk av middel- () -funksjonen.