Pandas Groupby gjennomsnitt

Pandas Groupby gjennomsnitt

Når vi legger til to eller flere verdier sammen og summen deres er delt av det totale antallet verdier lagt sammen, er resultatet et gjennomsnitt. Pandas Mean Returns Datas eller verdens gjennomsnitt langs en gitt akse. En serie med gjennomsnittet på tvers av en akse vil bli returnert med pandaer hvis middelmetoden () blir brukt på en dataaframe. Pandas returnerer en numerisk verdi (enkelt tall) hvis "middel ()" brukes på en serie. Funksjonene kan brukes på kategoriene etter å ha opprettet kategorienes grupper. Det er en enkel idé, men en svært effektiv teknikk som ofte brukes i datavitenskap. Det lar oss lage et sammendrag av dataene for hver gruppe, bruke gruppespesifikke modifikasjoner og utføre datafiltrering. Med GroupBy () -funksjonen kan objektet deles, en funksjon kan brukes, og produktene kan deretter kombineres. Store datasett kan grupperes med dette, og operasjoner kan utføres på gruppene.

Hvordan bruke Groupby.Gjennomsnitt () Metode i pandaer?

For å beregne gjennomsnittet av en dataaframe eller gjennomsnittet av spesifikke kolonner i en dataaframe, kan vi bruke gruppenbyen.Mean () Funksjon. Vi vil demonstrere hvordan du bruker det i følgende eksempler.

Eksempel nr. 01: Bestem gjennomsnittet av en enkelt heltallskolonne ved å gruppere dataene til en enkelt kolonne

Ved hjelp av PD.DataFrame () -funksjonen, vi vil først opprette en DataFrame slik at vi kan dele dataene til kolonnen eller kolonnene i DataFrame i grupper og deretter finne deres middelverdi. Før vi oppretter datarammen, må vi importere Pandas -modulen sammen med Numpy Library.

Som det kan sees, har vi laget vår datafram ved å bruke Pandas Dictionary. Vi har 3 kolonner i vår DF DataFrame, jeg.e., 'varer', 'produsent' og 'kvantitet'. I kolonnen 'gjenstander' har vi lagret verdiene ('skjorte', 'slips', 'bukser', 'skjorte', 'slips', 'bukser', 'skjorte', 'bukser', 'bukser', ' slips '), mens kolonnene' produsent 'og' kvantitet 'som inneholder verdiene (' Italia ',' Frankrike ',' Kina ',' Frankrike ',' Kina ',' Italia ',' Kina ',' Italia ', 'Frankrike', 'Kina') og (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). La oss gruppere verdiene i produsentkolonnen og bestemme gjennomsnittlig mengdeverdi for hver distinkte produsent.

Produsentverdien 'Kina' har en gjennomsnittlig mengdeverdi på 21.5, den gjennomsnittlige mengdeverdien for 'Frankrike' er 20.0, og gjennomsnittlig mengdeverdi for 'Italia' er 32.0. Vi kan også spesifisere en indeks til utdataene ved å bruke RESET_INDEX -funksjonen med Groupby.Mean () Funksjon.

Eksempel # 02: Finn gjennomsnittet av en enkelt float -kolonne ved å gruppere dataene til en enkelt kolonne

Vi har sett hvordan vi kan finne gjennomsnittet av heltallkolonnen etter gruppering av dataene. La oss nå prøve en annen datatype -kolonne som Float. En dataaframe med minst en kolonne med flyteverdier vil bli opprettet ved hjelp av PD.DataFrame () -funksjon.

Ved å sette en ordbok inne i PD.DataFrame (), vi har opprettet en DataFrame med tre kolonner. Kolonnen 'Navn' lagrer navnene på noen tilfeldige spillere ('Sam', 'Jay', 'Leo', 'Mike', 'Will', 'Billy', 'Jhonny', 'Lara', 'Hanna', 'Tony'), kolonnen 'Team' som representerer laget som hver spiller tilhører ('A', 'A', 'B', 'A', 'B', 'A', 'C', 'B ',' C ',' C ') og kolonnen' Høyde 'lagrer høydene til hver spiller som en flyteverdi (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). La oss gruppere dataene i kolonnen 'Team' og bestemme den gjennomsnittlige høydeverdien for hver distinkte 'team' verdi.

Du kan se at den gjennomsnittlige høydeverdien til lag A -spillere er 5.65, mens de gjennomsnittlige høydene på spillere i lag B og C er 5.866 og 5.6, henholdsvis.

Eksempel nr. 03: Bestem gjennomsnittet av flere kolonner ved bruk av Groupby.Mean () Funksjon

I de tidligere eksemplene bestemte vi gjennomsnittet av en enkelt kolonne. Imidlertid kan gjennomsnittet av mange kolonner for hver gruppe også bestemmes. La oss lage en dataaframe som har mer enn en numerisk kolonne, etter å ha importert pandaene og numpy modulene.

I det nyopprettede DataFrame er det tre kolonner med etikettene 'Navn', 'Score' og 'Matches'. Kolonnenavnene som har dataverdiene som en streng ('Ron', 'Jim', 'Dany', 'Jim', 'Jim', 'Dany', 'Ron', 'Ron', 'Dany', 'Jim' ), mens 'poengsummen' og 'kampene' består av numeriske data som (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) og (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). La oss nå finne gjennomsnittet av kolonnen 'Score' og 'Matches' etter å ha gruppert dataene fra kolonnen 'Navn'. Groupby.Gjennomsnitt () -funksjonen vil bli brukt til dette.

Det kan legges merke til at gruppen 'Dany' har en gjennomsnittlig poengsum på 2.66 i 2.00 kamper. Gruppen Jim har en gjennomsnittlig poengsum på 2.75 og gjennomsnittsverdien av spillene som spilles er 1.75. Mens gruppen 'Ron' har en gjennomsnittlig poengverdi på 2.66 og middelverdien av spillene som er spilt er 2.33.

Gjennomsnittet av en gruppe kategorier av objektet kan også beregnes ved bruk av AGG () -metoden. Vi vil levere gjennomsnittet som et argument til AGG () -funksjonen. For å samle ved hjelp av enkelt- eller flere operasjoner på tvers av den gitte aksen, kan vi bruke AGG () -funksjonen.

Utgangen er den samme som før.

Eksempel nr. 04: Bestem gjennomsnittet av spesifikke kolonner ved å gruppere flere kolonner

I eksempler 1, 2 og 3 har vi gruppert verdiene eller dataene til en enkelt kolonne. Nå vil vi gruppere flere kolonner ved å bruke listen over kolonnetiketter i GroupBy () -funksjonen, og så finner vi gjennomsnittsverdien for hver gruppe. En ordbok 'D' vil bli passert inne i PD.DataFrame () -funksjonen som en inngang for å lage DataFrame.

Vi har laget den nødvendige DataFrame. Kolonnen 'Sports' lagrer navnet på noen idretter ('badminton', 'fotball', 'Tennis', 'Basketball', 'Football', 'Tennis', 'Basketball', 'Football', 'Badminton', ' Basketball ',' Basketball ',' Tennis '), navnene på land (' Kina ',' Russland ',' Italia ',' Spania ',' Russland ',' Italia ',' Kina ',' Italia ',' Spania ',' Kina ',' Russland ',' Italia ') er lagret i spalten' Country '. Mens vi i kolonnen 'Win' har lagret antall kamper vunnet av hvert land i hver idrett (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). La oss bruke Groupby.Gjennomsnitt () Funksjon for å finne gjennomsnittet av 'Win' kolonneverdiene ved å gruppere kolonnene 'Sports' og 'Country'.

Funksjonen har vellykket bestemt gjennomsnittet av 'Win' kolonneverdier for hver idrett i landet. Den grupperte DataFrame kan tilbakestilles ved hjelp av RESET_INDEX () -funksjonen, som også genererer en ny indeks, og gir den en passende DataFrame-struktur.

En indeks legges til for hver DataFrames rad. For å ordne resultatene i en attraktiv tabell, kan vi også bruke Pivot () -funksjonen.

Konklusjon

I denne opplæringen har vi diskutert hva gjennomsnittet eller gjennomsnittet av tall er og hvordan du finner gjennomsnittet av en spesifikk kolonne (en eller flere) etter gruppering av kolonnen eller kolonnene i en datafram. Vi implementerte noen få eksempler i denne artikkelen for å lære deg hvordan du kan bestemme gjennomsnittet av et enkelt heltall eller float -kolonne ved å gruppere dataene til en enkelt kolonne; Hvordan bestemme gjennomsnittet av flere kolonner ved bruk av Groupby.gjennomsnitt () funksjon; og også hvordan du bestemmer gjennomsnittet av spesifikke kolonner ved å gruppere flere kolonner.