Pandas sammendragsstatistikk

“Pandas” er et flott språk for å utføre analysen av data på grunn av dets store økosystem av datasentriske Python-pakker. Det gjør analysen og importen av begge faktorene enklere. Pandas DataFrame gir måter også for å oppsummere de numeriske verdiene som er til stede i DataFrame. Merk at det er viktig å få statistikksammendraget i et hvilket som helst felt for ytterligere dataytelsesanalyse i henhold til statistikken. Statistikkberegningene inkluderer det aritmetiske gjennomsnittet som stedene eller tendensene som gjenopplives, standardavviket, gjennomsnittlig avvik i henhold til dataformen, og tiltak som evaluerer i henhold til DataFrame som jobber med. Vi vil diskutere alle metodene for sammendragsstatistikkberegningen i pandaer. Vi vil bruke "Spyder" -verktøyet for kodeimplementeringen, som er et "Python" språkvennlig miljø.

Syntaks:

“Statistikk = DF.beskrive (verdi) ”

Den forrige syntaks brukes til å beregne sammendragsstatistikken i pandaer. “DF” i syntaks representerer “DataFrame”. Mens "beskrivet" brukes i den spesifikke raden eller kolonnen som definerer "DF". "Verdien" er verdien av raden eller kolonnen som funksjonen må utføres som er tildelt statistikken. Funksjonen ".beskrive () ”gir utgangsresultatene som det flotte formatet som vises i DataFrame. Metoden kjører sammendragsstatistikken i dataaframmen til de numeriske kolonnene som er inkludert. Metodene inkluderer "gjennomsnittet", "unike verdier", "min", "maks" og "count".

Her vises følgende måter der sammendragsstatistikken over pandaer kan gjøres. Vi vil implementere hver av dem i eksemplet for en bedre forståelse av metoden:

Sammendragsstatistikkberegninger i pandaer for alle numeriske variabler
Sammendragsstatistikkberegning i Pandas gruppert etter en variabel
Sammendragsstatistikkberegninger i pandaer for alle strengvariabler

Opprette en DataFrame for eksemplet utførelse av beregningene i Pandas sammendragsstatistikk

Åpne først verktøyet "Spyder" for å implementere koden. Importer deretter Panadas -biblioteket som "PD" og Numpy -biblioteket som "NP". Numpy brukes til numerisk beregning. Begynn å lage DataFrame, som består av teamet som “N” og “W” med sine score som “44”, “41”, “42”, “43”, “45”, “47”, “48”, og “50”. Assistentene er som "2", "NP. Nan ”,“ 4 ”,“ 5 ”,“ 6 ”,“ 7 ”,“ 8 ”og“ 9 ”. Verdien av reboundene vil være som “18”, “20”, “17”, “16”, “11”, “12”, “29”, “NP.Nan ”, og“ 25 ”. “NP.Nan ”er NP for“ Numpy ”og Nan står for“ ikke en verdi ”, noe som betyr at det ikke er noen verdi tilordnet der. Gi deretter tilstanden "trykk" DataFrame. "Print ()" -funksjonen fungerer for å skrive ut resultatene av koden og skrive resultatene i henhold til meldingen.

Utgangen viser den opprettede DataFrame i samsvar med verdiene som er tilordnet i koden. Det er "fire" kolonnene: teamet, score, assists og rebounds.

Eksempel nr. 01: Beregninger av sammendragsstatistikk i pandaer for alle numeriske variabler

I dette eksemplet lærer vi hvordan du beregner sammendragsstatistikken i pandaer for alle numeriske variabler. Dataframe består av teamet som “O” og “V”; De scoret “45”, “88”, “25”, “55”, “24”, “78”, “87”, “40” og “20”. Hjelpene er “2”, “11”, “1”, “3”, “6”, “4”, “2”, “10” og “NP.Nan ”. Reboundene er “31”, “32”, “33”, “34”, “35”, “37”, “38”, “Null” og “39”. DataFrame “Beskriv” -funksjonen vil beregne den numeriske variabelen i DataFrame of Pandas sammendragsstatistikk.

Utgangen viser kolonnene i numeriske kolonner, som er "score", "assist" og "returer". Tellingen gjør arbeidet med å telle “ikke null” -verdiene. Gjennomsnittet er for de "gjennomsnittlige" verdiene, kjønnssykdommer for beregning av standardavvikverdier, min er for minverdien som betyr beregning av minimumsverdiene, og maks for maksimal verdiberegning, 25 prosent, 50 prosent, og 75 prosent er for verdiene hensyn.

Eksempel nr. 02: Beregning av sammendragsstatistikk i pandaer for gruppert av en variabel:

Vi vil utføre gruppeberegningen med en variabel i dataframmen til sammendragsstatistikken i pandaer i dette eksemplet. Dataframe består av de to lagene som “M” og “Q” med sine score som “59”, “58”, “56”, “50”, “51”, “53”, “54” og “55 ”. Assists verdier som "null", "7", "17", "18", "5", "3", "6", "21" og "15". Rebounds verdier som “81”, “82”, “60”, “30”, “24”, “97”, “56”, “Null” og “71”. Groupby -funksjonen med teaminntekter er tilstanden som er overført med "Dot" "Mean ()" -beregningen som bringer oss til resultatene av Pandas sammendragsstatistikk. Her vil gjennomsnittet bli beregnet med "numpy", for å beregne den løpende numpy -matrisen.

Utgangen viser beregningen av sammendragsstatistikken i pandaer. "M 'og" Q "-teamene som viser med beregningene, ettersom toppen har verdiene som forekommer hyppigst i" DF "," freq "er frekvensantallet for den mest forekommende verdien i" DF ", og “Unik” brukes til de mest unike verdiene i DataFrame. Det er bakgrunnsoperasjonene som er utført for beregning av gruppen for alle variablene i sammendrag av statistikk over pandaer.

Eksempel # 03: Beregninger av sammendragsstatistikk i pandaer for alle strengvariablene

I dette eksemplet vil vi implementere beregningen av alle strengvariablene i pandaene for sammendragsstatistikken. Dataframe har lagene som "S" og "D". Resultatene på lagene er “59”, “53”, “96”, “80”, “85”, “62”, “27”, “22” og “21”. Assists -verdiene som "null", "8", "27", "50", "15", "31", "61", "11" og "17", og returene består av verdiene “70 ”,“ 84 ”,“ 30 ”,“ 20 ”,“ 94 ”,“ 95 ”,“ 90 ”,“ Null ”og“ 91 ”. Tilstanden vil bli gitt ut for beregningen som er utført i DataFrame som spesifiserer "beskriv" -funksjonen og i braketten "inkluderer" lik "objektet". Dette vil gi oss den beregnede dataframmen for alle strengvariablene i sammendrag av statistikk over pandaer.

Produktene kom av som medianverdien for kolonnene med "poeng", "returer" og "assists" strengvariabler som er gruppert av variabelen "team". Utgangen er som "Count, Unique, Top, Freq" verdiene deres er som "9", "2", "D" og "5".

Konklusjon

Pandas er raske og enkle å bruke på biblioteket. Pandas sammendragsstatistikk er en så nyttig og nyttig funksjon vi brukte i Pandas. Det har kommet med forskjellige metoder for forskjellige situasjoner. Vi har utført alle måtene Pandas sammendragsstatistikk kan beregnes i DataFrame. Det forrige eksemplet ga en enorm forklaring på hvordan du utfører hver og en av dem. Vi har fullført statistikksammendragsberegningen i Pandaer for strengvariabelen som er til stede i DataFrame, statistikkberegningen i Pandaer for gruppen av en variabel tilgjengelig i DataFrame, og til slutt har vi også utført eksemplet på sammendragsstatistikkberegningen av alle de numeriske verdiene i DataFrame. Sammendragsstatistikkberegninger spiller en stor rolle i bransjer og selskaper.

Docker

Hva er formålet med en Docker-komponering.YML -fil i Docker?

Hovedformålet med en “Docker-Compose.YML ”-filen er å forenkle prosessen med å distribuere og admini...

Elias Krogh Svendsen

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

Python

Konverter en streng til Json Python

JSON -modulen fungerer, AST -modulfunksjonen eller eval () -funksjonen brukes til å konvertere en st...

Erik Røed