Pandas varians

Pandas varians
"" Pandas "er et bibliotek med programvare som er skrevet på Python -språket for å utføre analyse og manipulering av data. Hva om vi vil vite graden av spredning i DataFrame? Variansen brukes til å utføre denne oppgaven. Det brukes til å representere en måling mellom tallene i dataene om spredningen. Pandaene har kommet med variansfunksjonen, som vil fortelle graden av datasettet. Funksjonen for Panda -variansen er “var ()”. Jo mer data er spredt, jo mer er variansen i forhold til gjennomsnittet. Senere vil vi utføre alt hvordan pandasvarians kan brukes. For kodeimplementering i eksemplet vil vi bruke programvaren “Spyder”, en Python-språkvennlig programvare.”

Syntaks

# “DF.var () ”

Ovennevnte syntaks brukes for å beregne variansen i DataFrame. “DF” i syntaks representerer “DataFrame”.

Vi vil utføre følgende metode for eksempelforklaring av funksjonen til Pandas -varians:

  • Pandas variansberegning for en enkelt kolonne i DataFrame.
  • Pandas variansberegning av en enkelt kolonne i DataFrame ved å endre argumentet.
  • Pandas variansberegning for flere kolonner i DataFrame.
  • Pandas -varians for beregning av hele DataFrame -kolonnene.

Opprette DataFrame for eksemplet implementering av Pandas -variansen

Åpne verktøyet "Spyder" på skrivebordet/bærbar PC. Importer først Pandas -biblioteket som "PD" når vi kjører i Pandas miljø. La oss lage en dataaframe; "DF" består av navnene "Tom", "Eddie", "Sam", "Leo" og "Nick" med deres aldre som "25", "44", "66", "55" og "78 ”. Vi har de manglende dataene i aldre som “20”, “30”, “40”, “50” og “Manglende verdi”, også vi har inntektene deres i DataFrame som “78000”, “70000”, “66000” , “33000” og “68000”. Og så vil vi skrive ut "DF" -tilstanden som skal brukes til å bygge Datafarame.

DataFrame er opprettet når vi ser skjermen som viser kolonnene og verdien vi tildeles i koden. Vi kan se at det er en "nan" skrevet i den manglende datakolonnen i den siste, noe som betyr at den er "ikke et tall" og at det ikke er noen verdi tilordnet der.

Eksempel # 01: Pandas variansberegning for en enkelt kolonne i DataFrame

I dette tilfellet vil vi bestemme variansen til en enkelt kolonne fra DataFrame. "DF" består av de fire kolonnene "Navn", "Age", "Manglende data" og "inntekten". Navnene er "Will", "Tina", "Lily", "Sea" og "Swany" deres aldre er "33", "45", "35", "85" og "78". Aldrene mangler data har verdiene som "30", "40", "60", "80" og det manglende begrepet som "ingen" inntektene er som "99000", "88000", "77000", "55000" , og “68000”. Siden vi vil beregne en enkelt kolonnevarians, må vi spesifisere et kolonnenavn med variansen, for eksempel "inntekt_varience"; Her er "inntekt" -kolonnen valgt for beregning av variansen. Funksjonen var () med “DF” og inntektskolonnen som er spesifisert.

Utgangen viser den beregnede variansen til kolonnen "inntekt" ved å bruke Pandas var () -funksjonen.

Eksempel # 02: Pandas variansberegning av enkeltsøyle i DataFrame ved bruk av DDOF

Her vil vi bruke DDOF -argumentet for beregning av varians i en enkelt kolonne. I DataFrame består Dataframe av navnene “Shein”, “Rose”, “Allen”, “Wilson” og “Dom” tidene som “44”, “23”, “55”, “36” og og “41”. Inntektene som “39000”, “8400”, “57000”, “54000” og “55000” og ha den manglende aldre datakolonnen som “20”, “22”, “23”, “25” og “Ingen ”. Spørsmålet begynner med at bruken av argumentet endres til “0”. Svaret er at Pandas-standarden er satt opp som n-1 som "nevneren", og hvis vi vil bruke "n" som nevneren, så må vi bruke "DDOF" -argumentet og endre verdien til " 0 ”i stedet for“ 1 ”.

"Av" er forkortelsen av "Delta -frihetsgraden" den fungerer som delingen som brukes i beregningen som "n", der den representerer antall elementer. Her kan også kolonnen velges ved valg av deg som ved arbeidet som trengs, vi kan beregne variansen til noen av kolonnene som består av numeriske verdier. Kolonnen "inntekt" er valgt her også for beregning av varians.

Displayet viser den beregnede variansen av kolonneinntektene som “212560000” ved å bruke argumentet DDOF satt til “0”:

Eksempel # 03: Pandas varians for beregning av flere kolonner i DataFrame

I det første eksemplet har vi gjort eksemplet på hvordan du beregner variansen i pandaer i enkeltkolonnen i DataFrame. Nå vil vi beregne variansen i flere kolonner ved å bruke Pandas var () -funksjonen. Dataframe består av navn som “Nina”, “Ruby”, “Ali”, “Peter” og “Lisa”, med tidene “55”, “85”, “45”, “31” og “51”. De manglende verdidataene i aldre har verdiene som “21”, “32”, “20”, “36” og den manglende begrepet. Vi har inntektene til disse individene som “70000”, “47000”, “62000”, “45000” og “56000”.

Vi har valgt kolonnene "aldre" og kolonnen "inntekt" for variansberegningen i pandaer. Vi kan bestemme kolonnene og angi dem for å beregne varians i henhold til videre analyseytelse.

Produksjonen består av den beregnede variansen til henholdsvis "aldre" og "inntekt" -kolonnen som valgt som valgt. Vi kan se at variansen av forskjellige kolonner vises separat med kolonnens navn.

Eksempel # 04: Pandas varians for beregning av hele DataFrame -kolonnene

I dette eksemplet vil vi implementere Pandas var () -funksjonen for beregning av varians i hele DataFrame. Dataene her inneholder navnene “Fiona”, “Zayn”, “Steeve”, “Henry” og “Olive” deres aldre er “18”, “25”, “35”, “36” og “56”. Alderen manglende kolonnen har verdiene “14”, “12”, “30”, “16” og “Ingen”. Inntektene deres er “80000”, “38000”, “33000”, “95000” og “78000”.

Grunnsyntaksen brukes for hver kolonne i dataframmetisk beregning; DataFrame valgte hele kolonnen med "var ()" -funksjonen. Utskriftsvariansuttalelsen vil skrive ut alle de beregnede avvikene.

Utgangen viser variansberegningene for kolonnene i dataaframet, som var i numeriske verdier. Som "aldre", "manglende aldre" og "inntekt" -kolonnen. Navnkolonnen har tegnene, så deres varians kan ikke beregnes.

Konklusjon

Pandas -variansen er en veldig nyttig, men veldig teknisk funksjon. Det hjelper med å beregne variansen veldig enkelt ved å bruke funksjonen var () av ​​pandaer. I denne artikkelen har vi lært alle metodene med eksempel utførelse av hver enkelt for en bedre forståelse. Vi har gjort en-kolonneberegning av varians i pandaer, beregninger med flere kolonner i pandaer, den med å endre argumentet fra standardinnstillingen, og også variansberegningsapplikasjonen på hele DataFrame. Hver av dem er veldig nyttig på egen hånd, avhengig av bruk og tilstanden etter behov for tid.