Metoder for å fjerne outliers i “Pandas”
Vi kan bruke to metoder i "pandaer" for å fjerne outliers i "pandaer". Disse er:
Disse metodene vil bli brukt til å fjerne “outliers” fra “Pandas” -serien og “Pandas” Dataframe. I denne artikkelen vil vi også illustrere eksempler på hvordan vi bruker disse teknikkene i "Pandas" -koder.
Eksempel # 01:
Vi bruker “Spyder” -verktøyet for å utføre “Pandas” -kodene som presenteres i denne artikkelen. Når vi skal generere "pandas" -koden, må vi "importere" modulene. For å importere modulene til "pandaene", legger vi til "importen" som er nøkkelordet, og så legger vi "pandaer som PD". Det vil hjelpe deg med å få “Pandas” -metodene hvis vi skriver “PD” med navnet på funksjonen vi ønsker å bruke. Deretter importerte vi "Numpy" som også er biblioteket. Vi importerer det som "NP", slik at vi også kan få metodene med navnet "Numpy" -funksjonen som vi vil bruke.
Etter dette har vi erklært "størrelse" som er variabelnavnet, og denne variabelen initialiseres med verdien som er "15". Nå, etter å ha initialisert "størrelsen", erklærer vi også en annen variabel som heter "data" under dette. Denne "data" blir deretter initialisert med “PD.Serie () ”-metode. Når vi har skrevet "PD, får vi metoden" Pandas ". I denne “PD.Serie () ”-metode, vi satte“ NP.tilfeldig.Normal () ”-metode, og dette er metoden for“ Numpy ”-biblioteket fordi vi har lagt til“ NP ”med det. Denne metoden hjelper oss med å lage de normalt distribuerte dataene. Disse dataene opprettes i form av "Pandas" -serien.
Vi passerer "størrelse" -parameteren i den og tilordner variabelen "størrelse" som vi har laget til denne "størrelse" -parameteren. Så det vil generere en tilfeldig serie "pandaer" med størrelsen på "15" og den er endimensjonal. "Data" -variabelen som den tilfeldige serien er lagret, blir deretter sendt til "print ()" -funksjonen, så den hjelper til med å skrive ut den tilfeldige serien på terminalen.
Nå kan vi enkelt skaffe utdataene fra kodene i "Spyder" -appen på to måter. En av dem er å treffe “Shift+Enter” -tastene og den andre er å bruke “Run” -ikonet til dette verktøyet. Nå, etter å ha gjort dette, har vi resultatet av koden på terminalen til dette verktøyet. Utfallet vises også der serien vises som er den tilfeldige serien som vi har generert i "Pandas" -koden. Nå vil vi fjerne outliers fra denne serien nedenfor.
Her justerer vi verdiene “Quantile ()”. Vi har justert “.15 ”som verdien av den første kvantilen, og det er også den laveste kvantilen. Deretter justerte vi “.85 ”verdi som verdien av den andre kvantilen, og det er den høyeste kvantilverdien. Vi har lagt til navnet på serien som er "data". I de firkantede parentesene plasserer vi igjen "data" og skriver deretter "mellom ()" -metoden. Inne i denne metoden har vi lagt til to parametere der den første metoden er den laveste kvantilen og den andre parameteren er den høyeste kvantilet.
Vi har også lagt til denne metoden i "Data1" -variabelen, så når vi utfører denne koden, vil verdiene etter å ha fjernet outliers bli lagret i "Data1" -variabelen. Nå vil det fjerne alle outliers som ligger i den laveste så vel som den høyeste kvantilen. Deretter har vi "trykk" der vi har lagt til "Data1".
Utkjørerne blir fjernet fra serien som vi har generert ovenfor, og bare ni verdier vises. Serien vi har laget ovenfor inneholder 15 verdier, men etter å ha fjernet outliers er det ni verdier.
Eksempel # 02:
Vi importerer også "statistikken" fra "Scipy" -biblioteket fordi vi må bruke denne metoden i denne koden. Vi oppretter et dataaframe der vi bare har lagt til en kolonne som heter "Data". Vi har lagt til “-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 og 1456” til denne “Data” -kolonnen. Vi har også lagret denne DataFrame i "my_df". Deretter skriver vi bare ut "my_df".
Dataframe er gjengitt i dette utfallet. Nå vil vi bruke "Z-score" -metoden på denne dataaframmen for å fjerne outliers.
Vi finner "zscore" ved å bruke "statistikken" med det som vi har importert ovenfor. Vi bruker bare denne metoden når vi importerer "statistikken". Vi har lagt til "Z_score" -kolonnen der vi lagrer "Zscore" -verdiene. For å finne "Zscore" -verdiene til "Data" -kolonnen, har vi lagt til DataFrame og kolonnenavn i denne metoden. Deretter gjengir vi også "my_data" der "z_score" -kolonnen også er lagt til.
To kolonner vises i dette utfallet. Kolonnen "Data", som vi har lagt til i DataFrame og den andre er "Z_Score" -kolonnen, inneholder "Zscore" -verdiene som vi får ved å bruke "Statistikk.ZsCore () ”-metode. Her kan du merke deg at alle verdier, som er til stede i kolonnen "Z_score", er negative, men den siste er den positive verdien. Så det betyr at det er outlier og vi må fjerne det.
I følge de empiriske kriteriene er outliers verdiene til Z-poengsummen som er større enn 3. Så vi har lagt til "LOC" -metoden for å filtrere de radene der verdien av "Z_Score" er mindre enn 3 eller lik 3, og den viser også disse radene i utfallet fordi denne metoden er skrevet i "utskriften ( ) ”. Alle andre verdier er outliers og vil bli fjernet fra denne dataframmen.
Her vises alle verdier som er mindre enn 3. Den siste verdien fjernes fordi den var større enn 3 og den var outlier i denne dataaframen.
Konklusjon
Denne artikkelen presenteres for å beskrive "Pandas Fjern outliers" -konseptet i detalj. Vi har diskutert i denne artikkelen at verdiene som er til stede i et datasett som anses å være ekstrem, feilaktig eller ikke -representativt for emnet i datasettet, kalles outliers. Vi har også forklart at disse outliers kan være et resultat av unøyaktige datainnsamlingsmetoder eller faktiske outlier -funn. Vi har diskutert to metoder for å fjerne disse outliers i “Pandas”. Vi har fjernet outliers i "Pandas" -serien og DataFrame i denne artikkelen og diskuterte også begge metodene i detalj.