Pandas slipper alle kolonnene unntatt

Pandas slipper alle kolonnene unntatt
Data må renses, struktureres og ryddes opp før du begynner på en analyse. For å oppnå det optimale utvalget av data for en bestemt vurdering eller presentasjon, er det noen ganger nødvendig for å endre en Pandas DataFrame for å eliminere unødvendige kolonner eller for å optimalisere datasettet for modellskaping. I pandaer kan kolonnemodifisering forekomme i en rekke teknikker. Noen ganger er det vanskelig å forstå hvordan du fjerner kolonner fra en DataFrame. Kommandoen “DataFrame Drop” er nøkkelen. Bruke “DF.slipp () ”-funksjon, spesifiserte kolonner kan kastes. I denne guiden vil vi forstå hvordan du utelukker kolonner i en Pandas dataaframe bortsett fra de spesifiserte.

Pandas drop () -metode

Pandas “Drop ()” -metode hjelper oss å kaste de spesifiserte kolonnene fra den medfølgende DataFrame mens de holder de valgte i det resulterende DataFrame. Dette kan gjøres ved hjelp av følgende syntaks:

Vi vil se dens praktiske demonstrasjon med Python -programmene i denne artikkelen.

Eksempel 1: Bruke Pandas drop () -funksjon for å slippe alle kolonnene bortsett fra spesifisert enkeltkolonne, i selve DataFrame

Dette eksemplet vil få deg til å forstå den praktiske utførelsen av Pandas “Drop ()” -metoden for å eliminere alle kolonnene i en DataFrame, bortsett fra de visse vi velger å bli vist.

Vi trenger programvare eller et verktøy for å samle programmet vi vil generere for eksemplet. Av valgene er det vi har funnet å være det mest passende verktøyet for demonstrasjonene våre "Spyder" -verktøyet. En ny prosjektfil åpnes i verktøyet, og så begynner vi skriptet. Vi har lastet den nødvendige modulen som er pandaer her. Pandas -biblioteket er importert til Python -filen og er aliasert som "PD".

Vi må da lage en dataaframe ved hjelp av denne Pandas verktøysettets metode. Pandas har en veldig enkel metode “PD.DataFrame () ”for å konstruere en dataaframe. Her "PD" er aliaset for pandaer, mens "DataFrame", som navnet skildrer, er nøkkelordet som påkaller DataFrame -opprettingsprosessen. Vi har kalt denne metoden og instruert den om å lage en dataaframe med 5 kolonner. Vi har spesifisert etikettene for kolonnene, samt levert samme lengde på verdien for hver kolonne.

Etikettene vi har definert for kolonnene er "januar", "februar", "mars", "april" og "mai". Verdiene vi har lagret i kolonnen “januar” er “1”, “2”, “3”, “4”, “3” og “5”. Kolonnen “Februar” har verdier “7”, “8”, “9”, “10”, “11” og “12”. "Mars" holder oppføringer som "13", "14", "15", "16", "17" og '18 ". Vi leverte verdier til "april" -kolonnen som "19", "20", "21", "22", "23" og "24". Den siste kolonnen i DataFrame “May” bærer disse verdiene “25”, “26”, “27”, “28”, “29” og “30”. Vi har gitt samme kolonnestørrelse for hver kolonne i DataFrame.

Som du kan observere, holder hver kolonne 6 verdier. Hvis du endrer lengden på en kolonne i en bestemt DataFrame, vil det gi deg en feil med ulik kolonnelengde. Når “PD.DataFrame () ”-funksjonen blir påkalt med de medfølgende kolonnene, den vil generere en DataFrame. Det krever nå et objekt eller en variabel der det kan plassere denne dataframmen, så ikke vil gå tapt denne dataframmen. Når vi trenger å jobbe med den aktuelle DataFrame, kan vi også få tilgang til det gjennom objektet vi har gitt for lagring av DataFrame. DataFrame -objektet vi har laget her heter “måneder”. Vi har tildelt det resultatet av “PD.DataFrame () ”-metode.

"Print ()" -funksjonen skriver ut hva du vil gi videre til den. Vi har gitt det med DataFrame -objektet vårt "måneder" for å vise innholdet det har bevart.

Å kjøre ovennevnte Python-skript bare ved å slå "Run File" -tasten setter en DataFrame med 5 spesifiserte kolonner på Python-konsollen for å se.

Nå vil vi se hvordan vi bruker “slipp ()” -metoden for å eliminere alle kolonnene i DataFrame, bortsett fra en bestemt kolonne som vi vil oppbevare i DataFrame.

Vi har påkalt “DF.slipp () ”-metoden ved å levere“ DF.kolonner.Forskjell () ”-metode sammen med to andre parametere“ Axis ”og“ Inplace ”. “.DiFFRENCE () ”-metode gir oss komplement av dataene vi vil legge inn som en parameter. I dette tilfellet har vi gitt kolonnen "March". Når metoden “slipp ()” påkalles for å kaste kolonnene i "månedene" DataFrame, vil den beholde verdiene til "March" -kolonnen.

Parameteren “Axis” er satt til “1” som refererer til kolonnene. Og "inplace" er verdsatt som "sant" som vil utføre alle endringene i den opprinnelige DataFrame uten å lage noen kopi av den. Etter å ha ringt denne funksjonen, må vi se den oppdaterte DataFrame. Vi har brukt metoden “Print ()” for å vise den faktiske DataFrame med modifisert innhold på skjermen.

Slik ser vår faktiske DataFrame nå som. Vi har droppet alle kolonnene, men beholdt "mars" -kolonnen i den oppdaterte DataFrame.

Eksempel 2: Bruke Pandas drop () -funksjon for å slippe alle kolonnene bortsett fra spesifiserte flere kolonner i kopien av DataFrame

For denne demonstrasjonen vil vi se hvordan du slipper alle kolonnene bortsett fra de valgte flere kolonnene og gjør endringene i kopien av DataFrame i stedet for selve DataFrame.

I dette eksemplet vil vi bruke DataFrame vi har konstruert i tilfellet ovenfor. Etter å ha vist DataFrame, har vi påkalt metoden “Drop ()”. Mellom parentesene til “DF.slipp () ”-funksjonen, vi har kalt“ DF.forskjell () ”-funksjonen og vi har gitt to kolonner“ januar ”og“ March ”. Så disse to kolonnene vil bli holdt i DataFrame, og alle de resterende kolonnene vil bli droppet i DataFrame “måneder”. "Axis" -parameteren er verdsatt til "1". Dette vil fortelle Python å bruke funksjonen radmessig.

Her er den tredje parameteren “Inplace” satt til “False”. Å holde denne "falske" betyr at funksjonen vil gjøre endringene i kopien av DataFrame i stedet for selve DataFrame. For å lagre denne modifiserte kopien av DataFrame “måneder”, har vi laget en variabel “kopi”. Denne variabelen vil inneholde den oppdaterte DataFrame etter å ha droppet alle kolonnene bortsett fra de to vi har spesifisert som er "januar" og "March". Til slutt har vi benyttet oss av “print ()” -metoden for å utvise resultatet av “DF.slipp () ”-metoden på terminalen ved å passere den" kopien "-variabelen.

"Print ()" -metoden presenterer oss med to DataFrame når vi utfører det ovennevnte Python-skriptet. Her er den første DataFrame som vises den faktiske DataFrame uten noen modifikasjoner, mens den andre DataFrame er kopien av den faktiske DataFrame etter å ha droppet alle kolonnene, bortsett fra at de to spesifiserte vises.

Konklusjon

Å bestemme hvilke data du skal beholde og hvilke du skal utelate mens du analyserer datasettene er et veldig viktig konsept å lære. I denne artikkelen har vi utdypet “DF.slipp () ”-funksjon med syntaks. Vi har implementert denne metoden på Spyder -verktøyet. Det første eksemplet lærer deg å endre den faktiske DataFrame, mens den andre DataFrame forklarer hvordan du lager en kopi av DataFrame for å holde endringene.