Pandas Shuffle

Pandas Shuffle
“Når vi trenger å omorganisere en datafram, tilbyr Pythons Panda -modul oss flere teknikker for å blande radene. Dataene blandes tilfeldig ved hjelp av “Sample ()” -metoden som bruker parameteren “FARC = 1”. DataFrames rader kan blandes uten å endre indekskolonnen ved å bruke "RESET_INDEX (drop = true)". For å lage en fersk dataramme med tilbakestilling av indeksen, kan vi bruke "Reset _Index ()" -funksjonen. Dette er nyttig hvis indeksen må behandles som en kolonne, eller hvis den må tilbakestilles til standardverdien før følgende prosess.”

Syntaksen for blanding av Pandas DataFrame

Syntaksen for blanding av Pandas DataFrame og Reset Index

EKSEMPEL 1: Blanding av radene til DataFrame ved å bruke eksemplet () -metoden

I denne illustrasjonen bruker vi "prøve ()" -funksjonen for å hente tilfeldige elementer fra et objekts akse. Vi kan blande radene til vår dataaframe ved å bruke "prøve ()" -funksjonen for å "blandet" radene.

Så la oss begynne med vårt første eksempel. For å implementere koden vår, bruker vi her “Spyder” -verktøyet. Det første trinnet er å importere Pandas bibliotek som "PD". Vi oppretter nå et dataaframe etter å ha importert biblioteket. Tittelen på DataFrame I denne koden har vi “Student”. Denne DataFrame “Student” har tre kolonner “Navn”, “Marks” og “Merknader”. Det er lagret verdier i hver av disse tre kolonnene. Navnene på flere studenter er "Thomas", "Enna", "Ponting", "Watson" og "Emma" i "Navn" -kolonnen. I kolonnen “Marks” har vi merkene til studenten “469”, “202”, “430”, “190” og “398”. Den tredje kolonnen, "Merknader", inneholder listen over kommentarer, enten "pass" eller "mislykkes".

For å generere denne dataaframe, bruker vi “PD. Dataramme". På dette tidspunktet vises DataFrame.

Nå som vi har nådd den avgjørende delen av koden, må vi blande radene til vår dataframme. I blanding kan datablandingsalgoritmer potensielt holde logiske koblinger mellom kolonner mens du omorganiserer dataene. Det blander data fra et datasett i en attributt tilfeldig. Her bruker vi “Sample ()” -metoden med parameteren “frac = 1”. Denne "frac = 1" brukes til å blande rekkefølgen på raden og brukes til å hente alle DataFrames elementverdier etter blanding.

Denne prøvetakingsmetoden () metoden vil blande alle DataFrames rader, og den vil vises som et nytt Dataframes skum. Nå viser vi en DataFrame en gang til etter å ha blandet raden ved hjelp av "print ()" -funksjonen.

Du kan se utdataene fra programmet på skjermen etter å ha kjørt koden ved å klikke på Kjørfil på verktøyet. I vårt utgangsbilde er to dataframes synlige. Den første DataFrame dannes ved å legge til kolonner og verdier til den, og den andre DataFrame vises etter å ha stokket radene ved å bruke “Sample ()” -metoden med sin parameter “Frac = 1”.

Hvis vi sammenligner den første og andre dataframmen, er det åpenbart at radene i den andre datarammen er omorganisert. Deres indeks er også blandet. Den første DataFrames indeks starter på “0” og avslutter på “4”, og den andre DataFrames indeks omorganiseres til å inkludere “2”, “4”, “0,” “3,” og “1”.

Eksempel 2: Blanding av radene til DataFrame uten å gjøre noen endringer i indekskolonnen

I dette tilfellet blir DataFrames rader blandet, men DataFrames indeks endres ikke. Indeksen over radene ble også blandet i forrige eksempel, som det kan sees, men siden vi bruker "Reset Index (drop = true)" her, vil ikke indeksen bli omorganisert.

La oss starte koden vår først; Vi har importert Pandas bibliotek som "PD", neste trinn er å konstruere en dataaframe. Dataframe blir referert til som "data" i navnet. Det er tre kolonner i dette DataFrame "Navn", "Marks" og "Emne". Alle tre kolonnene har verdier i hver av dem. I kolonnen "Navn", har vi noen navn på studentene "Noah", "Pitbul", "Jack", "Arthur," og "George". Den andre kolonnen, "Marks", inneholder en liste over merker som inkluderer "460", "304", "431", "192" og "398", og i det tredje kolonneemnet har vi "Python", " Java ”,“ OOP ”,“ PF ”og“ Calculus ”. Nå, “PD.DataFrame ”brukes til å lage DataFrame, og for å vise DataFrame bruker vi“ Print () ”-funksjonen.

For å blande radene til dataaframet bruker vi nå “Sample ()” -metoden med parameteren frac = 1; I dette tilfellet bruker vi imidlertid også "Reset Index (Drop = True)", som ikke vil blande indeksen den bare blander radene til DataFrame. Indeksen kan tilbakestilles til standard “0”, “1”, ”2”, ”3”, etc. Indekser ved bruk av RESET_INDEX () -metoden. Hvis du vil unngå å holde de tidligere indeksene i kolonnen "indeks" som standard, bruk drop -argumentet. Nå viser vi igjen DataFrame etter å ha blandet radene ved å bruke "print ()" -funksjonen.

To dataframes vises i dette utgangsbildet, som det kan sees. Ved å bruke argumentet Reset "Index (drop = true)" med metoden “prøve ()”, kan vi se at den andre Dataframes rader blir blandet, men indeksene blir ikke endret; Imidlertid, hvis vi ser på det foregående eksemplet, kan vi se at indeksen også er omorganisert fordi parameteren "Reset Index (Drop = True)" ikke er brukt.

Eksempel 3: Endre rekkefølgen på raden ved å bruke numpy permutasjon med ILOC [] -metoden

Ved å bruke "Numpy Permutation" og "ILOC []" -teknikken, omorganiserer vi DataFrame i dette eksemplet. "Permutasjon" -metoden bruker tilfeldige prøver fra en sekvens av permutasjoner for å gi oss sekvensen og returnerer sekvensen. Hvis Z er en flerdimensjonal matrise, er det blandet med sin første indeks.

Før vi utfører koden, må vi importere to bibliotekers pandaer som "PD" og Numpy som "NP". Det neste er å opprette en dataaframe med navnet “Data”. I denne DataFrame har vi to kolonner. "Bilen" er navnet på den første kolonnen, og "modellen" er den andre kolonnen. Det er visse verdier som er oppført for disse to kolonnene. I kolonnen "Navn" har vi "Suzuki", "Ford", "Toyota", "Mercedes" og "Honda", og verdiene for kolonnen vi har "2011", "2008", "2019," og “2017”. Denne dataaframe vil nå bli generert av “PD.Dataramme".

Her bruker vi “ILOC []” -teknikken med “permutation ()” -metoden og indeksparameteren, noe som gjør det veldig enkelt å blande radene til DataFrame. Vi kan bruke metoden “ILOC []” for å velge en særegen kolonne eller rad fra det gitte datasettet. Ved å bruke indeksverdier, kan vi raskt få en hvilken som helst spesifikk verdi fra en kolonne eller en rad ved hjelp av “ILOC []” -metoden. Fordi vi bruker parameteren “RESET_INDEX (Drop = True)” her, vil ikke DataFrames indeks ikke endre. Så la oss bruke "print ()" -funksjonen for å vise vår datafram etter å ha omorganisert radene.

To datasett ble vist i utdataene, hvorav den ene var det originale datasettet og den andre det blandede datasettet. Her kan vi se at radene i den andre DataFrame er blitt blandet, og indeksen har ikke endret seg. Den første DataFrames indeks starter fra “0”, mens den andre DataFrames indeks begynner på samme måte på “0”, men radene er endret.

Konklusjon

I pandaer er det mange metoder for å omorganisere dataene i DataFrames rader og kolonner. I denne artikkelen har vi brukt noen få enkle metoder for å blande DataFrames rader. Vi blandet raden og hentet alle radene til DataFrame ved å bruke “Sample ()” -funksjonen med parameteren “FARC = True og“ Permutation ”-metoden med ILOC []. “RESET_INDEX (drop = true)” brukes når vi trenger å endre radene, men ikke indeksen til DataFrame. Disse Panda -strategiene er enkle, og vi tror at ved å implementere dem, vil oppgaven din lett bli administrert.