Pandas tilfeldig prøve

Det er mange biblioteker som "Python" gir. Når vi diskuterer “Pandas”, er det også biblioteket til “Python”. Det hjelper oss på forskjellige felt som vi bruker dette biblioteket innen datavitenskap, eller vi kan også bruke dette "Pandas" -biblioteket i maskinlæringsaktiviteter. Det hjelper også i styring og manipulering av data. "Dataframes" i "Pandas" lar oss ordne og lagre dataene i rader og kolonner, eller vi kan også si at i tabellform. Vi kan velge noen rader som prøvedataene til DataFrame. For dette formålet har vi benyttet oss av "prøve ()" -funksjonen til "pandas". Denne funksjonen hjelper oss med å generere enhver tilfeldig rad eller kolonne fra DataFrame. Vi kan bruke denne funksjonen for å få bare en rad eller kolonne som prøven, eller vi kan også angi noen tall i denne funksjonen for å få flere rader som prøven. Vi vil forklare denne "Random Sample ()" -metoden og forklare arbeidet i detalj i denne opplæringen.

Syntaks

Dataramme.prøve (n = verdi, frac = verdi, erstatte = falsk/true, vekter = verdi, random_state, akse)

I sin "n" -parameter definerer vi antallet av den tilfeldige prøven som vi ønsker å få fra DataFrame. Hvis vi ikke la til noe tall her, vil det bare få en tilfeldig rad som prøven av den spesifikke dataaframe. I "Frac" -parameteren kan vi definere prosentandelen av radene som vi ønsker å få; Hvis vi setter frac som “0.7 ”, så vil det gi“ 70%”av radene til DataFrame. Husk at vi ikke kan plassere "Frac" -parameteren med "N" -parameteren. Hvis vi definerer “N” -parameteren, legger vi ikke til “Frac” -parameteren samtidig. Vi bruker bare en av dem. Etter dette har vi "erstatning" -parameteren der vi legger til "sanne" eller "falsk". Hvis vi setter det som "sant", kan det gi samme rad mer enn en gang. Vi kan også sette tre parametere, som er "vekter", "random_state" og "akse". Nå bruker vi denne "eksemplet ()" -metoden i "Pandas" -koden.

Eksempel 01

Programvaren vi bruker for å generere disse “Pandas” -koden er “Spyder” -programvaren. Vår første oppgave mens du gjør disse "pandas" -koden er å importere bibliotekene. Biblioteket som vi må importere er "Pandas" -biblioteket, som vi importerer ved hjelp av nøkkelordet som er "import" nøkkelordet. Vi satte også “Pandas som PD” etter å ha skrevet “Importen”. Den neste oppgaven er å utvikle DataFrame, og vi konstruerer “LMN_COMPANY_DF” her. Denne dataaframe er konstruert fordi vi benyttet “PD.DataFrame () ”, som hjelper til med å generere DataFrame i“ Pandas ”.

Vi legger også inn noen kolonner i den, og disse kolonnene inneholder også data. Vi går først inn i "LMN_Person", som er den første kolonnen i denne DataFrame. Den inneholder “Jasper, Milli, Hayes, Easton, Bromley, Diego og Logan”. Da er "LMN_CODE" den neste kolonnen her, og vi legger til “LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 og LMN129” i denne kolonnen. "LMN_YEAR" er den tredje kolonnen her, og vi setter inn “Mai 2008, februar 2008, juni 2009, april 2009, september 2010, juni 2015 og juli 2009” i det. “LMN_SALEUNIT” er oppført etter “LMN_YEAR”. Den inneholder flere salgsenheter: “50, 44, 39, 76, 85, 90 og 53”.

Nå viser vi denne dataaframe ved å bruke "print ()":

Når vi trykker på "Kjør" -ikonet til "Spyder" -programvaren, får vi raskt utdataene fra kodene våre. Utfallet av den forrige koden er gitt her, der du bare kan se DataFrame som vises. Nå vil vi bruke “Sample ()” -metoden i denne koden for å få eksemplet på raden fra denne DataFrame.

Vi legger først til navnet på DataFrame med denne "Sample ()" -funksjonen. Her la vi ingen parameter til denne funksjonen. Så det vil bare gi en tilfeldig rad av denne dataaframmen. Den skriver også ut den tilfeldige raden på terminalen fordi vi har satt inn denne "eksemplet ()" -funksjonen inne i "print ()".

Raden som vi får etter å ha brukt denne "prøven ()" -funksjonen, er gjengitt nedenfor. Merk at den velger raden tilfeldig som prøven til den dataframmen.

Eksempel 02

"LMN_COMPANY_DF" er her, og nå setter vi verdien av "N" som parameteren til denne "Sample ()" -funksjonen. Når vi bruker "prøve ()" -metoden, legger vi også til "n" til den og setter "3" som verdien av "n". Dette vil tilfeldig velge tre rader av "LMN_COMPANY_DF" -prøven.

Her inneholder hele DataFrame syv rader og fire kolonner. Deretter gjengir det tre tilfeldige rader, som vi får etter å ha brukt "prøve ()" -funksjonen og angi "n" -parameteren lik "3". Den returnerer rader i henhold til denne "n" verdien.

Eksempel 03

"Vendor_df" er nå konstruert, og kolonnen "Vendor_name" er den første kolonnen i "Vendor_DF". Den inneholder “Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, DiGo og Milli”. Kolonnen "Vendor_country" kommer etter dette, som inneholder "England, America, London, Canada, Tyskland, Frankrike, Algerie, England og Tyskland". Etter dette legges “Vendor_address” til, og sett inn “XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 og MNB543”.

Deretter har vi kolonnen "Project_Code", som inneholder "P123, P234, P345, P456, P678, P890, P098 og P765". Den siste kolonnen heter “Salg”, og den inneholder også noen salgsposter, som er “80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 og 90000”. Nå skriver vi ut hele “Vendor_df” ved å bruke “print ()”. Etter å ha vist “Venfor_df”, bruker vi “Sample ()” -metoden, og denne gangen setter vi “Frac” -parameteren her og legger til “0.5 ”som dens verdi. Den vil velge 50% av radene tilfeldig fra denne DataFrame og også vise dem da vi har satt inn denne "Sample ()" -metoden i "print ()" -metoden.

Dataframe viser alle rader og kolonner, og deretter viser den halv eller 50% av radene. Den velger disse radene tilfeldig og viser dem på terminalen fordi vi setter "FRAC" -parameteren til "Sample ()" -funksjonen lik "0.5 ”. Du kan også merke deg i denne koden at vi ikke la til "N" -parameteren med denne "Frac" -parameteren.

Eksempel 04

I denne koden legger vi til to parametere i "prøve ()" -metoden, og disse er "n" og "erstatt". Vi legger først til "5", som er verdien av "n", så den vil returnere fem rader, og så setter vi "falske" som verdien av "erstatt" -parameteren. Når vi setter "falsk" her, vil det ikke gi samme rad igjen. Det gjengir bare unike rader og dupliserer ikke en rad.

Det gjengir fem rader nedenfor, og alle er unike rader. Den velger disse radene tilfeldig fra denne DataFrame og viser dem i dette utfallet.

Verdien av "n" er ikke større enn antall rader. Som du kan merke, inneholder denne DataFrame ni rader. Hvis vi setter verdien av "n" større enn "9", vil den returnere en feilmelding. Her legger vi til “10” som verdien av “n”. I det følgende bildet viser det hva som skjer når vi utfører denne koden:

Denne feilmeldingen genereres på terminalen fordi denne DataFrame bare inneholder ni rader, og verdien av "n" er større enn antallet rader i dataaframe.

Konklusjon

Denne opplæringen handler om "Pandas Random Sample". Vi har forklart dette konseptet dyptgående i denne opplæringen. Vi har forklart syntaksen, og vi har også brukt "prøve ()" -metoden i vår "pandas" -kode. Vi har gjort eksempler ved å plassere forskjellige parametere i denne "prøve ()" -metoden og har diskutert alle parametere for denne "prøve ()" -metoden i detalj. Vi har vist hvordan den returnerer rader av dataaframe som prøven ved å velge dem tilfeldig etter å ha brukt denne "prøven ()" -funksjonen. Vi diskuterte også feilmeldingen i denne opplæringen mens vi bruker denne funksjonen og har forklart hvorfor denne feilmeldingen oppstår.

Python

Python finner indeksen for alle forekomster i en liste

For -sløyfen, enumerate () -funksjonen, index () -metoden, eller defaultDict () -funksjonen kan bruk...

Mathias Halvorsen

Windows OS

Hva er Windows Package Manager

Windows Package Manager eller Winget er et kraftig verktøy for å installere og administrere programv...

Alexander Sørlie

Python

Pandas read_csv multiprocessing

For å forbedre databelastningshastigheten, inkludert fordelene og begrensningene PD.read_csv () ”-fu...

Daniel Berntsen