Pandas smelter

Daniel Johnsen

En panda er en Python-tilpasset statistisk rammeverk. Før oppfinnelsen av pandaer, brukte hovedtyngden av forskere Python for informasjonsmugging og forberedelser før de byttet til en mer spesiell dialekt, for eksempel “R”, for balansen i prosessen deres. Pandas tilbød serier, som gir en rangeringslayout, og dataframes, som har en tabulert layout. Disse to nye typene objekter er for lagring av informasjon som letter analytiske operasjoner og eliminerer behovet for å overføre verktøy. Pandas “smelte ()” -funksjon brukes til å beskrive et dataaframe -objekt som produseres på en spesifikk måte med en eller flere kolonner som fungerer som identifikatorer endres i datasettformat fra omfattende til langvarig. Bare to kolonner er konfigurerbare og verdier, mens de andre kolonnene alle blir sett på som verdier og upivotert til radaksen. Når Python støtter forklaringsdata, bruker du denne funksjonen.

Dataframets kolonner, som hver kan inneholde et heltall, et flytende punktnummer, eller en streng, er representert på kolonnivået fordi det inneholder mange indekser, det er derfor standard for å vurdere ikke-verdien. Følgelig smelter vi informasjonen ved å bruke dette kolonnivået. Variabeltnavnet er en representasjon av det spesifikke variabeltavnet som brukes til å smelte kolonner. Denne tilpasningsdyktige omfatter typisk en skalarverdi og har standardverdien til Non fordi den bruker variabelen som brukes i den spesifikke kolonnen for å smelte DataFrame.

Syntaks for smelte () -funksjonen

“Value_vars” er representasjoner av de eksisterende ustore kolonnene. Flertallet av kolonnene blir returnert og ikke settes som "id_var" hvis kolonnenavnene ikke er indikert. En liste -tuple eller ndarray kan brukes som disse verdiparametrene. Alle seksjonene som brukes som identifikatorvariabler er representert med variabelen “ID_VARS”. Dataframe som må tildeles i pandaer er indikert med rammen.

Eksempel nr. 1: Ved hjelp av smeltefunksjonen kan du passere flere kolonner som verdien_varparameter

Ved å bruke pandaer i Python, kan vi omstrukturere dataene til en mer datamaskinvennlig form for å gjøre tabelldatabehandling enklere. Den imperative "smelte ()" -funksjonen krever å bli utført. En Dataframe er upivulert fra den store versjonen til det vanlige formatet ved å bruke “Pandas.smelte()". Til å begynne med lager vi DataFrame. DataFrame brukes til å lagre informasjon i et todimensjonalt format. Det er identisk med en tabell ved at dataene er lagret i rader og kolonner. Poster er representert av rader og funksjoner er representert med kolonner.

I dette tilfellet er navnet på datarammen “D1” som har tre kolonner. “Navn” er den første kolonnen i vår dataramme og er i tillegg en liste over noen navn: “Thomas”, “Lily” og “Henry”. Den andre kolonnen vi har er “Alder” som inneholder “25”, “29” og “31”. Og i den tredje spalten, "yrke", har vi "ingeniør", "lege" og "regnskapsfører". Bruker “PD.DataFrame ”Vi vil vise DataFrame på skjermen.

La oss nå legge til "smelte ()" -funksjonen i applikasjonen vår. "Smelte ()" -funksjonens "id var" og "verdi var" -parametere ble brukt. For å bruke en kolonne eller kolonner som identifikatorvariabler, bruker du “ID _VAR” og “Value_var” som er den andre parameteren som brukes i dette eksemplet for å definere hvor innholdet vil bli smeltet og lagret i tilleggslinjene. Her bruker vi en "int_var" i en enkelt kolonne og en "value_var" i mange kolonner. Vi bruker "Value_var" i kolonnene "Age" og "Profession" og "ID_VAR" i kolonnen "Navn". “PD.Melt ”brukes til å generere DataFrame og“ Print (DF_MELTED) ”vil vise DataFrame på skjermen.

To dataframes er synlige i programmets utgangsbilde. Bruke “PD.DataFrame ”-funksjon, vi genererte den første datarammen der vi har tre kolonner“ Navn ”,“ Alder ”og“ yrke ”. Ved å bruke parametrene “ID_VAR” og “Verdi _var” på “PD.Melt () ”-metode, den andre DataFrame genereres. “ID_VAR” brukes i en enkelt kolonne som er “Navn”. Det betyr at kolonnen vil bli vist nøyaktig som den er med dens verdier og “Value_var” brukes i to kolonner “Alder” og “yrke”. Det oppretter to kolonner i DataFrame, den ene er "variabel" og den andre er "verdi" i verdikolonnen, kolonnenavnet vises.

Et avgjørende verktøy som velger spesifikke rader og kolonner med data fra en DataFrame, kalles en Pandas -indeks. Jobben er å sette opp dataene for rask tilgang og organisering. Det beskrives også som en undergruppe. Den individuelle verdien av indeksen blir referert til som en etikett, og verdiene er skrevet i fet skrift i indeksen. Den første DataFrames indeksstørrelse er "3", som spenner fra "0 til 1", og når parametrene blir brukt, er indeksstørrelsen "6" som spenner fra "0 til 5".

Eksempel 2: Ved hjelp av smeltefunksjonen kan du passere flere kolonner som INT_VARS -parameteren

Se hva som skjer når du spesifiserer mer enn en kolonne for ID_VARS -alternativet. I likhet med det siste eksemplet, bruker denne "id_var" på flere kolonner mens "value_var" brukes på en enkelt kolonne. I det forrige programmet ble “Value_var” brukt på flere kolonner mens “ID_VAR” ble brukt på en enkelt kolonne.

Det aller første vi gjør er å konstruere en tre-kolonne Dataframe. Navnet på kolonnen er "Navn", "Marks" og "Emne". Navnene som er i den første kolonnen er "Ava", "Isla" og "Leo". I den andre kolonnen har vi listen over merker “45”, “22” og “31”. For den tredje kolonnen har vi navnet på emnet inkludert "Management", "OOP" og "Java". Nå, “PD.DataFrame ”vil generere DataFrame og“ Print (DF) ”vil vise DataFrame på skjermen.

La oss nå innlemme “smelte ()” -metoden i koden vår. "ID_VAR" og "Verdien _var" -argumentene for "smelte ()" -funksjonen ble brukt. "Id_var" brukes i to kolonner. “Navn” og “Marks” og “Value_Var brukes i en kolonne“ Emne ”. For å lage den nye DataFrame som bruker informasjonen fra den gamle Dataframe, bruk “PD.smelte". Nå vil DataFrame vises på skjermen av "Print (DF Melted)".

Resultatet av "smelte ()" -funksjonen med de to argumentene som er "id_var" og "value_var" vises i utgangen. Ved å bruke “ID_VAR” på de to kolonnene “Navn” og “Marks”, vil den vise verdiene som den er, og som vi brukte “Value_var” på kolonnen “Emne”. Deretter er den delt inn i disse to kolonnene “Variabel” og “Verdi”. I kolonnen "Variabel" viser den kolonnenavnet "Emne" og i kolonnen "Verdi" viser det verdiene til kolonnen "Emne". Indeksen er “3” i størrelsesorden, varierer fra “0 til 2”.

Konklusjon

"Melt ()" -metoden i Pandas er en allsidig måte å endre Pandas dataaframe. Vi lærte hvordan vi bruker Pandas 'smelte () -funksjon for å konvertere en stor dataaframe til en lang, datafram ved hjelp av en enkel brukssak. Du bør stadig omstrukturere en del av delene i vårt materiale mens du holder minst ett segment på plass som indikatorer. "Melt ()" -funksjonen i Pandas er et fantastisk verktøy for å endre data. Hvis du administrerer mange mangfoldige økonomiske og pengemelaterte informasjon og krever den i en mer databasevennlig lang form, er det spesielt nyttig.

C skarp

Hva er system.Io navneområde i C#

System.IO er et navneområde i C# som gir et sett med klasser, strukturer, oppregninger og delegater ...

Daniel Berntsen

Hvordan lage en tom dataramme r

Opplæring om de forskjellige tilnærmingene for å lage et tomt dataaframe ved hjelp av dataene.Frame ...

Daniel Berntsen

Oracle Database

Gjør oracle fusion ansett som bedre enn sap?

Oracle Fusion (skybasert ERP) har et brukervennlig grensesnitt, mens SAP (sky og på stedet ERP) er s...

Daniel Berntsen