Python One Hot Coding Pandas

Python One Hot Coding Pandas
Denne artikkelen vil lære deg hvordan du kan utføre hot koding i Python ved hjelp av pandaer og scikit lære.

Hot koding refererer til å konvertere kategoriske data til modeller som maskinlæringsalgoritmer kan bruke. I de fleste tilfeller innebærer dette å konvertere hver kategoriverdi til en binær verdi på 1 eller 0.

Bildet nedenfor illustrerer en varm koding.

Kilde: Kaggle

Du kan utforske en varm koding i ressursen nedenfor:

https: // no.Wikipedia.org/wiki/en varm

Eksempeldata

La oss starte med å lage eksempeldata. Bruk først prøvekoden som vist nedenfor:

Importer pandaer som PD
df = pd.Dataramme(
"Kategorier": ['Cat1', 'Cat2', 'Cat3', 'Cat2', 'Cat1', 'Cat1', 'Cat3'],
"Verdier": [10,20,20,40,24,34,23]
)
df

Importer OneHotencoder fra Sci-Kit-Learn for å utføre en varm koding for å utføre en varm koding som vist:

Fra Sklearn.Forbehandling importerer onehotencoder
# Instantiation
E = OneHotencoder (Handle_Unknown = 'Ignore')
# kode
E_DF = PD.DataFrame (e.fit_transform (df [['kategorier']]).ToArray ())
E_DF

I eksemplet over begynner vi med å importere OneHotencoder fra SCI-Kit-Learn. Vi oppretter deretter en koderforekomst og passerer parameteren for håndtaket for å ignorere.

Til slutt oppretter vi en ny DataFrame fra de kodede dataene. Koden over skal returnere den nye DataFrame som vist:

Du kan også slå sammen den kodede DataFrame til den originale DataFrame ved å bruke Join -metoden som:

df = df.Bli med (E_DF)
df

Ovennevnte kode skal returnere:

Konklusjon

Denne artikkelen dekker et minimum av å utføre en grunnleggende en-varm koding av en Pandas DataFrame ved hjelp av Sci-Kit-Learn Library.