Hva er databehandling?
Dataforbehandling er et kritisk stadium i maskinlæring som forbedrer datakvaliteten for å oppmuntre til å trekke ut verdifull innsikt fra dataene. Dataforberedelse i maskinlæring er prosessen med å gjøre rå data klar (rengjøre og organisere den) som skal brukes til å lage og trene maskinlæringsmodeller. Dataforbehandling i maskinlæring er, for å si det enkelt en data mining -tilnærming som konverterer rå data til et format som er lesbar og forståelig.
Hvorfor trenger vi forbehandling av data?
Data fra den virkelige verden mangler ofte spesielle attributtverdier eller trender og er ofte inkonsekvente, feilaktige (inneholder feil eller outliers), og ufullstendig. Dataforberedelse kommer i spill i denne situasjonen fordi det hjelper til med å rengjøre, formatere og organisere rå data, noe som gjør den klar til bruk av maskinlæringsmodeller.
Dataforbehandling omhandler følgende:
Standarder for Scikit-Learn API
Det er flere spesifikasjoner for den typen data som Sklearn vil behandle.
Implementering av forbehandling Sklearn
Importere bibliotekene og dataene
# Importere bibliotekene og klasseneLaster inn de første 5 rader med dataene
df.hode()Produksjon
sepal lengde (cm) | Sepal bredde (cm) | kronblad (cm) | kronblad bredde (cm) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Få informasjon om typer og nullverdier
df.info ()Produksjon
RangeIndex: 150 oppføringer, 0 til 149Fylling av manglende verdier av DataFrame ved hjelp av Sklearn:
immuter = simpleimputer (strategi = 'mener')Vi kan iterere alle kolonnene for å utføre denne oppgaven på alle kolonnene.
Skalere dataene ved hjelp av standard skaler
SCALER = StandardsCaler ()Produksjon
Array ([[-0.90068117, 1.01900435, -1.34022653, -1.3154443],En varm koding
Encoder = OneHotencoder (Handle_Unknown = 'Ignore')Produksjon
[Array (['A', 'B'], DType = Object), Array ([1, 2, 3], DType = Object)]Konklusjon
Vi diskuterte forbehandling og implementering av den i Sklearn Python -biblioteket i denne artikkelen. For å lette utvinning av nyttig innsikt fra dataene, er forbehandling av data et avgjørende trinn i maskinlæring. Det hever kvaliteten på dataene. Deretter diskuterte vi implementeringen i Sklearn. Vi hentet først informasjon om data, inkludert de manglende verdiene og datatypene, og fylte deretter ut de manglende verdiene. Vi jobbet også med å skalere dataene og en varm koding.