Logistisk regresjon Sklearn

Logistisk regresjon Sklearn

Python er et moderne objektorientert programmeringsspråk på høyt nivå designet for å hjelpe programmerere med å skape og skrive lettfattelige og enkle koder. Det er et enkelt og enkelt programmeringsspråk på høyt nivå, best og lett å forstå for nybegynnere. Dens innebygde datastrukturer på høyt nivå, sammen med dynamisk typing og binding, gjør det til et utmerket valg for rask applikasjonsutvikling. Den enkle syntaksen gjør det mer lesbar, noe som til slutt reduserer kostnadene for å opprettholde programmet. Den støtter forskjellige pakker og moduler som legger vekt på å gjenbruke koden og forbedre programmets modularitet. Det omfattende standardbiblioteket og flere tolker er gratis tilgjengelig og online. Pythons evne til økt produktivitet gjør at programmererne blir forelsket i språket.

Dessuten er redigerings-, test- og feilsøkingssyklusen utrolig rask, da det ikke er noe komplikasjonstrinn involvert. Python gjør maskinlæringsprinsipper enkle å lære og forstå. Det gir et fugleperspektiv over hvordan du kan gå gjennom et lite eller stort maskinlæringsprosjekt. Denne artikkelen handler om hva en logistisk regresjon er og dens klassifiserere. La oss starte med det grunnleggende i logistisk regresjon.

Logistisk regresjonsdefinisjon

Logistisk regresjon er en klassifiseringsalgoritme. En passende regresjonsanalysealgoritme fra Fraternity of Machine Learning beskriver data. Det forklarer forholdet mellom flere variabler, i.e., forholdsnivå eller intervall uavhengig variabel, ordinal eller nominell avhengig binær variabel. Logistisk regresjon brukes vanligvis i statistiske modeller for å forstå dataene og forholdet mellom avhengige og uavhengige variabler ved å forutsi sannsynlighetene for kategoriske avhengige variabler. Når antallet data øker raskt, øker styrken til datakraft og algoritmeforbedring, noe som forbedrer viktigheten av maskinlæring og datavitenskap. På tvers av maskinlæring har klassifisering blitt det essensielle området, og en av de grunnleggende metodene er logistisk regresjon. Mot slutten av denne artikkelen vil du kunne implementere logistisk regresjon på forskjellige typer data. La oss begynne å bruke passende klasser, funksjoner og passende pakker for å utføre logistisk regresjon i Python. En av de vanlige Python -pakkene for logistisk regresjon er Sklearn. Her vil vi vise deg et trinn-for-trinn praktisk eksempel på logistisk regresjon Sklearn i Python for å hjelpe deg med å forstå hvordan du implementerer logistisk regresjon Sklearn i Python.

Trinn for å implementere logistisk regresjon Sklearn i Python

Trinn 1: Samle dataene

For å starte med et lite eller stort prosjekt, er det første du trenger dataene du vil bygge en logistisk regresjonsmodell. Her er kommandoen for å utarbeide modellen for datasettet.

Trinn 2: Importer de nødvendige pakkene med Python

Når du har installert Dataprep, er neste trinn å importere pakkene som trengs for å implementere den logistiske regresjonen. Her lærer vi om Sklearn -pakken, som i utgangspunktet brukes til å bygge den logistiske regresjonsmodellen i Python. Følgende pakker må installeres:

Importer pandaer som PD
Importer numpy som NP
Importer matplotlib
Importer matplotlib.Pyplot som Plt
Importer sjøborn som SNS
Fra Sklearn.Forbehandling av import labelencoder
Fra Sklearn.Metrics Importer Confusion_matrix
Fra Sklearn.Metrics Importer Make_scorer, nøyaktighet_score, precision_score, husk_score, f1_score, confusion_matrix, classification_report
Fra Sklearn.linear_model importerer logistikkregresjon
Fra Sklearn.Model_selection import tog_test_split
Fra Sklearn Import Metrics
Fra Sklearn.Metrikk importerer nøyaktighet_score
fra IMBLEARN.Over_sampling import Smote

Trinn 3: Last inn dataene for å bygge et dataaframe

Neste trinn er å fange datasettet, som du trenger følgende kommando for å bruke:

df = pd.read_csv ("/innhold/stasjon/mydrive/covid datasett.CSV ")

På denne måten kan du importere dataene fra en ekstern fil; Alternativt kan du imidlertid definere datasettet i form av en matrise.

Trinn 4: Opprette den logistiske regresjonen etter å ha lastet inn dataene

Neste trinn er å utvikle den logistiske regresjonen i Python etter at dataene er lagt inn i en Python -applikasjon. I dette trinnet må du angi de avhengige og uavhengige variablene. Slik kan du angi variabelen:

X = df.slipp ('covid-19', akse = 1)
y = df ['covid-19']

'X' -variabelen representerer den uavhengige variabelen, og 'y' -variabelen representerer den avhengige variabelen. Bruk nå Train_Text_split -funksjonen for å angi test- og treningsstørrelsen på datasettet.

X_train, x_test, y_train, y_test = tog_test_split (x, y, test_size = 0.20)

Trinn 5: Bruk logistisk regresjon

Bruk nå den logistiske regresjonen ved å følge kommandoen gitt nedenfor:

Model = LogisticRegression ()
# Montere modellen
modell.Fit (X_Train, Y_Train)
y_pred = modell.forutsi (x_test)
acc_logreg = modell.poengsum (x_test, y_test)*100

Trinn 6: Plott forvirringsmatrisen

Den siste delen er å plotte forvirringsmatrisen som viser nøyaktigheten i ekte positiv og falsk positiv form.

confusion_mtx = confusion_matrix (y_test, y_pred)
# Plott forvirringsmatrisen
# Plott forvirringsmatrisen
f, ax = plt.delplott (FigSize = (8, 8))
sns.Heatmap (Confusion_mtx, Annot = True, LineWidths = 0.01, cmap = "greener", linecolor = "grå", fmt = '.1f ', øks = øks)
plt.xlabel ("spådd etikett")
plt.Ylabel ("True Label")
plt.Tittel ("Confusion Matrix")
plt.forestilling()

For å skrive ut nøyaktigheten eller med andre ord klassifiseringsrapporten, bruk følgende kommando:

print (classification_report (y_test, y_pred))

Når du har kjørt alle kommandoene, vil du få en forvirringsmatrise samt en klassifiseringsrapport. Ta en titt på utgangen nedenfor.

Forvirringsmatrise:

True Positive (TP), False Negative (FN), True Negative (TN) og False Positive (FP) er de fire kjerneverdiene i forvirringsmatrisen.

Klassifiseringsrapport:

Klassifiseringsrapport gir nøyaktigheten av den trente modellen, som kan oppnås ved å bruke formelen:

Nøyaktighet = (tp + tn) / total

Konklusjon:

Denne artikkelen lærte oss den logistiske regresjonen og Sklearn -biblioteket i Python. Dataene blir forklart, og koblingen mellom de avhengige og uavhengige variablene er beskrevet ved bruk av logistisk regresjon. Sklearn -biblioteket i Python brukes stort sett i statistiske data der prediksjon eller sannsynlighet er nødvendig for å være kjent.