Forvirringsmatrise i Sklearn Linuxhint

Forvirringsmatrise i Sklearn Linuxhint
“Et gratis maskinlæringsbibliotek bygget på Python heter Scikit-Learn. Det inkluderer flere klassifiseringer, regresjon og grupperteknikker vi kan bruke for å komme med nyttige spådommer ved hjelp av dataene våre. En forvirringsmatrise er en statistikk som bestemmer korrektheten og nøyaktigheten til en modell. Det kan brukes til å takle kategoriseringsproblemer som enten er binære eller multiklasse. Denne artikkelen diskuterer forvirringsmatrisen og dens implementering i Sklearn.”

Hva er en forvirringsmatrise?

Modellens nøyaktighet og korrekthet måles ved hjelp av forvirringsmatrisen. Det kan brukes på binære eller flere klassifiseringsproblemer. Mange beregninger måles ved bruk av Confusion Matrix -målingene, selv om det ikke er et direkte mål på ytelsen. En forvirringsmatrise er en flerdimensjonal matrise der de forutsagte verdiene er representert i radene og de sanne verdiene i kolonnene. Målvariabelen i et binært klassifiseringsproblem vil ha to verdier, 1 eller 0, referert til som faktiske verdier som ekte eller Falsk, henholdsvis. Modellens spådommer blir referert til som forventede verdier.

Kilde: Explorium.Ai

True Positive (TP)

Ekte positive er antall tilfeller der den faktiske verdien av en dataprøve samsvarer med den forventede verdien.

True Negatives (TN)

Ekte negativer er en statistikk som teller antall tilfeller der den faktiske verdien av en dataprøve er null, og den forventede verdien er også null.

Falske positive (FP)

Falske positive refererer til antall forekomster der den faktiske verdien av en dataprøve er 0, men den forutsagte verdien er 1.

Falske negativer (FN)

Falske negativer er en statistikk som teller antall forekomster der den faktiske verdien av en dataprøve er 1, men den anslåtte verdien er 0.

Modellens ytelse vil være gunstig, med større verdier av TP og TN og lavere verdier av FP og FN, basert på betydningen av den foregående terminologien. Modellen bør trenes til å maksimere TP og TN mens jeg minimerer FP- og FN -verdier. Hvis begge, hvilken av FP og FN som skal minimeres, avhenger av kategoriseringsproblemets krav. Å holde falske negativer til et minimum vil være avgjørende i det medisinske feltet.

Anta for eksempel at klassifiseringsutfordringen er å avgjøre om pasienten har en betydelig sykdom som kreft eller HIV eller ikke. Ta for eksempel hvis pasienten har kreft, som er representert av 1, og om pasienten ikke har kreft, som er representert med 0. I dette scenariet er det vanligvis å foretrekke falske positiver over falske negativer.

Det er hvis en pasient har kreft (1) og modellen spår et negativt (0) - falske negativer - pasienten og diagnosen kan bli satt i fare. Som et resultat må FN redusere så mye som mulig. På den annen side, hvis pasienten ikke har kreft (0), men modellen spår at de har hatt kreft (1) - falske positiver - vil dette ha færre konsekvenser fordi på de fleste tilfeller vil påfølgende tester bli utført for viktige sykdommer Før sykdommen blir bekreftet som positiv. Som et resultat er falske positiver å foretrekke fremfor falske negativer i dette problemet.

Fordelene med forvirringsmatrise

  • Den demonstrerer hvordan enhver klassifiseringsmodell kan bli forvirret når du gir spådommer.
  • Forvirringsmatrisen indikerer hva slags feil som blir gjort av klassifisereren din i tillegg til feilene som blir produsert.
  • Ved å bruke denne sammenbruddet kan du komme deg rundt problemene ved å stole helt på klassifiseringsnøyaktighet.
  • Hver kolonne i forvirringsmatrisen viser forekomster av den anslåtte klassen.
  • Hver rad i forvirringsmatrisen kartlegger til en faktisk klasseforekomst.
  • Det avslører ikke bare feilene som er gjort av en klassifiserer, men også feilene som mennesker begår

Hvordan beregner du forvirringsmatriser?

Vervent nedenfor er trinnene for å beregne forvirringsmatriser:

  • Du bør ha en test- eller valideringsdatasett med forventede utfallsverdier.
  • Deretter kan du forutsi hver rad i testdatasettet ditt.
  • Følgende er de forventede resultatene og spådommene:
  1. Antall riktige gjetninger for hver klasse.
  2. Det totale antallet unøyaktige spådommer for hver klasse er sortert etter anslått klasse.

Implementering av forvirringsmatrise i Sklearn

# Importere de nødvendige etikettene
Fra Sklearn.Metrics Importer Confusion_matrix
# De sanne etikettene til det gitte datasettet
y_true = [1, 2, 0, 2, 1, 0]
# De forutsagte etikettene til det gitte datasettet
y_pred = [1, 0, 1, 2, 0, 1]
# Få forvirringsmatrisen til datasettet
forvirring_matrix (y_true, y_pred)

Produksjon

Array ([[0, 2, 0],
[1, 1, 0],
[1, 0, 1]])

Konklusjon

Vi lærte om forvirringsmatrisen og dens implementering i Sklearn. Sklearn er et populært Python-basert ML-bibliotek som implementerer forskjellige beregninger og algoritmer. Forvirringsmatrisen bestemmer nøyaktighetsmetrikkene for klassifiseringsproblemer basert på sanne positive eller sanne negativer eller falske positiver eller falske negativer.