Scipy statistikk passer

Scipy statistikk passer
Python er et objektorientert og programmeringsspråk på høyt nivå som gir en omfattende liste over pakker som hjelper brukeren til å kjøre programvare mer effektivt. Dette språket har sin anvendelse i nesten alle livsfelt uansett hvor automatisering kreves gjennom programvaren. Dette skyldes dens matematiske og beregningsmessige krefter som gjør implementeringen av forskjellige konsepter enklere for programmerere. Scipy bidrar til bibliotekpakken som Python tilbyr. Denne bibliotekpakken tilbyr sine tjenester ved å tilby forskjellige innebygde funksjoner innen maskinlæring, optimaliseringer og dataanalyse. Scipy Stat Fit er funksjonen fra Scipy som bruker statistikkattributtet eller modulen fra Scipy -biblioteket og hjelper til med å finne best mulig passform for datasettene. Den beste passformen her spesifiserer fordelingen av dataene til en spesifikk beslutningsgrense.

Fremgangsmåte

Ved hjelp av Scipy Stat Fit, vil vi finne ut hvordan vi implementerer statistikkens passform () -funksjon for å finne den beste passformlinjen eller distribusjonen for de nødvendige datasettene. Syntaks for denne funksjonen vil bli vist og vil deretter bli forklart ved hjelp av parametrene som kreves av denne funksjonen.

Syntaks

$ statistikk. norm.passform (data)

Den ovennevnte linjen er syntaks for statens passform (). Denne funksjonen bruker modulen “Norm” fra statistikkmodulen til Scipy. Norm er lengden på en hvilken som helst vektor eller avstanden til vektoren som snakker om i hvilken grad vektoren er spredt ut i verdensrommet. "Dataene" er inngangsparameteren til funksjonen som refererer til dataene hvis distribusjon eller passform vi ønsker å beregne.

Eksempel nr. 01

Statistikken Fit () -funksjonen beregner distribusjonen eller sier typen distribusjon for et datasett basert på elementene. Med andre ord, statistikken passer () finner best passform for dataene for de forskjellige typer tilfeldige variabler. For de variablene som er uavhengige og tilfeldige, får vi den "gaussiske distribusjonen" som er kjent for å være den naturlige eller normalfordelingen for variablene i datasettet. Dette eksemplet vil beregne den gaussiske distribusjonen for variablene i datasettet.

For alle slags distribusjon. Alle disse parametrene i bidrar til en type distribusjon. Den gaussiske distribusjonen har de fleste av sine observasjoner på topp som er rundt middelverdien. For å implementere dette, vil vi bruke "Google Collab" som er et åpen kildekode og offentlig miljø som tilbyr å kjøre Python-programmene med forhåndsinstallasjon av alle pakker. Det nødvendige biblioteket eller pakken for dette eksemplet vil være statistikk fra scipy. Så først vil vi skrive kommandoen "fra scipy importstatistikk".

Neste trinn vil være å generere nye data for å lage de tilfeldige variablene ved hjelp av normen fra statsmodulen som “Data = States. norm. bobil (a, b, størrelse = 400, random_state = 140) ”, denne funksjonen tar i de to parametrene“ a ”og“ b ”for de normale uavhengige variablene og“ størrelsen ”for å distribuere disse variablene i tall er valgt som som “400”. Nå vil vi bruke resultatene fra denne funksjonen og vil overføre dette til parameteren til “Statistikk. Fit () ”for å finne den best passformfordelingen for disse tilfeldig genererte dataene.

I utgangen fra funksjonen vil vi vise "stedsparameteren" som forteller hvor dataene ligger på x-aksen og "skalaparameteren" som forteller hvor mye spredning i dataene. Koden for dette eksemplet er vedlagt nedenfor.

fra scipy importstatistikk
a = 1
B = 1
data = statistikk.norm.bobil (a, b, størrelse = 400, random_state = 140)
Sted, skala = Statistikk.norm.passform (data)
trykk (plassering)
trykk (skala)

Utgangen har vist plasseringen og skalaparameteren for distribusjonen som 1.08 og 0.Henholdsvis 949.

Eksempel # 02

Nå vil vi bruke statistikk Fit () -funksjonen til å implementere en annen type distribusjon for datasettet som har kontinuerlige tilfeldige variabler i IT. For slik type data med positivt skjeve variabler bruker vi “Gamma Distribution”. Skewness representerer hvor mye fordelingen har asymmetri i den. Gamma -distribusjonen har tre parametere like vanlig som normalfordelingen E.g., skala, og terskel og form. La oss implementere denne distribusjonen. Først vil vi importere modulen "statistikk" fra bibliotekets scipy. Dette biblioteket importeres slik at vi kan bruke "Norm" -funksjonen fra statistikkmodulen for å generere tilfeldige data for gamma -distribusjonen. Så importer dette biblioteket ved å skrive følgende kommando "fra scipy importstatistikk".

Statmodulen vil også bidra til å ringe funksjonen Fit () for å finne distribusjonen for dataene vi vil generere. Nå, etter importen av statistikken, genererer du de kontinuerlige tilfeldige variablene opp til størrelse 400 med parameteren “A” og send den til normfunksjonen som “Statistikk. gamma. bobil (en størrelse = 400, random_state = 140) ”. Inntil dette trinnet har vi laget dataene vi ønsker å passe inn i gamma -distribusjonen, siden alle variablene i disse dataene er kontinuerlige tilfeldige variabler og de kan bare passe inn i gamma -distribusjonen. Fass deretter disse dataene i gamma -distribusjonen ved å sende disse dataene til inndataparameteren til funksjonen ”Statistikk. norm. passform (data) ”. Fra denne distribusjonen vil vi finne ut og vise skala-, terskel- og formparametere som utgang.

fra scipy importstatistikk
a = 1.
random_data = statistikk.gamma.bobil (a, størrelse = 400, random_state = 140)
form, skala, terskel = statistikk.gamma.FIT (RANDOM_DATA)
trykk (form)
trykk (skala)
trykk (terskel)

Konklusjon

Artikkelen diskuterer konseptet med å finne den beste passformen eller de beste passende distribusjonene for dataene eller tilfeldig genererte variabler enten kontinuerlige eller uavhengige. Videre diskuterer artikkelen parametrene som er nødvendige for distribusjonen og demonstrerer implementering av to typer distribusjoner på to forskjellige data ved hjelp av eksempler.