Scipy statistikkfunksjoner

Scipy statistikkfunksjoner

I Python er det en pakke for statistiske funksjoner i Scipy Library. Den scipy underpakken kalles scipy.statistikk. Det er mest ansatt for statistiske prosedyrer og sannsynlige fordelinger. Typene sannsynlighetsfunksjoner er mange. Bibliotekets åpen kildekode gir mulighet for utvidelse av dens statistiske evne. Vi kan jobbe med en rekke distribusjoner, inkludert binomial, ensartet og kontinuerlige distribusjoner. Vi har funksjoner for både kontinuerlige og diskrete variabler. I tillegg kan vi kjøre t-testen og beregne T-score. La oss lære mer om scipy statistikkfunksjoner med mange eksempler.

Scipy statistikk forklaring

Tallrike sannsynlighetsfordelinger, frekvens og sammendragsstatistikk, korrelasjonsfunksjoner og statistiske tester, estimering av kjernetetthet, maskert statistikk, kvasi-monte Carlo-funksjonalitet og andre funksjoner er inkludert i denne modulen.

Det er mange områder i det enorme statistikkfeltet som går utenfor Scipys omfang og håndteres av andre pakker. Blant de mest betydningsfulle er:

  • Statsmodeller
  • Pandas
  • Pymc
  • Scikit-Learn

Scipy.Statistikk underpakke inneholder alle statistiske rutiner, og Info (STATS) -funksjonen returnerer en ganske omfattende liste over disse funksjonene. Statistikk-under-DocString-pakkene inneholder i tillegg en liste over tilgjengelige tilfeldige variabler. Denne modulen inneholder en betydelig samling av sannsynlighetsfordelinger i tillegg til en ekspanderende samling av statistiske funksjoner.

Hva er normal kontinuerlig tilfeldig distribusjon i scipy?

For å omfatte både diskrete og kontinuerlige tilfeldige variabler, utvikles to generelle distribusjonsklasser. Den normale kontinuerlige tilfeldige distribusjonen er en av de typene vi skal diskutere her.

Variabelen kan ha noen verdi i denne typen sannsynlighetsfordeling. Det er derfor det er kjent som en kontinuerlig tilfeldig variabel.

Eksempel 1:

Det første eksemplet her viser hvordan konseptene som er diskutert i de foregående seksjonene fungerer. Vi importerer normfunksjonen, som stammer fra RV_Continuous -klassen, i denne eksemplet kode. Funksjonene inneholder tilnærminger og informasjon for å adressere en bestemt kontinuerlig distribusjon.

For å beregne CDF på en matrise, bruker vi normfunksjonen. La oss gjøre en innsats for å forstå kodelinjen for linje.

I den første linjen i koden importerer vi normen fra scipy.Statsbibliotek. Etter det importeres Numpy -biblioteket for utførelse av programmet. En variabel med navnet "sjekk" opprettes etterpå der den opprettet Numpy -matrisen er lagret. Til slutt brukes utskriftserklæringen der normen.CDF () -funksjonen utføres på den spesifiserte matrisen. La oss kjøre koden og se hvilket resultat den gir.

Fra scipy.Statistikk importerer norm
Importer numpy
sjekk = numpy.Array ([4, -2,3,2,5,0])
trykk (Norm.CDF (sjekk))

Her kan du se resultatet som er generert fra den tidligere skriftlige koden.

En ting vi kan gjøre er å bruke prosentpoengfunksjonen for å bestemme distribusjonens median. Det inverse av CDF er PPF, som er forkortet som PPF.

Her kan du se medianen til CDF -verdiene som genereres i forrige kode.

Hvordan generere en jevn fordeling i scipy

Enkelt sagt, en jevn distribusjon betegner en flat, konstant sannsynlighet for at en verdi faller innenfor et visst område. Å skape en jevn distribusjon er mulig. Etter å ha importert den enhetlige funksjonen, må vi opprette Array's CDF.

Skala og LOC -nøkkelord lar oss utvide funksjonaliteten. LOC -nøkkelordet definerer middelverdien, mens skalaen nøkkelord definerer standardavviket. Her er koden:

Først importerer vi Numpy og Uniform Module. Etter det oppretter vi variabelen vi lagrer den opprettede numpy -matrisen. Til slutt kan utskriftserklæringen sees der uniformen.CDF -funksjon brukes.

Importer numpy
Fra scipy.Statistikk importuniform
check_res = numpy.Array ([7,4,9,5,4])
trykk (uniform.cdf (check_res, loc = 5, skala = 3))

Vedlagt er utgangen for din hjelp.

Hvordan generere en binomial fordeling i scipy

I tillegg, ved å importere Binom, forekomsten av RV Diskrete klasse, kan vi produsere en binomial distribusjon. Det består av klasseinformasjon og metoder. Koden er ganske den samme som i forrige kode bortsett fra at vi bruker Bunom.CDF () -funksjon her som inkluderer tre parametere som du kan se i den siste linjen i koden.

Importer numpy
Fra scipy.Statistikk importerer binom
output = numpy.Array ([7,4,5,5,4])
Trykk (Binom.CDF (utgang, n = 1, p = 3))

Her er resultatet:

Hva er beskrivende statistikk?

Resultatene av grunnleggende statistikk som Min, Max, Mean og varians returneres ved hjelp av Numpy Array som input. Følgende tabell viser en håndfull av de grunnleggende statistiske operasjonene som er inkludert i Scipy.Statistikkpakke.

Funksjonsnavn Beskrivelse
beskrive() Den gitte arrays beskrivende statistikk beregnes gjennom dette alternativet.
gmean () Den spesifiserte aksenes geometriske gjennomsnitt beregnes med dette alternativet.
hmean () Langs den valgte aksen beregnes det harmoniske gjennomsnittet av HMEAN () -funksjonen.
Kurtose () Denne funksjonen beregner kurtose.
modus() Denne metoden returnerer den modale verdien.
skjev () Skew () -metoden tester skjevheten til de spesifiserte dataene.
f_oneway () Denne metoden utfører en 1-veis ANOVA.
IQR () Den bestemmer dataens interkvartile område langs den valgte aksen.
zscore () Det beregner z -poengsummen for hver verdi av prøven. Det er relativt til prøven så vel som standardavviket.
sem () Den bestemmer tallene i inngangsoppsettets standardfeil i gjennomsnittet.

Hva er en t-test?

T-testen er en av de beste måtene å vurdere om to gjennomsnitt er forskjellige fra hverandre eller ikke. T-testen er også et viktig diskusjonstema når det gjelder gruppeforskjeller.

T-score

T-score måler forholdet mellom to grupper så vel som variansen i grupperingene. T-score gjenspeiler hvor like eller forskjellige gruppene er; Jo mindre T-score, jo mer betydelig T-poengsum og desto større er forskjellen mellom gruppene.

Her får vi to prøver som kan komme fra samme distribusjon eller to forskjellige distribusjoner. Og vi vil avgjøre om de deler de samme statistiske egenskapene. Se følgende kode som er vedlagt her:

fra scipy importstatistikk
RVS_RES = Statistikk.norm.RVS (loc = 4, skala = 8, størrelse = (30,4)))
Trykk ("Her er resultatet av sammenligningen av de to prøvene:")
trykk (statistikk.TTEST_1SAMP (RVS_RES, 4.0))

Vedlagt er utgangen:

En p-verdi i forrige utgang representerer sannsynligheten for at resultatene fra prøvedataene dine skjedde ved et uhell. Området for p-verdier er 0% til 100%.

Konklusjon

Scipy statistikkfunksjoner var temaet for denne artikkelen. Scipys statistikkmodul er en avgjørende komponent. Det er nyttig å få de sannsynlige fordelingene. Ved hjelp av scipy statistikk kan diskrete eller kontinuerlige tilfeldige tall produseres. Det inkluderer også andre tilleggsfunksjoner som gir beskrivende statistiske verdier. Vi diskuterte tilfeldige, kontinuerlige og tilfeldige variabler i dette innlegget. Funksjoner for å samhandle med forskjellige distribusjonstyper diskuteres. I tillegg beskrev vi hvordan du kan analysere dataene ved å bruke t-testen for å bestemme middelverdien.