Statistikkmodul i Python

Simen Stensrud

Hvis du er i forskningsverdenen, er statistikk av største betydning! Og Python tilbyr mange en modul for statistikk, men den vi skal snakke om i dag kalles statistikkmodulen. Det er en enkel modul, egentlig ikke for avansert statistikk, men for de som bare trenger en enkel og rask beregning. I denne opplæringen vurderer vi statistikkmodulen i Python.

Statistikkmodul

Statistikkmodulen gir enkle funksjoner for beregning av statistikken over et datasett. De hevder at de ikke konkurrerer med Numpy, Scipy eller annen programvare som SPSS, SAS og Matlab. Og det er faktisk en veldig enkel modul. Det gir ikke parametriske eller til og med ikke-parametriske tester. I stedet kan det brukes til å gjøre noen enkle beregninger (selv om jeg tror at til og med Excel kan gjøre det samme). De hevder videre at de støtter int, float, desimaler og brøk.

Statistikkmodulen kan måle (1) gjennomsnitt og mål for sentral beliggenhet, (2) målinger av spredning, og (3) statistikk for forholdet mellom to innganger.

Statistikk.mener()

Statistikkmodulen inneholder et stort antall funksjoner. Vi vil ikke dekke hver enkelt, men heller noen få av dem. I dette tilfellet er datasettet plassert i en liste. Listen sendes deretter til funksjonen.

For heltall:

hoved-.PY importstatistikk
x = [1, 2, 3, 4, 5, 6]
Gjennomsnitt = statistikk.Gjennomsnitt (x)
trykk (gjennomsnitt)

Når du kjører sistnevnte, får du:

hoved-.PY 3.5

For brøk er terminologien litt annerledes. Du må importere modulen som heter brøk. Du må også plassere brøkdelen i parentes og skrive en hovedstad F foran den. Således 0.5 ville være lik F (1,2). Dette er ikke mulig for store datasett!

hoved-.PY importstatistikk
fra brøk, importfraksjon som f
x = [F (1,2), F (2,3), F (3,4), F (4,5), F (5,6), F (6,7)]
Gjennomsnitt = statistikk.Gjennomsnitt (x)
trykk (gjennomsnitt)

Når du kjører sistnevnte, får du:

hoved-.PY 617/840

I de fleste forskningsarbeid er den vanligste typen antall som oppstår desimalverdien, og det er mye vanskeligere å oppnå med statistikkmodulen. Du må først importere desimalmodulen og deretter sette hver desimalverdi i anførselstegn (som er absurd og upraktisk hvis du har store datasett).

hoved-.PY importstatistikk
fra desimal import desimal som d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
Gjennomsnitt = statistikk.Gjennomsnitt (x)
trykk (gjennomsnitt)

Når du kjører sistnevnte, får du:

hoved-.Py 2.813333333333333333333333333333

Statistikkmodulen tilbyr også FMEAN, geometrisk middel og harmonisk middel. Statistikk.median () og statistikk.modus () ligner på statistikk.mener().

Statistikk.varians () og statistikk.Stdev ()

I forskning er veldig sjelden prøvestørrelsen din så stor at den tilsvarer eller omtrent tilsvarer befolkningsstørrelsen. Så vi ser på prøvevarians og prøvestandardavvik. Imidlertid tilbyr de også en populasjonsvarians og et populasjonsstandardavvik.

Nok en gang, hvis du vil bruke desimaler, må du importere desimalsmodulen, og hvis du vil bruke brøk, må du importere brøkmodulen. Dette, når det gjelder statistisk analyse, er ganske absurd og veldig upraktisk.

hoved-.PY importstatistikk
fra desimal import desimal som d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
var = statistikk.varians (x)
trykk (var)

Når du kjører sistnevnte, får du:

hoved-.PY 7.14426666666666666666666666667

Alternativt kan standardavviket beregnes ved å gjøre:

hoved-.PY importstatistikk
fra desimal import desimal som d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
STD = Statistikk.stdev (x)
Print (STD)

Når du kjører sistnevnte, får du:

hoved-.Py 2.672876103875124748889421932

Pearson korrelasjon

Av en eller annen grunn, selv om forfatterne av statistikkmodulen ignorerte ANOVA-tester, t-tester, osv. ... inkluderer de korrelasjon og enkel lineær regresjon. Husk at Pearson korrelasjon er en spesifikk type korrelasjon som bare brukes hvis dataene er normale; Det er dermed en parametrisk test. Det er en annen test som kalles Spearman -korrelasjon som også kan brukes hvis dataene ikke er normale (som har en tendens til å være tilfelle).

hoved-.PY importstatistikk
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
Corr = statistikk.Korrelasjon (x, y)
trykk (Corr)

Når du kjører sistnevnte, får du:

hoved-.Py 0.9960181677345038

Lineær regresjon

Når en enkel lineær regresjon blir utført, chucks ut en formel:

y = skråning * x + avskjæring

Excel gjør dette også. Men det mest denne modulen kan gjøre er å skrive ut verdien av skråningen og avskjæringen du kan lage linjen på nytt. Excel og SPSS tilbyr grafer for å gå med ligningen, men ingenting av det med statistikkmodulen.

hoved-.PY importstatistikk
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
skråning, avskjæring = statistikk.lineær_regresjon (x, y)
Print ("The Slope is % s" % skråning)
Print ("The Intercept er % s" % avskjæring)
print (" %s x + %s = y" %(skråning, avskjæring))

Når du kjører sistnevnte, får du:

hoved-.py skråningen er 0.9111784209749394
Avskjæringen er 0.46169013364824574
0.9111784209749394 x + 0.46169013364824574 = y

Samvariasjon

I tillegg kan statistikkmodulen måle samvariasjon.

hoved-.PY importstatistikk
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
COV = statistikk.samvariasjon (x, y)
Print (COV)

Når du kjører sistnevnte, får du:

hoved-.PY 4.2797199999999999

Selv om Python tilbyr en modul som heter Statistics -modulen, er det ikke for avansert statistikk! Husk at hvis du faktisk vil analysere datasettet ditt, kan du gå med en annen modul enn statistikkmodulen! Ikke bare er det for enkelt, men også alle funksjonene som den tilbyr lett kan finnes i Excel også. Videre er det bare to tester - Pearson -korrelasjonen og enkel lineær regresjon - som denne modulen tilbyr når det gjelder tester. Det er ingen ANOVA, ingen t-test, ingen chi-square eller noe av lignende! Og hva mer, hvis du trenger å bruke desimaler, må du påkalle desimalmodulen, som kan være frustrerende for store og veldig store datasett. Du vil ikke fange noen som trenger ekte statistisk arbeid som gjøres ved hjelp av denne modulen (gå med SPSS hvis du trenger avanserte ting), men hvis det er enkelt moro du leter etter, så er denne modulen noe for deg.

Glad koding!

Python

Pandas read_csv multiprocessing

For å forbedre databelastningshastigheten, inkludert fordelene og begrensningene PD.read_csv () ”-fu...

Daniel Berntsen

Docker

Hva er formålet med en Docker-komponering.YML -fil i Docker?

Hovedformålet med en “Docker-Compose.YML ”-filen er å forenkle prosessen med å distribuere og admini...

Elias Krogh Svendsen

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen