Redshift median funksjon

Erik Røed

Median er et greit og vanlig konsept i statistikk og sannsynlighet. Studenter relatert til slike matematiske felt er kjent med bruken og hvordan de kan beregne det muntlig. Det er ganske enkelt mellomverdien i et arrangert datasett. Hvis du vil finne medianen til et sett, må du bare ordne verdiene i stigende eller synkende rekkefølge og velge mellomverdien ut av det.

Det er to forskjellige scenarier mens du beregner medianen til et datasett:

Du har et oddetall verdier i datasettet vårt
Du har et jevnt antall verdier i datasettet vårt

I tilfelle du har et rart antall verdier, er løsningen rett frem og du kan finne mellomtallet enkelt.

Hvis du prøver å finne medianen for et jevnt antall verdier, må du ta gjennomsnittet eller gjennomsnittet av de to mellomtallene. Med andre ord, du må legge til de to verdiene som lå midt i datasettet og dele summen med to.

I denne artikkelen skal vi fokusere på hvordan du kan finne medianen til et datasett i Amazon Redshift -databasen. Redshift er en veldig kjent AWS Data Warehousing Service for å løse komplekse databasespørsmål og kjøre big data -analysejobber.

Syntaks for å bruke medianfunksjonen

Hvis du jobber med Redshift, kan du enkelt finne medianen til et datasett ved hjelp av følgende syntaks:

Median ( )

Her, The median uttrykk er ganske enkelt datasettet eller kolonnenavnet du vil finne medianen.

Eksempler på å bruke medianfunksjonen

La oss nå ta et eksempel der du vil finne medianen for elever i klassen i klassen. Du har et bord class_data med to kolonner Navn og alder i rødforskyvningsklyngen.

Vi har tilfeldige og uordnede data, og vi vil ha medianen av disse dataene. For å finne medianen for et slikt datasett, skriver du følgende spørring i Redshift:

Velg median (alder)
Fra organisasjonen.class_data

Spørringen er enkel og kort, men det returnerer medianen til datasettet som leveres via inngangsuttrykk til det. Medianfunksjonen kan bare være en liten del av mange komplekse spørsmål i vanskelig dataanalyse og statistiske jobber.

Du har sett hvordan du finner medianen til en kolonne som tilhører en viss databasetabell. La oss gå videre til et høyere nivå og se hvordan medianfunksjonen kan brukes i komplekse rødforskyvningsspørsmål.

Betinget sak

Her skal du se hvordan du kan legge til en betinget uttalelse mens du prøver å finne en median av et datasett. Anta at du jobber som IT -spesialist i salgs- og inntektsavdelingen i organisasjonen din. Du får tildelt en oppgave av din øvre ledelse for å finne medianen for prosjektene som koster over tusen dollar, og akkurat nå er alle prosjektene oppført i en enkelt databasetabell uten kostnadssegregering.

Du vet allerede hvordan du finner medianen for denne kolonnen. Men her er kravet vårt litt annerledes, det er grunnen til at du bruker følgende spørsmål for å oppnå de ønskede resultatene:

Velg median (kostnad)
fra organisasjonen.prosjekter
hvor koster> 1000

Du kommer til å få følgende utdata fra denne spørringen. Medianen vi mottok beregnes etter å ha ignorert alle verdiene til koste Mindre enn tusen.

Slik kan du bruke medianfunksjonen med en betinget grense for å få de nødvendige resultatene i Redshift -databasen.

Median vindusfunksjon

I tilfelle du ikke er kjent med vindusfunksjoner, brukes de når du ikke vil bruke funksjonen i hele databasetabellen eller kolonnen. Vindusfunksjonene lar deg bruke en funksjon på et sett eller en bestemt gruppe eller en rekke data. Hver gruppe vil returnere resultatet for den aktuelle funksjonen i en enkelt utgang. Du kan finne tilsvarende vindusfunksjoner for mange SQL -funksjoner i Amazon Redshift.

Anta at du skal starte et nytt prosjekt, men selskapet ditt mangler noen av ferdighetssettene for å fullføre prosjektet. Av denne grunn vil du outsource noen av den delen av prosjektet du har noen andre organisasjoner for å gi deg tilbud til dette outsourcing -prosjektet. Hver klient har kommet med tre forskjellige utførelsesplaner som du trenger å velge en.

Nå må du gå med en moderat plan for hver klient. For å finne løsningen først finner du medianen for hver klient hver for seg. Vi bruker median vindusfunksjon for denne oppgaven.

Velg Client_name, Project_Type, median (quotation_value)
over (partisjon etter klientnavn)
fra organisasjonen.klienter
bestilling av klientnavn;

I utgangen vil du få følgende resultater. Median for hver klient beregnes og vises separat ved hjelp av OVER klausul hvor vi har nevnt Klientens navn for grunnlaget for denne partisjonen.

På denne måten kan du bruke median -vindusfunksjonen ved hjelp av Amazon Redshift. Denne ordningen kan også brukes til mer komplekse og mye større datasett.

Konklusjon

Hvis du vil finne medianen til et datasett i Amazon Redshift, kan du utføre denne oppgaven enkelt ved å bruke Redshift -medianfunksjonen som lar deg beregne medianen for en komplett kolonne eller bare for en liten gruppe verdier ved å bruke median -vindusfunksjonen. Det er visse tilfeller og scenarier for medianfunksjon som er diskutert i denne bloggen for å gjøre din forståelse klar.

Python

Hvordan bruke Xrange i Python

Xrange () -funksjonen i Python 2.x eller rekkevidde () -funksjon i python 3.x brukes til effektiv it...

Simen Stensrud

Python

Hvordan sjekker jeg om en streng er tom i python

“Ikke” operatør, “len ()” -funksjon, “strip ()” -funksjon, “==” operatør, “__eq __ ()” -metoden, ell...

Elias Krogh Svendsen

Python

Python Ikke alle argumenter som er konvertert under strengformatering

Denne feilen kan fikses ved å korrigere syntaksen til % operatøren, ved å bruke format () -funksjone...

Simen Ødegård