Hvordan lage en rødforskyvningsklynge på AWS

Hvordan lage en rødforskyvningsklynge på AWS
Vi kan bruke databaser til å lagre og administrere strukturerte datasett, men det er ikke nok for analyse og beslutninger. For dette formålet må vi trekke ut de nødvendige resultatene fra disse dataene ved å bruke datavarehus. Et datavarehus ligner på en vanlig SQL -database. Men i stedet for lagringsformål, er de designet for å kjøre analyser og spørsmål om dataene. Ved å bruke dette kan vi lese en veldig stor mengde data i løpet av en kort periode og studere trender og forhold mellom det. I denne artikkelen vil vi diskutere Redshift og hvordan den kan opprettes på AWS.

Hva er Amazon Redshift

AWS Redshift er et datavarehus som er spesielt brukt for dataanalyse på mindre eller større datasett. Det er en administrert tjeneste av AWS, slik at du enkelt kan konfigurere dette på kort tid med bare noen få klikk. For å sette opp rødskift, må du lage nodene som kombineres for å danne en rødforskyvningsklynge. En klynge kan ha maksimalt 128 noder. Av dem er den ene noden konfigurert som en masternode som kan administrere alle de andre nodene og lagre de spørte resultatene. Hver node kan ta opptil 128 TB data for å behandle. Ved hjelp av Redshift kan du spørre data om ti ganger raskere enn vanlige databaser.

Vanligvis plasseres dataene som må analyseres i S3 -bøtta eller andre databaser. Men du kan også direkte spørre dataene i S3 ved å bruke Redshift Spectrum. Videre kan du også bruke Kinesis Data Firehose eller EC2 -forekomster for å skrive data til din Redshift Cluster.

Denne tjenesten er bare begrenset til å operere i en enkelt tilgjengelighetssone, men du kan ta øyeblikksbildene til din rødforskyvningsklynge og kopiere dem til andre soner. Denne prosessen kan også automatiseres for å hjelpe til med katastrofegjenoppretting.

I neste avsnitt vil vi diskutere hvordan du oppretter og konfigurerer Redshift-klyngen på AWS ved hjelp av AWS Management Console og kommandolinjegrensesnitt.

Opprette rødskiftklynge ved hjelp av konsoll

Først må du logge på AWS -kontoen din ved å bruke AWS -legitimasjon og søk etter rødskift ved hjelp. Dette tar deg til rødforskyvningskonsollen.

Klikk på Lag klynge å begynne å lage en ny rødforskyvningsklynge.

I konfigurasjonsdelen må du oppgi identifikatoren eller navnet på din Redshift Cluster. Navnet på Redshift -klyngen må være unikt i regionen og kan inneholde fra 1 til 63 tegn.

Etter å ha gitt den unike klyngeidentifikatoren, vil den spørre om du trenger å velge mellom produksjon eller gratis nivå. For å unngå ekstra kostnader, vil vi bruke gratis nivåstypen til denne demonstrasjonsformålet.

Med den gratis tier -typen får du en DC2.Stor rødforskyvningsnode med SSD -lagringstyper og beregne kraft av 2 VCPUer.

Med alternativet GRATIS nivåer laster AWS automatisk opp noen eksempler på Redshift -klyngen for å hjelpe deg med å lære om AWS Redshift.

Eksempeldata lastet opp av AWS kalles Tickit og bruker en eksempeldatabase kalt Tickit. TickIt inneholder individuelle eksempler på datafiler: To fakta tabeller og fem dimensjoner.

Etter å ha lastet inn eksempeldata, vil det be om administratorbrukernavn og passord for å autentisere med AWS Redshift sikkert. Du kan enten angi administratorpassordet selv, eller det kan bli automatisk generert ved å klikke på Auto Genererer passordknapp.

Etter å ha gitt administratorbrukernavnet og passordet, kan vi opprette klyngen vår ved å klikke på Lag klynge i nedre høyre hjørne.

Dette vil skape vår nye Redshift -klynge og laste inn eksempeldataene i den. Du kan se dine tilgjengelige klynger i Redshift -konsollen.

Redshift er en slags SQL-database som kan kjøre analyser på datasett og støtter spørsmål fra SQL-type. For å kjøre analysen ved hjelp av rødforskyvningen, velg klyngen du ønsker og klikker på spørringsdata For å opprette en ny spørring.

For å kjøre spørringen, må du koble til med noen rødskifteklynger. For å oppnå dette, velg alternativet som er tilgjengelig øverst i spørringsdata seksjon.

Først må du velge tilkoblingen som vil være en ny tilkobling hvis du skal bruke Redshift -klyngen for første gang. Vi har ikke opprettet noen parameter for autentisering ved hjelp av Secrets Manager, så vi velger midlertidig legitimasjon.

Deretter må vi velge klyngeidentifikator, databasenavn og databasebruker. Etter det, klikk på Connect i nederst til høyre hjørne.

Hvis tilkoblingen er etablert vellykket, kan du se den "tilkoblede" statusen øverst i spørringsdata -delen.

Etter den vellykkede tilkoblingen kan du ganske enkelt skrive SQL -spørringen din ved å bruke redaktøren som er oppgitt. Vi lager et nytt tabell med tittelen personer og å ha fem attributter. Når spørringen er fullført, kan du utføre den ved hjelp av løpe Alternativet nederst.

Lag tabellpersoner (
PersonId int,
LastName Varchar (255),
FirstName Varchar (255),
Adresse varchar (255),
City Varchar (255)
);

Når du klikker på Løpe Knapp, den vil lage en tabell som heter Personer med attributtene som er spesifisert i spørringen.

Hele databaseskjemaet kan sees på venstre side i samme seksjon. Du kan se det nyopprettede tabellen og dets attributter her:

Så her har vi sett hvordan vi kan lage en rødforskyvningsklynge og løpe spørsmål ved hjelp av den på en enkel måte.

Opprette rødskiftklynge ved hjelp av AWS CLI

Nå vil vi se hvordan du bruker AWS-kommandolinjegrensesnittet for å konfigurere en rødforskyvningsklynge. Når du er vant til kommandolinjen og får litt erfaring, vil du finne den mer tilfredsstillende og praktisk enn AWS Management Console.

Først må du konfigurere AWS CLI på systemet ditt. For instruksjonene for å sette opp CLI -legitimasjon, besøk følgende artikkel:

https: // linuxhint.com/configure-aws-cli-credentials/

For å opprette en ny Redshift -klynge, må du kjøre følgende kommando ved hjelp av CLI:

$: AWS Redshift Create-Cluster \
--Node-type \
--Cluster-type \
--Antall noder \
--master-brukernavn \
--Master-bruker-password < username password> \
--Cluster-identifikator

Hvis klyngen er opprettet på AWS -kontoen din, vil du få en detaljert utdata, som vist på følgende skjermbilde:

Så klyngen din er opprettet og konfigurert. Hvis du vil se alle rødskiftklynger i en bestemt region, trenger du følgende kommando. Dette vil gi deg detaljene om alle klyngene som er opprettet på AWS -kontoen din.

$: AWS Redshift beskriver klynger

Til slutt har vi sett hvordan vi enkelt kan lage en rødskiftklynge ved hjelp av AWS CLI.

Konklusjon

Amazon Redshift er en fullt administrert datavarehus som kan brukes med andre AWS -tjenester som S3 -bøtter, RDS -databaser, EC2 -forekomster, Kinesis Data Firehose, Quicksight og mange andre for å gi ønsket resultater fra de gitte dataene. Det kan gi sikkerhetskopier i tilfelle svikt i katastrofegjenoppretting og har høy sikkerhet ved bruk av kryptering, IAM -retningslinjer og VPC. Så det er en veldig sikker og pålitelig tjeneste som kan analysere store datasett i raskt tempo.