Hva er AWS -lim

Hva er AWS -lim
AWS -lim er en AWS Data Integration Compute Service som hjelper til med å flytte datasettene mellom tjenestene for å forberede dem til analyse. Datasettene som er lagret i Amazon -lagringstjenestene som S3, blir overført til tjenestene som analyserer datasett som AWS Athena. Den primære funksjonen til AWS -lim er å lage ETL (Extract, Transform and Load) Jobs. ETL Jobs trekker ut dataene fra databasene for en bestemt tjeneste og endrer deretter og flytter dataene til et annet sted der det kreves analysert.

Mens de bruker ETL -jobber, kan brukere også bygge og overvåke datapipelinjene som de ekstraherte dataene overføres. AWS -lim integreres med tjenester som Amazon S3, Amazon DynamoDB, Amazon Redshift og Amazon RDS for å trekke ut og flytte data.

Denne artikkelen vil beskrive følgende aspekter ved AWS -lim:

  • Hva er komponentene i AWS -lim?
  • Hva er viktigheten av AWS -lim?
  • Hvordan bruke AWS -lim?

Hva er komponentene i AWS -lim?

Følgende er noen komponenter av AWS -lim som fungerer i koordinering for å utføre forskjellige oppgaver:

AWS limkonsoll: AWS limkonsoll definerer ETL -arbeidsflyt, og kaller API -operasjoner i andre AWS -limkomponenter for å utføre forskjellige oppgaver som løp.

Katalog: AWS lim datakatalog er metadata -butikken til AWS Cloud. I hver AWS -konto har hver AWS -region en limdatakatalog som allerede er opprettet. I datakatalogene lagres tabeller som inneholder data fra forskjellige tjenester som AWS RDS i en organisert form.

Crawlers og klassifiserere: Crawlers kan skanne dataene fra alle typer depoter på AWS. Gjennom crawlers kan brukere opprette databaser for å organisere datatabellene til de ekstraherte dataene i AWS -limet slik at dataene ser ren og organisert.

ETL -operasjoner: Brukeren kan "trekke ut" dataene fra en tjeneste og "transformere" dataene (for eksempel trekke ut rå data og transformere dem til en ren form ved å kategorisere dem i forskjellige datasett) og deretter "laste" dataene eller lage disse dataene tilgjengelig for tjenestene som kø og analyserer dataene.

ETL -jobber: Aws lim ETL -jobber administrerer ETL -arbeidsflyt gjennom noen konfigurasjoner. Brukere kan planlegge ETL -jobber til strømmen av data og utløse jobben på spesifikke hendelser som når nye data flyttes, en datatabell blir slettet osv.

Hva er viktigheten av AWS -lim?

AWS -lim er populært av forskjellige grunner, inkludert følgende:

  • AWS-lim er enkel å bruke og kostnadseffektivt sammenlignet med andre plattformer som gir samme funksjonalitet.
  • Brukere kan koble seg til over sytti forskjellige datakilder ved hjelp av AWS -lim.
  • Den gir en sentralisert datakatalog for å administrere ETL -prosessen for å trekke ut, administrere og flytte til Data Lakes.
  • AWS -lim er en serverløs tjeneste, så det er ikke nødvendig å sette opp, administrere og vedlikeholde serverne.

Hvordan bruke AWS -lim?

Bruken av AWS -lim er veldig enkel. Åpne "AWS Lim" -tjenesten etter å ha logget på AWS -konsollen. På venstre side-menyen på AWS-limkonsollen vil det være en liste over alternativer som gjør funksjonaliteten til AWS-limtjenesten mer forståelig. Brukeren kan utføre hvilken som helst ETL (Extract, Transform and Load) -jobben i AWS -limet:

For eksempel velger vi alternativet "databaser" for å opprette en database i AWS -limet eller få tilgang til en database opprettet i noen annen AWS -tjeneste:

Tilsvarende kan brukere opprette crawlers i AWS:

Hvis vi åpner detaljene til noen av de opprettede crawlers, viser den datakilden. Her er det klart at dataene får tilgang til fra en bøtte opprettet i AWS S3 -tjenesten:

Forklart ovenfor handlet om AWS -lim, dets komponenter, betydning og bruk.

Konklusjon

AWS -lim er den serverløse dataintegrasjonstjenesten til AWS som flytter dataene mellom AWS -tjenester, applikasjoner og programvarekomponenter. Dataene blir først trukket ut og deretter overført etter modifisering til en annen tjeneste som bruker AWS Cloud Resources effektivt. Denne pålitelige og skalerbare AWS-tjenesten er også enkel å bruke og foretrekkes fremfor andre plattformer med de samme funksjonalitetene på grunn av dens enorme og brukbare funksjoner og kostnadseffektivitet.