Python urlparse

Python urlparse
URL -er inkluderer ofte viktige data som kan utnyttes når du evaluerer et nettsted, en deltakers søk eller distribusjon av materialet i hvert område. Selv om de noen ganger ser ut til å være ganske sammensatte, kommer Python med en rekke nyttige biblioteker som lar deg analysere nettadresser og hente deres bestanddeler.

I Python 3 gjør Urllib -pakken brukere å utforske nettsteder innenfra skriptet. Urllib inneholder flere moduler for å administrere forskjellige URL -funksjoner. Når du åpner en URL i Python -programmering, er Urllib -biblioteket avgjørende. Det lar deg besøke og samhandle med nettsteder ved å bruke deres Universal Resource Locator. Dette biblioteket gir oss pakker som: urllib.forespørsel, urllib.Feil, urllib.parse, og urllib.Robotparser.

I dette utdraget, til tross for at dette er et stort tema å forstå på en gang, vil vi ganske enkelt ta hensyn til urllib.analysemodul. Spesielt, URLParse () -metoden.

Urllib.Parse -modulen brukes til å analysere nettadressene til nettstedene. Det innebærer at ved å dele en URL, kan vi få dens forskjellige deler. I tillegg kan det brukes til å få hvilken som helst URL fra en kilde -URL og referansebane.

Laster urllib:

Python inkluderer Urllib som et standardbibliotek. For å bruke det, må vi først importere dette biblioteket. For dette vil vi åpne Spyder -verktøyet og skrive følgende kommando:

Importer urllib

UrlParse () modul:

URLParse () -modulen tilbyr en definert metode for å analysere en enhetlig ressurslokal (URL) til forskjellige seksjoner. For å si det enkelt, gjør denne modulen oss å enkelt skille nettadresser i forskjellige komponenter og filtrere ut en bestemt del fra URL -er. Det delte bare nettadressen i 6 komponenter som er relatert til den totale syntaksen til en

URL: Scheme:/Netloc/Path; Parameters?spørring#fragment.

La oss nå begynne vår opplæring med et praktisk eksempel.

Fra urllib.parse import urlparse, urlunparse

I dette kodebiten er det første vi gjorde å importere urlparse og urlunparse fra urllib.analyser. Dette vil muliggjøre alle nødvendige funksjoner i URLParse () -metoden i vårt verktøy.

Fra urllib.Parse import urlparse
EksempelURL = urlparse ('https: // linuxhint.com/')
Print ("URL -komponenter:", Eksempel på)

Nå, som vi kan bruke URLParse () -metoden. Vi har definert en variabel med navnet "Eksempel på" som vil lagre strengverdiene. Deretter brukte vi tildelingsoperatøren “=” for å tilordne verdier. Ved siden av har vi kalt “urlparse ()” -metoden. Inne i seler av URLParse () -metoden, mellom de omvendte kommaene, har vi definert en URL på et bestemt nettsted som vi ønsker å utføre analysen. Seler av PRINT () uttalelsen inneholder en sitert tekst og variabelnavnet, atskilt med et komma.

Bildet nedenfor viser oss følgende utgang.

Du kan se at den medfølgende nettadressen er delt inn i 6 komponenter. Nå, før vi dypper i å lære disse komponentene, vil vi først lære å sette disse komponentene tilbake til den originale URL -en.

For dette formålet er metoden som brukes "Urlunparse ()".

Fra urllib.parse import urlparse, urlunparse
EksempelURL = urlparse ('https: // linuxhint.com/')
Print ("URL -komponenter:", Eksempel på)
Unpar_Url = urlunparse (eksempelurl)
print ("original url:", unpar_url)

Vi har allerede importert Urlunparse fra urllib.analyser i ovennevnte utdrag. Nå vil vi lage en variabel som heter “Unpar_url”. Påkalle metoden “Urlunparse ()” og skrive navnet på variabelen, tildeler vi URL -åpningen for URLParse () -metoden I.e. “Eksempel på”. I det siste trinnet, bruk "print ()" -uttalelsen for å vise en tekst og variabelnavnet for å avpares URL.

Den analyserte URL vises i bildet som er festet nedenfor.

Bruken av urlparse () og urlunparse () -funksjonene er påvist. La oss nå utforske betydningen av hvert element i parseringen som ble returnert.

UrlParse () komponenter:

URLParse () -metoden deler den medfølgende URL -en i 6 biter som er skjema, netloc, sti, params, spørring og fragment.

Den første komponenten er ordningen. Ordningen brukes til å spesifisere protokollen som skal brukes til å skaffe online ressurser som kan være HTTP eller HTTPS. Neste komponent er Netloc: Nett refererer til nettverk mens LOC betyr beliggenhet. Så det forteller oss om den medfølgende nettverksstedet. Komponenten sti Inneholder den nøyaktige veien som en nettleser må ta for å skaffe den oppgitte ressursen. De params er banelementenes parametere. De spørsmål overholder banekomponenten og tilbyr en strøm av data som ressursen kan bruke. Den siste komponenten fragment Bare klassifiserer en del.

Som tidligere nevnt inneholder hvert av disse elementene noen data på URL -en. Siden det returnerte objektet er gitt som en tupel, kan alle disse komponentene også hentes ved å bruke indeksposisjonen.

Fra urllib.Parse import urlparse
EksempelURL = urlparse ('https: // linuxhint.com/')
Print (EksempelUrl.Scheme, "==", Eksempel på [0])
Print (EksempelUrl.Netloc, "==", Eksempel på [1])
Print (EksempelUrl.bane, "==", eksempel på [2])
Print (EksempelUrl.Params, "==", Eksempel på [3])
Print (EksempelUrl.spørring, "==", eksempel på [4])
Print (EksempelUrl.Fragment, "==", Eksempel på [5])

I dette kodebiten definerte vi indekser for hver komponent separat inne i setningen (). Vi brukte navnet på variabelen med komponentnavnet som vi nevnte variabelnavnet med indeksposisjonen som det ligger i strømmen. Vi vil fortsette å bruke denne sekvensen til vi har nevnt alle komponentene med tilsvarende indeksposisjoner.

Resulterende strenger kan sees på bildet her.

Selv om disse utgjør flertallet av det indekserte innholdet, kan flere søkeord også brukes til å hente visse ekstra funksjonaliteter som vertsnavn, brukernavn, passord og port. De Vertsnavn identifiserer vertsnavnet til den spesifiserte URL -en, Brukernavn har navnet på brukeren, passordet holder passordbrukeren gitt, mens havn forteller portnummeret.g \

Konklusjon

I dagens emne har vi diskutert URLParse () -modulen levert av Urllib.analyser. Vi forklarte formålet og brukervennligheten til URLParse () -metoden. Vi utdypet forskjellige komponenter i URLParse () -metoden og også hvordan vi får tilgang. Ved å implementere de praktiske eksempelkodene på nettadressen til et hvilket som helst spesifisert nettsted som bruker Spyder -verktøyet, prøvde vi å gjøre det enkelt, forståelig, men likevel gunstig læring for deg.