urllib.Robotparser

urllib.Robotparser
I dette innlegget lærer du om RobotParser -modulen i Urllib -pakken, som gir RobotFileParser -klassen for å bestemme om en gitt brukeragent kan få tilgang til en URL som er spesifisert i robotene.txt -fil.

RobotFileParser Class

RobotFileParser -klassen gir forskjellige metoder for lesing, analysering og svar på spørsmål om robotene.txt -fil til en gitt ressurs.

De støttede metodene inkluderer:

  1. set_url () - Definerer URL for robotene.txt -fil.
  2. Les () - leser robotene.txt -fil og mater den inn i robotene.TXT -parser.
  3. analyser (linjer) - Parses linjens argument.
  4. can_fetch (useragent) - Sjekker om en spesifisert brukeragent kan få tilgang til en spesifisert URL som spesifisert i robotene.txt -fil.
  5. mTime () - Returnerer tiden robotene.TXT -filen ble hentet,
  6. Modified () - Oppdaterer den siste hente tiden for robotene.txt til gjeldende tid.
  7. Crawl_Delay (UserAgent, URL) - Returnerer verdien av Crawl_Delay -parameteren.
  8. Request_rate (UserAgent) - Returnerer parameteren Request Rate som en navngitt tuple.
  9. SITE_MAPS () - Returnerer SITEMAP -parameteren fra robotene.txt -fil som en liste.

Eksempel Bruk sak

Følgende kode viser bruken av RobotFileParser -klassen og de medfølgende metodene.

Importer urllib.Robotparser
RP = urllib.Robotparser.RobotFileParser ()
rp.set_url ("https: // linuxhint.com/roboter.tekst")
rp.lese()
req_rate = rp.forespørsel_rate ("*")
req_rate.sekunder
rp.Crawl_Delay ("*")
rp.can_fetch ("*", "https: // linuxhint.com/abonner-til-linuxhint-com/")
rp.can_fetch ("*", "https: // linuxhint.com/abonner-til-linuxhint-com/wp-admin ")

Koden over starter med å importere RobotParser -modulen og opprette en forekomst av RobotFileParser -klassen.

Vi sender deretter nettadressen til robotene.txt -fil og send filen til analyseren. Vi bruker deretter de medfølgende metodene for å utføre forskjellige handlinger.
Koden over skal returnere:

5
30
ekte
Falsk

Konklusjon

I denne artikkelen diskuterte vi hvordan du bruker RobotParser -modulen fra Urllib -pakken som lar deg utføre forskjellige handlinger som gitt i robotene.txt -fil. Utforsk gjerne kildekoden for mer informasjon.