Parsing PDF -filer er veldig kjedelig og komplisert for enhver programvareutvikler, ikke fordi det er komplekst, men på grunn av arten av PDF -filer. PDF -filer inneholder objekter som er identifisert med et unikt tall. PDF -objekter kan samle inn informasjon som bilder, tekst og mer. Disse objektene er kryptert og komprimert, noe som gjør det nesten umulig å behandle PDF -er som tekstdokumenter.
Denne guiden vil lære å analysere PDF -dokumenter ved hjelp av PHP -programmeringsspråket.
Oppsett
Det første trinnet er å sette opp et utviklingsmiljø. Vi starter med å installere PHP og de nødvendige bibliotekene.
For å installere PHP, åpne terminalen og skriv inn kommandoen:
$ sudo apt-get install php7.5 -y
Når PHP er installert, bruk den til å installere komponist som vist i kommandoene:
php -r "copy ('https: // getcomposer.org/installasjonsprogram ',' komponist-setup.php '); "Når vi har fått komponisten installert og satt opp, kan vi fortsette å bruke PDFParser -biblioteket.
Åpne terminalen og skriv inn kommandoen:
$ sudo php komponist.Phar krever smalot/pdfparser
Generere PDF -fil
Neste trinn er å velge en PDF -fil for bruk. Det er forskjellige måter og ressurser du kan bruke til å opprette en PDF -fil. For eksempel, hvis du er på Windows, kan du eksportere en .DOC/DOCX -dokument til PDF.
For dette eksemplet vil vi imidlertid bruke gratis filer som er lett tilgjengelige på internett. Åpne nettleseren din og naviger til ressursen som er gitt nedenfor:
https: // filesamples.com/formater/pdf
Velg en av de tilgjengelige PDF -filene og lagre den på systemet ditt.
MERK: Forsikre deg om å se etter ondsinnede filer før du bruker slike dokumenter. Verktøy som Virustotal er gode ressurser.
https: // www.virustotal.com/gui/
Følgende er en skanningsrapport av Sample1.PDF -fil.
https: // www.virustotal.COM/GUI/FIL/6B22904A7DE5B77BF40598C37E94E01771485E1B900651B58BF50AF7009F8056
Pakk ut PDF -metadata
For å trekke ut metadata fra PDF ved hjelp av PDF -parser -biblioteket, kan vi implementere prøvekode som vist nedenfor:
// inkluderer komponist AutoloaderOvennevnte kode skal hente metadatainformasjon om filen. Slik informasjon inkluderer:
CreationDate: 2016-12-22T11: 43: 55-05: 00Pakk ut tekst
For å trekke ut tekst fra hver side i den innsendte PDF, kan vi implementere koden som vist nedenfor:
inkluderer "leverandør/autoload.php ";Når vi har kjørt koden over, bør vi se teksten trukket ut fra prøven1.PDF -fil. Eksempel Ouput er som vist nedenfor:
Lukking
Denne guiden viser deg hvordan du kan analysere PDF -filer ved hjelp av PHP og PDFParser -biblioteket. Sjekk dokumentasjonen for å lære mer.