PDF scraping folosind R

Am folosit pachetul xml cu succes pentru extragerea tabelelor HTML, dar vreau să le extind la PDF. Din întrebările anterioare nu pare să existe o soluție simplă R, însă se întreba dacă s-au înregistrat evoluții recente

În lipsa acestui lucru, există un fel în Python (în care sunt un Novice complet) pentru a obține și manipularea pdf-urilor, astfel încât să pot termina jobul cu pachetul R XML

10

4 răspunsuri

Extragerea textului din PDF-uri este dificilă și aproape întotdeauna necesită multă atenție.

Aș începe cu instrumentele din linia de comandă, cum ar fi pdftotext și să văd ce scuipă. Problema este că PDF-urile pot stoca textul în orice ordine, pot folosi codificări de fonturi incomode și pot face lucruri cum ar fi folosirea unor caractere de ligaturare (cele asociate "ff" și "ij" pe care le vedeți în setarea corectă) pentru a vă arunca.

pdftotext este instalabil pe orice sistem Linux ...

10
adăugat
Ei bine, pdftotext funcționează bine în producerea unei pagini cu text curat, dar nu în orice formă, pentru a crea cu ușurință ceea ce vreau. Mulțumesc oricum
adăugat autor pssguy, sursa
Detașat. Făcând-o în R nu merită efortul oricui de a dezvolta și menține, atunci când există opțiuni care sunt mult mai bine menținute în afara R. Dacă aveți nevoie să faceți o mulțime de fișiere, încercați să utilizați find utilitar în Unix (sau în colecția GNU pentru Windows), sau unul poate avea R trimite comenzi la shell, looping peste nume de fișiere ... Chiar și Adobe a avut un extractor de text teribil pentru o lungă perioadă de timp (nu sunt sigur dacă este mai bine acum) , în timp ce Xerox a avut unul bun.
adăugat autor Iterator, sursa
Puteți să ne îndreptați către un fișier PDF reprezentativ?
adăugat autor Spacedman, sursa
Rularea pdftotext nu este strălucitoare pe acea pagină, dar conversia în ps prima sau doar executarea ps2txt pe PDF produce o masă aproape perfectă, cu unele capete de pagini/picioare pentru a le elimina.
adăugat autor Spacedman, sursa
Am avut noroc cu pdftotext și pe ferestre
adăugat autor pguardiario, sursa

S-ar putea să doriți să verificați miniere pachetul tm . Îmi amintesc că au implementat așa numiți cititori și că există și unul pentru PDF-uri.

5
adăugat
Mulțumiri. am verificat docs. Utilizează pdftotext cumva
adăugat autor pssguy, sursa

AFAIK nu există o modalitate ușoară de a transforma tabelele PDF în ceva util pentru analiza datelor. Puteți utiliza utilitarul File to Text ( Instrumentul de date Science Toolkit ) (interfața R prin pachet RDSTK ), apoi parsează textul rezultat. Fi avertizat: parsarea este adesea non-trivială.


EDIT: Există o discuție utilă despre conversia PDF-urilor în pe discerning.com . Răspunsul scurt este că va trebui probabil să cumpărați un instrument comercial.

4
adăugat
+1 Vă mulțumim pentru asta. am verificat discuția și am încercat să descarcă produsul ABBYY pe proces, dar nu ar fi instalat proprrly. Cred că sunt sortită
adăugat autor pssguy, sursa

Inima aplicației tabula care poate extrage tabelele din documente PDF este disponibilă ca o simplă linie de comandă Java, tabula-extractor .

Această aplicație Java a fost înfășurată în R prin pachetul tabiser . Treceți-l pe calea către un fișier PDF și acesta va încerca să extragă tabele de date pentru dvs. și să le returneze ca date.

Pentru un exemplu, vedeți Când documentele devin baze de date - Tabulizer R Wrapper pentru Tabula PDF Extractor de tabele .

1
adăugat
Python România
Python România
61 participanți

Comunitatea pasionaților de Python din România.

Python Jobs România - Moldova
Python Jobs România - Moldova
30 participanți

Comunitatea Python Română: @python_ro