Seitenzahl aus PDF-Datei auslesen usw.

Re(2): Seitenzahl aus PDF-Datei auslesen usw.

redbull1970 — Thu, 03 Jan 2008 06:48:23 GMT

Vielen Dank für den Tipp!

Ich probier jetzt mal aus, was mit den Bordmitteln von Acrobat geht und schau mir mal das "Acrobat JavaScript Scripting Guide" durch.

Re: Seitenzahl aus PDF-Datei auslesen usw.

kombipaket — Thu, 03 Jan 2008 00:02:28 GMT

Seeeeh Umständlicher Weg unter Linux:

Du könntest pdftotext verwenden.
Auszug aus der Manpage:


       Pdftotext converts Portable Document Format (PDF) files to plain  text.

...
und
...
      -f number
              Specifies the first page to convert.

       -l number
              Specifies the last page to convert.

Daraus sollte sich schnell ein Perlscript bauen lassen, das
- sich die 15.000 Begriffe in einem Hash merkt
- immer eine Seite mit pdftotext generiert
- dort tokenized
- und jedes Wort mit der Liste matcht.

Ein Problem wären nur abgetrennte Worte wie "Pro-blem" am Zeilenende - und noch mehr wohl Begriffe, die über 2 Seiten abgeteilt werden.

Ansonsten wäre es wohl eine unelegante aber praktikable Variante.

Re: Seitenzahl aus PDF-Datei auslesen usw.

mjy@geizhals.at — Wed, 02 Jan 2008 15:02:37 GMT

PDF kann verschlüsselt und komprimiert sein, wird also etwas komplizierter werden ...

Seitenzahl aus PDF-Datei auslesen usw.

redbull1970 — Wed, 02 Jan 2008 14:42:33 GMT

Ich habe
1. eine Liste mit 15.000 Begriffen als Word-Datei und
2. einige PDF-Dateien.

Jetzt soll - möglichst automatisch - in den PDF-Dateien nach diesen Begriffen gesucht werden, und die Seitenzahlen der Fundstellen in die Word-Datei eingetragen werden.

Gibt es vielleicht doch eine Möglichkeit?
(Scriptprogrammierung?, VB?)