Hallo,
Ich hab folgendes Problem auf Arbeit:
Der Kunde für den wir produzieren schickt uns Atbeitslisten in Excel. Diese muss ich umsortieren um besser Arbeiten zu können (erst nach Geschlecht und dann nach Größe). Anschließend schickt der Kunde mir eine PDF mit 700 Seiten, jeweils eine Seite ist ein Lieferschein. Diese PDF ist natürlich nicht geordnet sondern total zufällig. 700 Seiten per Hand sortieren ist doof. Es werden noch mehr kommen. Ich würde gern die Riesen PDF in einzelne PDFs je Lieferschein splitten, machbar, anschließend jede PDF nach 3 Strings durchsuchen lassen und anhand meiner Exceldaten den Dateiname der PDF in fortlaufende Nummern ändern um anschließend alle PDFs wieder zusammfuhren zu können um alle gebündelt auszudrucken oder halt einzeln aber dann geordnet nach unserer Liste zu belassen.
Kann man überhaupt PDF öffnen und nach Strings suchen lassen?
Edit:nein der Kunde kann nicht mir nach meinen Gusto sortierte PDFs schicken.
PDF Datei nach String durchsuchen
-
- Beiträge: 6916
- Registriert: Do 2. Jan 2014, 17:21
- OS, Lazarus, FPC: Linux (die neusten Trunk)
- CPU-Target: 64Bit
- Wohnort: Schweiz
Re: PDF Datei nach String durchsuchen
Die muss gehen, ansonsten hätte man in einem PDF-Reader keine Möglichkeit den Text zu markieren.Kann man überhaupt PDF öffnen und nach Strings suchen lassen?
Aber ob es für Lazarus so was gibt, kann ich leider nicht sagen.
Mit Lazarus sehe ich grün
Mit Java und C/C++ sehe ich rot
Mit Java und C/C++ sehe ich rot
- Niesi
- Lazarusforum e. V.
- Beiträge: 587
- Registriert: So 26. Jun 2016, 19:44
- OS, Lazarus, FPC: Linux Mint Cinnamon, Laz 4.1 Fpc 3.2.3 und allerlei mit FpcUpDeLuxe
- Kontaktdaten:
Re: PDF Datei nach String durchsuchen
Hallo,
schau mal hier: http://wiki.freepascal.org/PowerPDF
Oder auch das hier: https://forum.lazarus.freepascal.org/in ... ic=17192.0
Und sonst Suchen, z. B. mit "FreePascal PDF", vielleicht auch hier im Forum.
Beste Grüße
Niesi
schau mal hier: http://wiki.freepascal.org/PowerPDF
Oder auch das hier: https://forum.lazarus.freepascal.org/in ... ic=17192.0
Und sonst Suchen, z. B. mit "FreePascal PDF", vielleicht auch hier im Forum.
Beste Grüße
Niesi
Wissen ist das einzige Gut, das sich vermehrt, wenn es geteilt wird ...
Re: PDF Datei nach String durchsuchen
Mein Eindruck ist, dass diese Bibliotheken eher fürs Schreiben von pdf gedacht sind. Meines Wissens kann fpvectorial, das mit Lazarus ausgeliefert wird (components/fpvectorial) pdf lesen; allerdings habe ich das nie probiert (http://wiki.lazarus.freepascal.org/fpvectorial).
Außerdem wäre zu bedenken, ob die Lieferscheine nicht eingescannt sind. Dann liegen sie höchstwahrscheinlich als eingebettete Bitmaps vor und du musst schon mit schweren Geschützen wie OCR auffahren, um etwas auswertbares zu erhalten.
Außerdem wäre zu bedenken, ob die Lieferscheine nicht eingescannt sind. Dann liegen sie höchstwahrscheinlich als eingebettete Bitmaps vor und du musst schon mit schweren Geschützen wie OCR auffahren, um etwas auswertbares zu erhalten.
-
- Beiträge: 463
- Registriert: Do 8. Jun 2017, 18:21
- OS, Lazarus, FPC: Windows 10 64bit, Lazarus 3.6, FPC 3.2.2
- CPU-Target: 64Bit
- Wohnort: Wien
Re: PDF Datei nach String durchsuchen
Eine entscheidende Frage ist, wie die PDFs erstellt worden sind.
Wenn die PDFs mittels eines PDF Writers erstellt worden sind (dann verstehe ich aber nicht, warum der Kunde das nicht gleich in einer brauchbaren Sortierung liefern kann), dann ist es sicher möglich, den Text zu extrahieren - schlimmstenfalls mit dem Acrobat reader - alles markieren - Text in Zwischenablage legen - und per Lazarus-Programm Zwischenablage auslesen (es geht aber sicher auch besser).
Wenn das PDF über ein Scanprogramm erstellt wurde, dann hast du nur ein Bild und keinen Text im PDF, und dann kannst du nur mit einer OCR Software dein Glück versuchen. Feststellen kannst du das, indem di im Acrobat reader auf einem Wort einen Doppelklick machst. Wir das Wort markiert, dann enthält das PDF TExt, fuktioniert das Markieren eines Wortes nicht, dann hast du im PDF vermutlich nur ein gescanntes Bild.
edit: ich sehe erst, wp_xyz hat auch schon in der Richtung geantwortet.
Wenn die PDFs mittels eines PDF Writers erstellt worden sind (dann verstehe ich aber nicht, warum der Kunde das nicht gleich in einer brauchbaren Sortierung liefern kann), dann ist es sicher möglich, den Text zu extrahieren - schlimmstenfalls mit dem Acrobat reader - alles markieren - Text in Zwischenablage legen - und per Lazarus-Programm Zwischenablage auslesen (es geht aber sicher auch besser).
Wenn das PDF über ein Scanprogramm erstellt wurde, dann hast du nur ein Bild und keinen Text im PDF, und dann kannst du nur mit einer OCR Software dein Glück versuchen. Feststellen kannst du das, indem di im Acrobat reader auf einem Wort einen Doppelklick machst. Wir das Wort markiert, dann enthält das PDF TExt, fuktioniert das Markieren eines Wortes nicht, dann hast du im PDF vermutlich nur ein gescanntes Bild.
edit: ich sehe erst, wp_xyz hat auch schon in der Richtung geantwortet.
-
- Lazarusforum e. V.
- Beiträge: 7192
- Registriert: So 19. Nov 2006, 12:06
- OS, Lazarus, FPC: Linux Mint 19.3
- CPU-Target: AMD
- Wohnort: Oldenburg(Oldenburg)
Re: PDF Datei nach String durchsuchen
Vielleicht wäre ein erster Schritt, die 700 Seiten auf zu trennen in einzelne PDFs.
MFG
Michael Springwald
Michael Springwald