Texte aus PDF/DWG auslesen
- kralle
- Lazarusforum e. V.
- Beiträge: 1196
- Registriert: Mi 17. Mär 2010, 14:50
- OS, Lazarus, FPC: Manjaro Linux, Mint und Windows 10 ,Lazarus 3.99, FPC-Version: 3.3.1
- CPU-Target: 64Bit
- Wohnort: Bremerhaven
- Kontaktdaten:
Texte aus PDF/DWG auslesen
Moin,
bevor ich das Rad neu erfinde:
Hat sich hier schon mal jemand damit erfolgreich befasst, Text die in einem PDF / einer DWG in einem ganz bestimmten Bereich stehen, auszulesen?
Ich finde er ziemlich umständlich, erst in eine technische Zeichnung mehrere Texte einzugeben und den dann nachher die Texte auch noch in Listen (Excel und Webformular) einzupflegen.
Leider geht es nicht in der Reihenfolge Excel -> Web -> Zeichnung.
Gruß Heiko
bevor ich das Rad neu erfinde:
Hat sich hier schon mal jemand damit erfolgreich befasst, Text die in einem PDF / einer DWG in einem ganz bestimmten Bereich stehen, auszulesen?
Ich finde er ziemlich umständlich, erst in eine technische Zeichnung mehrere Texte einzugeben und den dann nachher die Texte auch noch in Listen (Excel und Webformular) einzupflegen.
Leider geht es nicht in der Reihenfolge Excel -> Web -> Zeichnung.
Gruß Heiko
OS: Manjaro Linux, Linux Mint und Windows 10
FPC-Version: 3.3.1 , Lazarus 3.99
+ Delphi XE7SP1
FPC-Version: 3.3.1 , Lazarus 3.99
+ Delphi XE7SP1
Re: Texte aus PDF/DWG auslesen
Es gibt z.B. https://en.wikipedia.org/wiki/Pdftotext
Aber PDF kann ganz schöner Horror sein, um Texte zu extrahieren, gerade wenn es besonders gestaltet/-layoutet ist.
Das kann auch aus dem Ruder laufen.
PDF als Textquell-/austauschformat würde ich allgemein nicht empfehlen.
Aber PDF kann ganz schöner Horror sein, um Texte zu extrahieren, gerade wenn es besonders gestaltet/-layoutet ist.
Das kann auch aus dem Ruder laufen.
PDF als Textquell-/austauschformat würde ich allgemein nicht empfehlen.
- kralle
- Lazarusforum e. V.
- Beiträge: 1196
- Registriert: Mi 17. Mär 2010, 14:50
- OS, Lazarus, FPC: Manjaro Linux, Mint und Windows 10 ,Lazarus 3.99, FPC-Version: 3.3.1
- CPU-Target: 64Bit
- Wohnort: Bremerhaven
- Kontaktdaten:
Re: Texte aus PDF/DWG auslesen
Moin,
ich wollte eigentlich wissen ob schon mal jemand hier, da was in Lazarus programmiert hat.
Aber, Deine Aussage, dass PDFs nicht gerade einfach auslesen sind, ermutigt nicht gerade.
Mit DWGs hast Du keine Erfahrung - oder?
Gruß Heiko
ich wollte eigentlich wissen ob schon mal jemand hier, da was in Lazarus programmiert hat.
Aber, Deine Aussage, dass PDFs nicht gerade einfach auslesen sind, ermutigt nicht gerade.
Mit DWGs hast Du keine Erfahrung - oder?
Gruß Heiko
OS: Manjaro Linux, Linux Mint und Windows 10
FPC-Version: 3.3.1 , Lazarus 3.99
+ Delphi XE7SP1
FPC-Version: 3.3.1 , Lazarus 3.99
+ Delphi XE7SP1
-
- Beiträge: 6912
- Registriert: Do 2. Jan 2014, 17:21
- OS, Lazarus, FPC: Linux (die neusten Trunk)
- CPU-Target: 64Bit
- Wohnort: Schweiz
Re: Texte aus PDF/DWG auslesen
Vielleicht hilft dir dies weiter: https://wiki.freepascal.org/fpvectorial
Mit Lazarus sehe ich grün
Mit Java und C/C++ sehe ich rot
Mit Java und C/C++ sehe ich rot
-
- Beiträge: 1224
- Registriert: So 20. Mär 2016, 22:14
- OS, Lazarus, FPC: Win7-64bit Laz1.9.0 FPC3.1.1 für Win, RPi, AVR embedded
- CPU-Target: Raspberry Pi 3
Re: Texte aus PDF/DWG auslesen
Hint: Mit LibreOffice - Draw kann man auch PDFs öffnen und hat dann die einzelnen Elemente (Textboxen...) vorliegen.
Da kann man sich das mal anschauen, ob die PDFs überhaupt sinnvoll Text enthalten.
Denn leider kann "Text" bei PDFs je nach dem Programm mit dem es erstellt wurde alles sein: Zeichenfolgen in Textboxen, jedes einzelne Wort in Textboxen, Wortteile willkürlich in Textboxen, jeder einzelne Buchstabe eines Textes in einer Textbox - und Text als Grafik im Dokument. Letzteres besonders beliebt als "Kopierschutz".
Da kann man sich das mal anschauen, ob die PDFs überhaupt sinnvoll Text enthalten.
Denn leider kann "Text" bei PDFs je nach dem Programm mit dem es erstellt wurde alles sein: Zeichenfolgen in Textboxen, jedes einzelne Wort in Textboxen, Wortteile willkürlich in Textboxen, jeder einzelne Buchstabe eines Textes in einer Textbox - und Text als Grafik im Dokument. Letzteres besonders beliebt als "Kopierschutz".
-
- Beiträge: 6912
- Registriert: Do 2. Jan 2014, 17:21
- OS, Lazarus, FPC: Linux (die neusten Trunk)
- CPU-Target: 64Bit
- Wohnort: Schweiz
Re: Texte aus PDF/DWG auslesen
Oder das schlimmste. Dokumente, die von Papier eingescannt wurden.
Mit Lazarus sehe ich grün
Mit Java und C/C++ sehe ich rot
Mit Java und C/C++ sehe ich rot
Re: Texte aus PDF/DWG auslesen
Noch schlimmer, wenn der Scanner dabei Zeichen vertauscht: https://www.youtube.com/watch?v=7FeqF1-Z1g0Mathias hat geschrieben: Do 11. Jun 2020, 07:47 Oder das schlimmste. Dokumente, die von Papier eingescannt wurden.
- Winni
- Beiträge: 1577
- Registriert: Mo 2. Mär 2009, 16:45
- OS, Lazarus, FPC: Laz2.2.2, fpc 3.2.2
- CPU-Target: 64Bit
- Wohnort: Fast Dänemark
Re: Texte aus PDF/DWG auslesen
Hi!
Im Falle von Linux gibt es einen schnellen Test, ob überhaupt Zeichen in der PDF vorhanden sind:
pdftotext Rein.pdf raus.txt
Winni
Im Falle von Linux gibt es einen schnellen Test, ob überhaupt Zeichen in der PDF vorhanden sind:
pdftotext Rein.pdf raus.txt
Winni