ich habe hier eine Menge an Textdateien... (letztlich ein Extrakt aus pdf-Dateien).
Nun haben diese Dateien alle mitten im Text wiederkehrende Merkmale (Footer, Seitenumbruch, Header), die ich löschen muss.
Beispiel:
Die Anzahl der Header- und Footerzeilen sind dabei natürlich variabel, aber innerhalb eines Dokumentes gleich.<FLIEßTEXT>
Änderungsdatum: 02.12.2022 Version: 4.2
Druckdatum: 11.12.2025
BlaBla DE-DE - AB1005910 Seite 1/10
<SEITENUMBRUCH>Firmy AB
Produktname: Eisenoxid XY
<FLIEßTEXT>
Mein Problem dabei:
wie kann ich Konstrukte wie 'Seite 1/10', '2 (12)', '(Fortsetzung von Seite 3)' als wiederkehrend herausfinden, ohne Regex zu benutzen (oder KI)?
Oder: wie kann ich Regex dazu benutzen, diese Zeilen als Header/Footer zu erkennen?
PS: Ist meine grundsätzliche Idee, die Datei in eine Stringliste einzulesen, den 1. Seitenumbruch zu finden (steht immer an Pos. 1 der Zeile) und die Zeilen davor und dahinter mit denen des 2. (bis x-ten) Seitenumbruchs zu vergleichen sinnvoll?