Wie kann ich eine HTML-Seite aus dem Internet laden und dann parsen?
Es geht mir um folgendes: ich möchte die Download-Anzahl aus der Launchpad-Download-Seite eines kleinen Projekts von mir anzeigen lassen. Dazu müsste ich irgendwie den folgenden Bereich aus dieser Seite auslesen:
Zu einem solchen Thema gab es hier im Forum einen längeren Thread. Da ging es auch um auslesen von HTML-Seiten, damals im Zusammenhang mit Nagios. Wenn man die Forumsuche verwendet kommt man auf folgendes Webserver abfragen
@pluto: Übrigends die runden Dinger sind Räder, die braucht man nicht neu erfinden
Blöd kann man ruhig sein, nur zu Helfen muss man sich wissen (oder nachsehen in LazInfos/LazSnippets).
@pluto: Übrigends die runden Dinger sind Räder, die braucht man nicht neu erfinden
Warum nicht? Tun viele... Jeder Apfel ist anders die am Baum vor sich hin wachsen *G*. Kein Apfel gleich den Anderen. Die haben nur ähnliche Eigenschaften.
So ist das mit dem Programmieren auch. Kaum jemand wird ein Programm eins zu eins genau so nach machen.
Ist die ankommende Seite XML-konform? (also damit meine ich _richtig streng_ XML konform)
Dann könntest du die Unit xmlread/dom benutzen.
Für alle weiteren Fälle, selber Parser schreiben.
HTML-Parser müssen sehr viel an Fehlern tolerieren, weil die Webseitengestalter eben die Geringeren unter den Entwicklern sind und dementsprechend unsauberen Code schreiben.
HTML-Parser müssen sehr viel an Fehlern tolerieren, weil die Webseitengestalter eben die Geringeren unter den Entwicklern sind und dementsprechend unsauberen Code schreiben.
Ich habe mich damit mal einige Zeit beschäftigt. Im Rahmen eines Projekts. So schwer ist das auch wieder nicht. Fertig bin ich zwar nicht geworden, aber ein Theoretisches Konzept habe ich schon und auch schon teilweise Anfangen. Wenn es nur um das Parsen geht.
Das Rendern ist natürlich noch ein anders Kapitel. Aber bitte nicht vergessen: HTML ist nicht gleich HTML. *G*