HTML-Seite laden und parsen

meister0815 · Beitrag von **meister0815** » Mi 13. Apr 2011, 17:30

Hallo zusammen

Wie kann ich eine HTML-Seite aus dem Internet laden und dann parsen?

Es geht mir um folgendes: ich möchte die Download-Anzahl aus der Launchpad-Download-Seite eines kleinen Projekts von mir anzeigen lassen. Dazu müsste ich irgendwie den folgenden Bereich aus dieser Seite auslesen:

Code: Alles auswählen

[...]
<tfoot>
   <tr>
       <th colspan="2" style="padding-top: 1em; text-align: right;">
        Total downloads:
       </th>
       <td style="border: none; text-align: center;">
         20
       </td>
   </tr>
 </tfoot>
 [...]

Bin für jeden Hinweis dankbar!

Viele Grüße, Meister0815

Beitrag von **m.fuchs** » Mi 13. Apr 2011, 17:55

Eine Möglichkeit wäre fcl-xml (http://wiki.lazarus.freepascal.org/fcl-xml), welches auch DOM-Routinen für HTML mitbringt.

mfg
Michael

theo · Beitrag von **theo** » Mi 13. Apr 2011, 18:05

Laden kannst du es mit Synapse oder LNet.

Aufwändig Parsen ist in diesem Fall ja nicht nötig.
Suche einfach diesen String:

Code: Alles auswählen

Total downloads:
       </th>
       <td style="border: none; text-align: center;">

Und vom Ende aus das </td>

Dazwischen liegt deine Zahl.

Beitrag von **pluto** » Do 14. Apr 2011, 19:04

Ich würde ein einfachen Parser schreiben *G*.... Aber Theos Vorschlag dürfte wohl am einfachsten sein.

Beitrag von **af0815** » Do 14. Apr 2011, 19:56

Zu einem solchen Thema gab es hier im Forum einen längeren Thread. Da ging es auch um auslesen von HTML-Seiten, damals im Zusammenhang mit Nagios. Wenn man die Forumsuche verwendet kommt man auf folgendes Webserver abfragen

@pluto: Übrigends die runden Dinger sind Räder, die braucht man nicht neu erfinden

Beitrag von **pluto** » Do 14. Apr 2011, 21:03

@pluto: Übrigends die runden Dinger sind Räder, die braucht man nicht neu erfinden

Warum nicht? Tun viele... Jeder Apfel ist anders die am Baum vor sich hin wachsen *G*. Kein Apfel gleich den Anderen. Die haben nur ähnliche Eigenschaften.

So ist das mit dem Programmieren auch. Kaum jemand wird ein Programm eins zu eins genau so nach machen.

carli · Beitrag von **carli** » Do 14. Apr 2011, 21:25

Ist die ankommende Seite XML-konform? (also damit meine ich _richtig streng_ XML konform)

Dann könntest du die Unit xmlread/dom benutzen.

Für alle weiteren Fälle, selber Parser schreiben.
HTML-Parser müssen sehr viel an Fehlern tolerieren, weil die Webseitengestalter eben die Geringeren unter den Entwicklern sind und dementsprechend unsauberen Code schreiben.

Beitrag von **pluto** » Do 14. Apr 2011, 21:47

HTML-Parser müssen sehr viel an Fehlern tolerieren, weil die Webseitengestalter eben die Geringeren unter den Entwicklern sind und dementsprechend unsauberen Code schreiben.

Ich habe mich damit mal einige Zeit beschäftigt. Im Rahmen eines Projekts. So schwer ist das auch wieder nicht. Fertig bin ich zwar nicht geworden, aber ein Theoretisches Konzept habe ich schon und auch schon teilweise Anfangen. Wenn es nur um das Parsen geht.

Das Rendern ist natürlich noch ein anders Kapitel. Aber bitte nicht vergessen: HTML ist nicht gleich HTML. *G*

Deutsches Lazarusforum

HTML-Seite laden und parsen

HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen

Re: HTML-Seite laden und parsen