Sie implementieren alles was man für das Abfragen von Webseiten braucht:
- HTTP-Klassen, welche die System nativen Funktionen zum Runterladen verwenden: Wininet unter Windows, Apache HTTPComponents unter Android, und Synapse überall sonst. Automatisch kümmern sich Weiterleitungen/Cookies/https.
- HTML-Parser, um die Seite vor zu verarbeiten
- XQuery / XPath 2 / JSONiq / CSS-Selektor-Interpreter, um die benötigten Werte mit einer vernünftigen (an xml/html angepassten und Turing-vollständigen) Programmiersprache auszulesen
- Templates für Pattern-Matching auf der Seite.
Code: Alles auswählen
uses simpleinternet;
var temp: IXQValue;
begin
for temp in process('http://google.de',
'distinct-values(//a/extract(@href, "http://([^/]*)/", 1))') do
writeln(temp.toString);
end.