ich bitte um eine Bestätigung folgenden Fehlverhaltens einer Klasse in der Unit SAX_HTML. Ich weiß nicht genau an welcher Klasse es liegt.
Das Problem macht sich darin bemerkbar, dass HTML-Tags zu einem inkorrekten DOM führen.
Ich Parse eine HTML-Seite. In deren Quelltext befinden sich Kommentare der Form <!-- Bla bla -->. Scheinbar verursachen diese eine Fehlinterpretation.
EIn Beispiel-Ausschnitt:
Code: Alles auswählen
<div class="yom-mod yom-art-content " id="mediaarticlebody" itemprop="articleBody"><div class="bd"><!-- google_ad_section_start -->
<p class="first"></p>
Code: Alles auswählen
<div class="yom-mod yom-art-content " id="mediaarticlebody" itemprop="articleBody"/><div class="bd"><p class="first"></p>
Nun ist die Unit schon 11 Jahre alt, daher schließe ich keine Bugs aus. Bevor ich jedoch einen Bug melde, würde ich mich über eine Bestätigung meiner Beobachtung freuen. Das Große Problem ist nämlich, dass auf der Unit viele HTML-Funktionen wie ReadHTMLFile aufbauen.
Ein Hinveis in der Unit ist folgender, der aber nicht zuzutreffen scheint. Auf der anderen Seite gibt es im Text von Knoten weitere Tags (z. B. ein <a>-Tag eines Links im Fließtext.
Code: Alles auswählen
* Entity references in attribute values don't get parsed.