IsValidURL

Zur Vorstellung von Komponenten und Units für Lazarus
Benutzeravatar
Ally
Beiträge: 263
Registriert: Do 11. Jun 2009, 09:25
OS, Lazarus, FPC: Win und Lazarus Stable release
CPU-Target: x64

Re: IsValidURL

Beitrag von Ally »

Da fällt mir gerade auf, die Forensoftware hat hier auch so ihre Probleme eine URL, beim überfahren mit der Maus, zu erkennen.
Schiebt man den Mauscursor über http://flüge.de dann wird http://fl als URL identifiziert.
Und auch eine Textstelle wie http://fl..ge.de kann man als Link öffnen.

Warf
Beiträge: 1908
Registriert: Di 23. Sep 2014, 17:46
OS, Lazarus, FPC: Win10 | Linux
CPU-Target: x86_64

Re: IsValidURL

Beitrag von Warf »

Ally hat geschrieben:Da fällt mir gerade auf, die Forensoftware hat hier auch so ihre Probleme eine URL, beim überfahren mit der Maus, zu erkennen.
Schiebt man den Mauscursor über http://flüge.de dann wird http://fl als URL identifiziert.
Und auch eine Textstelle wie http://fl..ge.de kann man als Link öffnen.


URL's sind halt auch nicht einfach, und ich glaub die forensoftware ist ein bisschen out of date, was die unicode probleme bei flüge.de zur folge hat. Auch interresant ist whatsapp, was alles erkennt nur was auf eine gültige TLD hat, also .de, .org, etc. Das ist natürlich auch eine gute möglichkeit, aber dann müsste man halt eine liste mit allen (mittlerweile wahrscheinlich mehreren tausend) TLD's haben

Benutzeravatar
Ally
Beiträge: 263
Registriert: Do 11. Jun 2009, 09:25
OS, Lazarus, FPC: Win und Lazarus Stable release
CPU-Target: x64

Re: IsValidURL

Beitrag von Ally »

Hallo Warf,
könnte es sein, dass der Fehler durch die Hochkommas ( ' ) im langen Ausdruck entsteht?
Die andern Ausdrücke enthalten keine Hochkommas.

Code: Alles auswählen

 
function IsValidUrlRegEx(aUrl: String): Boolean;
var
  aRegEx: TRegexpr;
  aExpr: String;
begin
  //aExpr := '(http(s)?:\/\/.)?(www\.)?[a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([a-zA-Z0-9@:%_\+.~#?&//=]*)';
  //aExpr := '((http|https):\/\/)([^:\?#\[\]@!\$&\(\)\*\+,;=\.\s\/]+\.)+([^:\?#\[\]@!\$&\(\)\*\+,;=\.\s\/]+)($|\/[^\s]*)';
  aExpr := '/^[a-z](?:[-a-z0-9\+\.])*:(?:\/\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:])*@)?(?:\[(?:(?:(?:[0-9a-f]{1,4}:){6}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|::(?:[0-9a-f]{1,4}:){5}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:){4}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,1}[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:){3}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,2}[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:){2}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,3}[0-9a-f]{1,4})?::[0-9a-f]{1,4}:(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,4}[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,5}[0-9a-f]{1,4})?::[0-9a-f]{1,4}|(?:(?:[0-9a-f]{1,4}:){0,6}[0-9a-f]{1,4})?::)|v[0-9a-f]+\.[-a-z0-9\._~!\$&'\(\)\*\+,;=:]+)\]|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}|(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=])*)(?::[0-9]*)?(?:\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))*)*|\/(?:(?:(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))+)(?:\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))*)*)?|(?:(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))+)(?:\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))*)*|(?!(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@])))(?:\?(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@])|[\x{E000}-\x{F8FF}\x{F0000}-\x{FFFFD}\x{100000}-\x{10FFFD}\/\?])*)?(?:\#(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@])|[\/\?])*)?$/i';
 
  aRegEx := TRegexpr.Create;
  aRegEx.Expression := aExpr;
  aRegEx.ModifierG;
  try
    Result := aRegEx.Exec(aUrl);
  finally
    aRegEx.Free;
  end;
end;

Warf
Beiträge: 1908
Registriert: Di 23. Sep 2014, 17:46
OS, Lazarus, FPC: Win10 | Linux
CPU-Target: x86_64

Re: IsValidURL

Beitrag von Warf »

Erstmal hast du anscheinend meinen vorrigen beitrag (Link) übersehen, da hab ich erklärt das das erste / und das hinter /i weggelassen werden muss (die buchstaben vor dem ersten slash und dem letzten slash sind die modifier, z.B. g für global, i für caseinsensitive, etc.), und dann musst du die hochkommas natürlich ersetzen (ich glaub '''' sollte ein hochkomma in pascal darstellen, ansonsten ist #39 soweit ich weiß die char Konstante (oder du gibst den query einfach über ne textbox ein und rufst dann über Edit1.Text ab, dann machts natürlich keine probleme). Dann hab ich den einfach auf stackoverflow gefunden und hab einfach mal angenommen das es perl regex ist, kann aber auch ein anderer dialekt sein (wobei es generell nach dem perlregex aussieht). Leider gibts nicht das universelle regex, sondern es gibt viele regex dialekte, wobei sich der perl regex (der sich an der Perl syntax orientiert) der verbreitetste ist.

Persönlich weiß ich nicht mal wie die Lazarus regex implementation genau funktioniert, kann also nicht sagen ob der ausdruck überhaupt mit der Lazarus regex maschinerie kompatibel ist. Du benutzt ja RegExpr, das ist ein separates Package (zwar wirds mit dem fpc installiert, ist aber kein teil der FCL oder RTL) was schon einige jahre auf dem buckel hat (die kommt eventuell noch aus ner zeit vor unicode, dann kann der query nicht funktionieren), versuch eventuell mal FPC's interne Regex Unit, die ist neuer (und außerdem als teil der FCL musst du dir da keine gedanken über Lizenzen machen). Hab auch irgendwo gelesen das die RegExpr unit nicht die beste implementation haben soll, z.T. äußerst langsam (verglichen mit z.B. pythons oder .Net regex implementation) und auch nicht mehr gewartet wird

PS: wenn du mal mit Regex rumspielen willst gibts dafür ne ganze menge Online Tools wie https://regex101.com/ die dir den query sogar entschlüsseln und dir ne erklärung geben, was das entwickeln und debuggen davon deutlich erleichtert (im gegensatz zu das ganze einfach mal kompilieren und in lazarus ausprobieren). Wobei ich glaub der Query ist zu lang für die meisten online tools

Benutzeravatar
m.fuchs
Lazarusforum e. V.
Beiträge: 2636
Registriert: Fr 22. Sep 2006, 19:32
OS, Lazarus, FPC: Winux (Lazarus 2.0.10, FPC 3.2.0)
CPU-Target: x86, x64, arm
Wohnort: Berlin
Kontaktdaten:

Re: IsValidURL

Beitrag von m.fuchs »

Warf hat geschrieben:
aber IP-Adressen an Stelle eines Hostnamens als Teil der URL ist schon zulässig.

Die Frage ist ob man das wirklich braucht.

Klar, das hängt alles vom Anwendungsfall ab.

Warf hat geschrieben:Effektiv laufen auf einem Server mit einer IP mehrere Webserver die aufgrund der Domain unterscheiden welcher Webserver angesprochen wird. Im umkehrschluss bedeutet das, auf produktivservern solltest du über die IP nichts erreichen (da der die IP keinem server zuordnen sollte). Klar ist es möglich, aber dafür n extra check einzubauen für was was effektiv nicht verwendet wird ist zwar möglich, mMn. aber nicht sonderlich sinnig

Das ist sicherlich ein häufiges Szenario, aber eben nicht allgemeingültig. Ich will die Funktion aber auch nicht miesmachen, sondern gebe nur Denkanstöße was möglicherweise noch berücksichtigt werden muss.
Software, Bibliotheken, Vorträge und mehr: https://www.ypa-software.de

Benutzeravatar
Ally
Beiträge: 263
Registriert: Do 11. Jun 2009, 09:25
OS, Lazarus, FPC: Win und Lazarus Stable release
CPU-Target: x64

Re: IsValidURL

Beitrag von Ally »

@Warf,
ich habe mit dem langen Ausdruck noch etwas experimentiert. Deine Tipps dazu habe ich auch mal ausprobiert, leider alles ohne Erfolg.
Wahrscheinlich ist der String, so, für Lazarus nicht geeignet. Mich hätte einfach mal interessiert, wie sich ein so langer Ausdruck auf die Laufzeit auswirkt.
Den Thread bei Stack Overflow habe ich mal überflogen. Fazit: Viele Meinungen aber eigentlich keine abschließende Lösung.

@Alle,
Meine kleine Funktion macht mittlerweile, nicht zuletzt Dank eurer Hilfe, ziemlich genau das was sie soll und das auch recht schnell.
Aber trotzdem, wenn euch noch was auffällt, bitte melden.

Gruß Roland

Antworten