[gelöst] Suche AnsiIndexStr oder IndexStr

catweasel · Beitrag von **catweasel** » Di 13. Jul 2010, 13:39

Moin

Ich suche eine Möglichkeit in einem String Zahlen zu finden. Bei Delphi bin ich dabei auf AnsiIndexStr bzw. IndexStr gestoßen.

Bsp.:

Code: Alles auswählen

source := 'das folgende sind 01234 Zahlen';
position := AnsiIndexStr(source, ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9',]);

Leider scheint es etwas vergleichbares bei Lazarus nicht zu geben, oder?
Wir kann ich sonst Zahlen in einem String finden?

Gruß
Michael

theo · Beitrag von **theo** » Di 13. Jul 2010, 13:47

Die Funktion gibt's schon in strutils, aber die tut nicht was du willst.

Es ist aber doch wirklich nicht so schwer.
Einfach die Buchstaben des String durchrattern und schauen ob sie in ['0'..'9'] liegen.

catweasel · Beitrag von **catweasel** » Di 13. Jul 2010, 13:55

theo hat geschrieben:Die Funktion gibt's schon in strutils, aber die tut nicht was du willst.

Es ist aber doch wirklich nicht so schwer.
Einfach die Buchstaben des String durchrattern und schauen ob sie in ['0'..'9'] liegen.

Das hatte ich befürchtet

Ich hatte nur gehofft es gibt eine elegantere Methode

Gruß
Michael

catweasel · Beitrag von **catweasel** » Di 13. Jul 2010, 14:14

theo hat geschrieben:Einfach die Buchstaben des String durchrattern und schauen ob sie in ['0'..'9'] liegen.

Für den Fall das jemand vor dem gleichen Problem steht, hier meine Lösung dazu:

Code: Alles auswählen

text:='ein String mit 1234 als Zahl im Text';
for i:=1 to length(text) do begin
  if text[i] in ['0'..'9'] then zahlstring:=zahlstring+text[i];
end;
showmessage(zahlstring);

Gruß
Michael

mschnell · Beitrag von **mschnell** » Di 13. Jul 2010, 16:35

Nicht nur "nicht elegant", sondern vermutlich auch falsch.

Wie "rattert" man in einem UTF8-String die Buchstaben durch ?

Kann in UTF8 $30 ... $39 nie als zweites Byte eines Codes auftreten ?

-Michael

Beitrag von **pluto** » Di 13. Jul 2010, 17:06

Die Variable Text sollte von Typ UTF8String oder WideString sein. dann sollte es gehen.

ps:
Wenn die Funktion das tut was sie tun soll, kannst du sie ja in die "CodeLib" packen. Dann haben alle was davon.

Website · Beitrag von **Socke** » Di 13. Jul 2010, 17:13

mschnell hat geschrieben:Nicht nur "nicht elegant", sondern vermutlich auch falsch.

Wie "rattert" man in einem UTF8-String die Buchstaben durch ?

Kann in UTF8 $30 ... $39 nie als zweites Byte eines Codes auftreten ?

-Michael

1. Elegant eher weniger, aber richtig. Text ist nämlich ein Keyword von Pascal für Textdateien. Außerdem ist das hinzufügen von immer einem Buchstaben sehr ineffizient. Besser wäre Anfang und Ende suchen und dann mit Copy() kopieren.
2. Irgendwo in der RTL/FCL/LCL gibt es soweit ich weiß auch Funktionen dazu. Irgendwo in der Nähe des Typs TUTF8Char (oder so ähnlich).
3. Geraten: Nein. Die ersten 7 Bit sind in UTF8 genau wie ASCII kodiert. Da liegen alle lateinischen Buchstaben und arabischen Zahlen drinnen. Ansonsten sagen die Bits ganz Links aus, welcher Teil eines Zeichens sie sind (d.h. 0 = nur ein Byte; 1 = erstes Zeichen, erstes Byte...).

pluto hat geschrieben:Die Variable Text sollte von Typ UTF8String oder WideString sein. dann sollte es gehen.

UTF8String ist auch nichts anderes als ein AnsiString und enthält auch immer die Quelltextkodierung. WideString ist UCS2 und damit eine ganz andere Kodierung.

theo · Beitrag von **theo** » Di 13. Jul 2010, 17:42

mschnell hat geschrieben: Kann in UTF8 $30 ... $39 nie als zweites Byte eines Codes auftreten ?

Alle für den ASCII Bereich (wie auch die Zahlen hier) geschriebene Prozeduren kann man unter UTF-8 völlig unverändert weiterverwenden. Code / HTML Parser laufen unverändert weiter.

Der Code von catweasel ist richtig und übersichtlich. Performanter wäre die Methode mit Copy, ist aber für den vorliegenden Fall wahrsch. komplett egal.

Beitrag von **pluto** » Di 13. Jul 2010, 18:29

Der Code von catweasel ist richtig und übersichtlich. Performanter wäre die Methode mit Copy, ist aber für den vorliegenden Fall wahrsch. komplett egal.

Aber wohl auch nur für längere Zahlen Ketten. Nicht wenn es nur um vier oder acht stellige Zahlen geht.

UTF8String ist auch nichts anderes als ein AnsiString und enthält auch immer die Quelltextkodierung. WideString ist UCS2 und damit eine ganz andere Kodierung.

Ist mir bekannt. Aber dennoch laufen dann auch Forschleifen richtig. Wenn ich WideStrings oder UTF8Strings verwende. Das habe ich jedenfalls beobachtet. Aber vielleicht war es ja "auch" nur Zufall.

mschnell · Beitrag von **mschnell** » Mi 14. Jul 2010, 11:54

theo hat geschrieben:
mschnell hat geschrieben:Kann in UTF8 $30 ... $39 nie als zweites Byte eines Codes auftreten ?
....

(Nach Googeln der UTF-8 - Tabelle..)

Wenn Du einfach "Nein" gesagt hättest wäre alles klar gewesen. Damit hast Du nämlich recht. bei den Folge-Bytes von UTF-8 codes ist nämlich immer bit 7 gesetzt, so dass keine ASCII-Codierungen vorkommen können.

Gruß und Dank,
-Michael

theo · Beitrag von **theo** » Mi 14. Jul 2010, 12:07

mschnell hat geschrieben: Wenn Du einfach "Nein" gesagt hättest wäre alles klar gewesen.

Sorry, dachte das wäre dann implizit klar. (Was es scheint's ja auch ist

Das ist ein Vorteil von UTF-8. Da die meisten Tokenizer/Parser nur im ASCII Range arbeiten, kann man den ANSI/ASCII Code sorglos übernehmen.
Egal ob da intern mit PChar oder was-weiss-ich gearbeitet wurde. Dass geht bei Doublebyte (WideChar) nat. nicht ohne weiteres.

mschnell · Beitrag von **mschnell** » Mi 14. Jul 2010, 12:26

Schön !
Endlich erkenne ich 'mal einen Kompatibiltäts-Vorteil von UTF-8 gegenüber UTF-16. Sonst sah es für mich immer umgekehrt aus.

-Michael

Website · Beitrag von **Socke** » Mi 14. Jul 2010, 13:16

mschnell hat geschrieben:Schön !
Endlich erkenne ich 'mal einen Kompatibiltäts-Vorteil von UTF-8 gegenüber UTF-16. Sonst sah es für mich immer umgekehrt aus.

-Michael

Solange du mit ASCII und nicht mit ISO-8859-X arbeitest ists richtig

pluto hat geschrieben:
UTF8String ist auch nichts anderes als ein AnsiString und enthält auch immer die Quelltextkodierung. WideString ist UCS2 und damit eine ganz andere Kodierung.
Ist mir bekannt. Aber dennoch laufen dann auch Forschleifen richtig. Wenn ich WideStrings oder UTF8Strings verwende. Das habe ich jedenfalls beobachtet. Aber vielleicht war es ja "auch" nur Zufall.

Solange du diene Quelltexte mit Widestrings nicht in UTF-X speicherst ist ja alles in Ordnung. Ansonsten möchte ich nicht wissen, was da dein Programm zur Laufzeit meint zu haben und was der Compiler überhaupt ausgespuckt hat

.

gsa · Beitrag von **gsa** » Do 15. Jul 2010, 00:21

catweasel hat geschrieben:
theo hat geschrieben:Einfach die Buchstaben des String durchrattern und schauen ob sie in ['0'..'9'] liegen.
Für den Fall das jemand vor dem gleichen Problem steht, hier meine Lösung dazu:
Code: Alles auswählen
text:='ein String mit 1234 als Zahl im Text';
for i:=1 to length(text) do begin
  if text[i] in ['0'..'9'] then zahlstring:=zahlstring+text[i];
end;
showmessage(zahlstring);
Gruß
Michael

Ich kenne die Delphi-Funktion AnsiIndexStr bzw. IndexStr nicht und damit auch nicht das erwartete Ergebnis.

Wenn du deine Lösung beispielsweise mit

Code: Alles auswählen

text := '1 String mit 1234 als Zahl im Text mit 3 Ziffernblöcken';

Code: Alles auswählen

text := 'ein String mit 123,4 als Zahl im Text';

Code: Alles auswählen

text := 'ein String mit 12,34 als Zahl im Text';

fütterst, enspricht das jeweilige Ergebnis deinen Erwartungen?

Gruß Gerd

mse · Beitrag von **mse** » Do 15. Jul 2010, 07:32

mschnell hat geschrieben:Endlich erkenne ich 'mal einen Kompatibiltäts-Vorteil von UTF-8 gegenüber UTF-16.

Wobei das gleiche Prinzip in einem erweiterten Sinne auch für UTF-16 gilt. Die Werte des 16 Bit Bereiches der BMP kommen mit Ausnahme des nicht zugewiesenen Bereiches $D800 $DFFF als Werte von surrogate-pairs nicht vor.
http://en.wikipedia.org/wiki/UTF-16/UCS-2

Deutsches Lazarusforum

[gelöst] Suche AnsiIndexStr oder IndexStr

[gelöst] Suche AnsiIndexStr oder IndexStr

Re: Suche AnsiIndexStr oder IndexStr

Re: Suche AnsiIndexStr oder IndexStr

Re: Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr

Re: Suche AnsiIndexStr oder IndexStr

Re: [gelöst] Suche AnsiIndexStr oder IndexStr