Unicode Escape Sequences in AnsiString konvertieren

Beitrag von **m.fuchs** » Di 29. Dez 2009, 21:27

Hallo,

ich verzweifle irgendwie daran einen String der Unicode Escapsequenzen enthält
in einen Ansistring zu konvertieren:

Milch f\u00fcr alle => Milch für alle

Kennt da jemand eine Funktionen in Freepascal (RTL/FCL/LCL)?

mfg
Micha

mschnell · Beitrag von **mschnell** » Di 29. Dez 2009, 21:50

1) Warum willst Du das ? Das aktuelle Lazarus sollte ohnehin komplett mit Unicode arbeiten. (Was daran funktioniert, bzw. nicht so funktioniert, wie man(cher) sich das vorstellt, ist in diversen Threads hier diskutiert worden)

2) Im aktuellen Lazarus (sprich FPC) wird Text im Unicode- UTF8-Format im Stringtyp AnsiString gespeichert. Das ist von der Benamsung zwar widersinnig, wird sich aber erst mit der zukünftigen FPC-Version mit Strings, die ihre interne Codierung dynamisch verwalten, ändern. Die Fragestellung "Unicode Escape Sequences in AnsiString konvertieren" ist also so nicht zu beantworten.

3) Vermutlich meinst Du "UTF8 codierte Byte-Folge in ANSI(Westeuropa)-codierten Byte-Folge umcodieren". Soweit ich weiß gibt es tatsächlich in der RTL der neusten Lazarus-Verison Funktionen dafür (ich habe hier leider nur die alte nicht-Unicode Version).

Gruß,
-Michael

theo · Beitrag von **theo** » Di 29. Dez 2009, 21:57

mikescu hat geschrieben: Kennt da jemand eine Funktionen in Freepascal (RTL/FCL/LCL)?

Mir nicht bekannt.
Das ist aber nicht wirklich ein Grund zum Verzweifeln.
Den String scannen, nach u\ suchen und die nächsten vier Zeichen mit StrToInt umwandeln.
Dann mit UTF8Encode(WideChar(myWord)) umwandeln und in die String Kopie einfügen.
Danach kannst du mit UTF8ToSys u.U auf Windows einen Ansi String erhalten (Unter Laz. aber nicht zu empfehlen)

theo · Beitrag von **theo** » Di 29. Dez 2009, 22:04

@mschnell: Mal wieder ein Unicode-Schwachsinn-Kommentar von mschnell

Beitrag von **m.fuchs** » Di 29. Dez 2009, 22:22

theo hat geschrieben:Den String scannen, nach u\ suchen und die nächsten vier Zeichen mit StrToInt umwandeln.

Ähm Hex2Dec statt StrToInt oder? Sonst bräuchte ich ja noch ein $

theo hat geschrieben:Dann mit UTF8Encode(WideChar(myWord)) umwandeln und in die String Kopie einfügen.
Danach kannst du mit UTF8ToSys u.U auf Windows einen Ansi String erhalten (Unter Laz. aber nicht zu empfehlen)

Warum nicht zu empfehlen?

mfg
Micha

theo · Beitrag von **theo** » Di 29. Dez 2009, 22:31

Hab ich eben runtergehackt. Ist noch nicht gut getestet:

Code: Alles auswählen

Function UnicodeEscapeToUTF8(S:String): String;
Var len, i, count: integer;
  temp: String;
Begin
  len := length(S);
  SetLength(Result,len);
  i := 1;
  count := 1;
  Repeat
    If S[i]='\' Then
      If (i<len) And (S[i+1]='u') Then
        Begin
          If i<len-4 Then
            Begin
              temp := Copy(S,i+2,4);
              temp := UTF8Encode(WideChar(StrToInt('$'+temp)));
              Insert(temp,Result,Count);
              inc(Count,length(Temp));
              inc(i,6);
            End;
        End;
    Result[count] := S[i];
    inc(count);
    inc(i);
  Until i>len;
  SetLength(Result,count-1);
End;

theo · Beitrag von **theo** » Di 29. Dez 2009, 22:49

mikescu hat geschrieben: Warum nicht zu empfehlen?

Weil die LCL mit UTF8 arbeitet (Linux heute auch). Du kannst das Resultat obiger Funktion versuchen mit UTF8ToSys in Ansi umzuwandeln, wenn du unbedingt willst und unter Ansi Windows bist.
P.S. die Forum Software hackt oben den Backslash weg. Mit Zitieren siehst du aber den originalen Code.

Beitrag von **pluto** » Mi 30. Dez 2009, 00:42

@theo
Dein Beispiel wird bei mir zu 95% Rot angezeigt im Browser *G*.... Das ist schon mal eine Warnung. Rot = Warnfarbe

@mikescu
Mir ist aufgefallen, in meinen Projekten: Wenn ich WideStrings nutze bekomme ich die Tollsten Fehler. Z.B. in Verbindung mit TextOut. Ich denke mal du kannst folgendes versuchen:
StringVar:='meine Unicode Escape Sequences';
Wobei StringVar vom Typ String sein sollte. Kann natürlich auch sein das TextOut in der API das Automatisch umwandelt.

mschnell · Beitrag von **mschnell** » Mi 30. Dez 2009, 11:00

@Theo: Ich habe doch inhaltlich exakt dasselbe gesagt wie Du (z.B.: "(Unter Laz. aber nicht zu empfehlen)"). Nur dass Du natürlich - weil Du tatsächlich mit dem aktuellen Unicode-Lazarus arbeitest, die Namen der notwendigen RTL-Funktionen weißt und damit dem OP möglicherweise auch weiterhelfen kannst.

-Michael

mschnell · Beitrag von **mschnell** » Mi 30. Dez 2009, 11:03

mikescu hat geschrieben:Warum nicht zu empfehlen?

Siehe jede Menge Diskussionen über Unicode im Laufe des Jahres in diesem Forum (ie zu keiner einhelligen Meinung <z.B. zwischen Theo und mir> geführt haben

).
-Michael

mschnell · Beitrag von **mschnell** » Mi 30. Dez 2009, 11:06

pluto hat geschrieben:Mir ist aufgefallen, in meinen Projekten: Wenn ich WideStrings nutze bekomme ich die Tollsten Fehler.

Warum das so ist, ist weitgehend (mühsam) geklärt worden. Ob das gut so ist, darüber streiten sich die Geister. Siehe besagte Diskussionen....
-Michael

theo · Beitrag von **theo** » Mi 30. Dez 2009, 11:08

pluto hat geschrieben:@theo
Dein Beispiel wird bei mir zu 95% Rot angezeigt im Browser *G*.... Das ist schon mal eine Warnung. Rot = Warnfarbe

Hab ich ja geschrieben. Das ist die Forum Software. Dort wo der rote Teil beginnt, wäre ein \ Zeichen. Das wird aber vom Forum Hightlighter irgendwie verschluckt. Den originalen Code siehst du, wenn du auf "Zitieren" clickst.

theo · Beitrag von **theo** » Mi 30. Dez 2009, 11:17

mschnell hat geschrieben:@Theo: Ich habe doch inhaltlich exakt dasselbe gesagt wie Du (z.B.: "(Unter Laz. aber nicht zu empfehlen)"). Nur dass Du natürlich - weil Du tatsächlich mit dem aktuellen Unicode-Lazarus arbeitest, die Namen der notwendigen RTL-Funktionen weißt und damit dem OP möglicherweise auch weiterhelfen kannst.

Nur weil du's nicht kapierst, muss du nicht gleich wortreich aber inhaltsarm den Neulingen Angst machen.
Die Lösung habe ich gezeigt. Es ist nicht so schwierig.
Ausserdem hat diese Aufgabe mit den üblichen Unicode Diskussionen wenig zu tun.

Deutsches Lazarusforum

Unicode Escape Sequences in AnsiString konvertieren

Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren

Re: Unicode Escape Sequences in AnsiString konvertieren