Frage zur UTF8-Dekodierung

Kay · Beitrag von **Kay** » Mo 23. Jul 2012, 00:53

Hallo,

könnte mir vielleicht jemand den genauen Unterschied zwischen den Funktionen UTF8ToSys, UTF8ToAnsi und UTF8Decode erklären? Im Grunde wird doch letztlich immer die Funktion UTF8Decode aufgerufen und die übergebene Zeichenfolge von UTF-8 nach CP-1252 gewandelt oder?

Vieldn Dank
Kay

Website · Beitrag von **Socke** » Mo 23. Jul 2012, 02:32

Die Funktion UTF8Decode kodiert den String als UTF16 neu. In UTF16 benötigten die meisten Zeichen der gesprochenen Sprachen je 2 Byte. In UTF-8 benötigen diese eine unterschiedliche Anzahl an Bytes.
UTF8ToAnsi wandelt den String in die System-Codepage um; die kann, muss aber nicht CP1252 sein.
UTF8ToSys wandelt den übergebenen String in die Systemkodierung um; dabei versucht sie wenn möglich den Widestring-Manger zu umgehen.

mschnell · Beitrag von **mschnell** » Mo 23. Jul 2012, 08:48

Socke hat geschrieben:Die Funktion UTF8Decode kodiert den String als UTF16 neu. In UTF16 benötigten die meisten Zeichen der gesprochenen Sprachen je 2 Byte. In UTF-8 benötigen diese eine unterschiedliche Anzahl an Bytes.

"meistens 2 Byte" gilt vermutlich nur für "Europäische" Sprachen ?

Socke hat geschrieben:UTF8ToAnsi wandelt den String in die System-Codepage um; die kann, muss aber nicht CP1252 sein.

"ANSI System-Codepage", also ein Byte pro Zeichen.

Socke hat geschrieben:UTF8ToSys wandelt den übergebenen String in die Systemkodierung um; dabei versucht sie wenn möglich den Widestring-Manger zu umgehen.

(Wann) Ist "ANSI System-Codepage" und "Systemkodierung" etwas unterschiedliches ? Ist die "Systemkodierung" bei Lazarus defaultmäßig UTF-8 ?

-Michael

theo · Beitrag von **theo** » Mo 23. Jul 2012, 11:20

Socke hat geschrieben: UTF8ToAnsi wandelt den String in die System-Codepage um; die kann, muss aber nicht CP1252 sein.
UTF8ToSys wandelt den übergebenen String in die Systemkodierung um; dabei versucht sie wenn möglich den Widestring-Manger zu umgehen.

UTF8ToSys ruft auch UTF8ToAnsi auf, aber nur dann, wenn es nicht auf einem UTF8-System läuft.
In letzterem Falle tut UTF8ToSys nichts und gibt einfach den Input zurück.

Website · Beitrag von **Socke** » Mo 23. Jul 2012, 14:39

mschnell hat geschrieben:
Socke hat geschrieben:Die Funktion UTF8Decode kodiert den String als UTF16 neu. In UTF16 benötigten die meisten Zeichen der gesprochenen Sprachen je 2 Byte. In UTF-8 benötigen diese eine unterschiedliche Anzahl an Bytes.
"meistens 2 Byte" gilt vermutlich nur für "Europäische" Sprachen ?

Nein, in UTF-16 können alle Zeichen der Basic multilingual Plane mit 2 Bytes kodiert werden. Darin sind neben den lateinischen auch CJK, arabische, kyrillische Schriftzeichen (und jede Menge mehr) enthalten. Für die meisten Programme des alltäglichen Gebrauchs reicht das vollkommen aus.

mschnell hat geschrieben:
Socke hat geschrieben:UTF8ToSys wandelt den übergebenen String in die Systemkodierung um; dabei versucht sie wenn möglich den Widestring-Manger zu umgehen.
(Wann) Ist "ANSI System-Codepage" und "Systemkodierung" etwas unterschiedliches ? Ist die "Systemkodierung" bei Lazarus defaultmäßig UTF-8 ?

Lazarus kennt keine Systemkodierung. Die Lazarus Component Library (LCL; der Teil deiner Anwendung, der von Lazarus kommt und für die grafischen Komponenten zuständig ist) definiert, dass alle Strings in UTF-8 kodiert sein müssen.
Die Runtime Library (RTL; wird vom Free Pascal Compiler mitgebracht) besitzt eine Systemkodierung, da hier die Strings direkt an das Betriebssystem weitergereicht werden

Kay · Beitrag von **Kay** » Di 24. Jul 2012, 23:22

Hallo,

erstmal vielen Dank für eure Antworten. Die Anwendung der verschiedenen Funktionen habe ich verstanden.
Nun habe ich allerdings noch ein anderes Problem:
Ich möchte eine Webseite mit Hilfe der Klasse TXMLDocument erzeugen. Im Forum habe ich den Tipp erhalten, die Funktion UTF8Decode anzuwenden, damit beispielsweise Umlaute hierbei korrekt codiert werden:

Code: Alles auswählen

uses
  dom, xmlwrite;
 
procedure TForm1.FormCreate(Sender: TObject);
var
  XMLDoc: TXMLDocument;
  HtmlNode, HeadNode, BodyNode, TagNode: TDOMNode;
  TextNode: TDOMText;
begin
  XMLDoc := TXMLDocument.Create;
  HtmlNode := XMLDoc.CreateElement('html');
  XMLDoc.AppendChild(HtmlNode);
  HtmlNode := XMLDoc.DocumentElement;
  HeadNode := XMLDoc.CreateElement('head');
  HtmlNode.AppendChild(HeadNode);
  TagNode := XMLDoc.CreateElement('title');
  HeadNode.AppendChild(TagNode);
  TextNode := XMLDoc.CreateTextNode('Test');
  TagNode.AppendChild(TextNode);
  BodyNode := XMLDoc.CreateElement('body');
  HtmlNode.AppendChild(BodyNode);
  TagNode := XMLDoc.CreateElement('p');
  BodyNode.AppendChild(TagNode);
  TextNode := XMLDoc.CreateTextNode(UTF8Decode('Größe'));
  TagNode.AppendChild(TextNode);
  WriteXMLFile(XMLDoc, 'test.html');
  XMLDoc.Free;
end;

Wenn ich nun die gespeicherte Seite im IE öffne, bekomme ich als Zeichenkodierung UTF-8 angezeigt - so wie es sein soll. Der Text ist auch einwandfrei leserlich.
Was ich mich nun allerdings frage ist, wie das sein kann. Wenn ich den obigen Erläuterungen folge, codiert doch UTF8Decode die Zeichenfolge nach UTF-16? Ist das nicht eigentlich falsch? Und wieso muss ich überhaupt UTF8Decode ausführen, die Zeichenfolge liegt ja schon in UTF-8 vor und das resultierende XML-Dokument soll auch in UTF-8 codiert sein. Das finde ich etwas verwirrend...

Viele Grüße
Kay

theo · Beitrag von **theo** » Di 24. Jul 2012, 23:33

Die XML Klassen arbeiten einfach mit UTF-16.
Du hast recht, dass das eine hin- und her Umwandlerei ist, ist aber so.
Es sind halt FCL Klassen, und die haben sich nicht wie Lazarus auf UTF-8 festgelegt.
Einfach nicht zu viel grübeln.

Kay · Beitrag von **Kay** » Mi 25. Jul 2012, 21:51

Hallo theo,

theo hat geschrieben:Einfach nicht zu viel grübeln.

Hm, funktioniert ja auch soweit erstmal einwandfrei. Ich würde halt nur gern auch über die Hintergründe Bescheid wissen...
Wenn ich das also richtig verstehe, wird die von Lazarus in UTF-8 codierte Zeichenfolge mittels UTF8Decode nach UTF-16 "konvertiert", damit diese von der FCL korrekt verarbeitet werden kann. So und in der DOM-Klasse wird die Zeichenfolge wieder nach UTF-8 gewandelt, damit das resultierende XML-Dokument korrekt codiert ist. Wenn das so stimmt, dann wäre mir die Sache jetzt klar.

Vielen Dank und viele Grüße
Kay

Deutsches Lazarusforum

Frage zur UTF8-Dekodierung

Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung

Re: Frage zur UTF8-Dekodierung