UiJuiJui,
ich wollte doch nur die Länge haben.....
Hier muss ich nochmal Danke sagen, für die "reichhaltigen" Informationen.
Was war das früher einfach, da hatte jeder Buchstabe sein eigenes Byte und fertig.
Umlaute und Sonderzeichen waren aber damals schon teils unterschiedlich,
es ist halt nur bis 0x7F genormt und dann beginnt das Chaos.
Momentan scheint ja eher der UTF8 ein inoffizieller Standard zu sein.
Eigentlich bin ich garnicht durch Lazarus auf diese Eigenheit gestossen,
sondern durch meine C Source Code Dateien. Ich habe mir eine .c Datei mit einem
Hexeditor angesehen, weil ich wissen wollte welchen Uni-Code das "Mikro" Zeichen hat.
Dann hab ich zum verblüffen gesehen, dass die ersten 3 Bytes meiner Datei sehr merkwürdig aussahen.
So habe ich in die aller erste Zeile, ganz oben links ein A Buchstaben gesetzt und
mir wieder den Hexcode angesehen.
Nun hätte ich dort ein 0x41 vermutet, aber so ist es nicht, sondern dort stand
vorab eine 3 Byte Sequenz 0xEF 0xBB 0xBF
Nach etwas googeln findet man Folgendes:
Diese Bytefolge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in UCS/Unicode-Zeichenketten, insbesondere Textdateien.
So fragte ich mich wie man denn die Textlänge überhaupt noch ermitteln kann und habe es mit Lazarus probiert.
Und dann stellte ich fest, das es ja auch garnicht mehr richtig funktioniert.
Das scheint ja heutzutage ein "riesen" Problem zu sein mit Texten zu arbeiten.
Aber verwunderlich finde ich schon, dass "einige" meiner Sourcen vorn eine 3 Byte Sequenz haben und andere nicht.
Mit dem Codepoint habe ich zwar gelesen aber nicht wirklich verstanden.
Ich wollte da eigentlich auch keine Wissenschaft draus machen, aber Textverarbeitung kommt mir nicht mehr in die Tüte.
Nur das nötigste für Beschriftungen, da es hier anscheind keine wirkliche Norm mehr gibt.
Das ist in meinen Augen das reinste Chaos

, oder ich bin schon zu alt dafür.
Mit den UTF8 und der entsprechenden Unit kann und muss ich wohl erstmal leben, das scheint ja richtig zu funktionieren.
Siro