[erledigt] Dateioperationen (readln, readstrings) und UTF8

Scotty · Beitrag von **Scotty** » Mo 4. Mai 2009, 13:52

Hallo,
wie lese ich Daten mit Umlauten richtig ein?
Ich komme weder bei readln() noch per loadfromfile() oder readstrings() damit zurecht. Vermutlich liegt es daran, dass FPC Strings nicht automatisch als WideStrings behandelt, die Implementierung jeweils aber als String erfolgt (readln(<file>,<widestring>) geht gar nicht). Muss ich nun inifiles.pp neu programmieren?

Zielplattform soll Windows und Linux sein, ich arbeite unter Ubuntu.
test.txt:

Code: Alles auswählen

[Text]
1=ABC
2=ÄBC
3=ÄÖÜ
4=XYZ
5=äbc
6=xyz

Variante 1:

Code: Alles auswählen

if opendialog1.execute then
begin
  assignfile(tmp,opendialog1.filename);
  reset(tmp);
  memo1.lines.clear;
  while not eof(tmp) do
  begin
    readln(tmp,s);
    memo1.lines.add(s);
  end;
  closefile(tmp);
end;

Variante 2

Code: Alles auswählen

if opendialog1.execute then
with TStringList.Create do
try
  LoadFromFile(OpenDialog1.FileName);
  while Count>0 do
  begin
    Memo1.Lines.Add(Strings[0]);
    Delete(0);
  end;
finally
  Free;
end;

Variante 3

Code: Alles auswählen

if OpenDialog1.Execute then
begin
  sl:=TStringList.Create;
  with TIniFile.Create(OpenDialog1.FileName) do
  try
    ReadSectionValues('Text',sl);
    while sl.Count>0 do
    begin
      Memo1.Lines.Add(sl[0]);
      sl.Delete(0);
    end;
  finally
    Free;
    sl.free;
  end;
end;

Ergebnis:

Code: Alles auswählen

[Text]
1=ABC
4=XYZ
6=xyz

oder mit AnsiToUtf8()

Code: Alles auswählen

[Text]
1=ABC
2=?BC
3=???
4=XYZ
5=?bc
6=xyz

mschnell · Beitrag von **mschnell** » Mo 4. Mai 2009, 15:26

Scotty hat geschrieben:Hallo,wie lese ich Daten mit Umlauten richtig ein?

readln() und Genossen ist gaaaaaanz alte Technik aus DOS-Zeiten. m.E. sollte man das nicht mit Unicode verheiraten (obwohl es natürlich sicherlich geht).

Wenn Du eine Text-Datei Zeilenweise bearbeiten willst nimmst Du doch besser TStringlist.ReadfromFile.

Und wenn Du Unicode-Widestrings in Lazarus verwenden willst, musst Du Dich sowieso auf einiges gefasst machen. Lies dazu bitte erstmal die entsprechenden tausend Beiträge ein einigen Threads hier. (suchen: "Unicode").

Zuerst musst Du natürlich wissen, wie die Datei, die Du einlesen willst codiert ist (z.B. länderspezifische ANSI, utf8, mit oder ohne Sonder-Kodierungen (ü als zwei separate Codepoints anstatt ein Codepoint aus zwei Code-Bytes), UTF16, mit oder ohne Sonder-Kodierungen ...)

Eine System-Library umprogrammieren würde ich nicht. (da wird sich sowieso in absehbarer Zeit wieder was ändern, wenn der FPC eine flexiblere Unicode-.Unterstützung bekommt. Vermutlich musst Du in Deinem Programm das Einlesen in Widestrings String für String ausprogrammieren.

-Michael

Scotty · Beitrag von **Scotty** » Mo 4. Mai 2009, 15:56

mschnell hat geschrieben:Lies dazu bitte erstmal die entsprechenden tausend Beiträge ein

Eine Zusammenfassung oder bessere Stichworte wären nett, damit ich Deine Leseaufforderung verstehe. Ich will nichts über die Theorie von WideStrings lesen sondern Dateioperationen insbesondere StringList.LoadFromFile() und Inifile.ReadString() ausführen. Ich habe jedenfalls nichts zu TStringList und UFT8 gefunden.
Edit: In diesem Thread wird die Lösung TMemoryStream plus UTF8Encode diskutiert. Ich will relativ große Textdateien (bis 10MB) einlesen und mag es nicht, wenn der Benutzer nicht sieht, was das Programm gerade macht - deswegen meine "Vorliebe" für readln(). Gibt es ein UTF8IniFile?

mschnell · Beitrag von **mschnell** » Mo 4. Mai 2009, 17:12

Scotty hat geschrieben: Ich will nichts über die Theorie von WideStrings lesen

Dann darsft Du keinen Unicode verwenden. (Und da das aktuelle Lazarus immer mit Unicode arbeitet, darfst Du nicht mit Umlauten arbeiten.

Scotty hat geschrieben: Ich habe jedenfalls nichts zu TStringList und UFT8 gefunden.

Da ist auch nichts zu finden. Wenn die Daten UTF8 kodiert sind, ist bleiben sie in TStringlist auch UTF8 kodiert. Wenn Du eine andere Kodierung brauchst, musst Du explizit eine Umkodier-Funktion aufrufen. FPC/Lazarus unterscheidet nicht zwischen unterschiedlich kodierten 8-Bit Strings.

Scotty hat geschrieben: Gibt es ein UTF8IniFile?

Vermutlich nicht. Da gilt dasselbe wie bei TStringList: Wenn die Daten UTF8 kodiert sind, ist bleiben sie auch UTF8 kodiert.

- Michael

Scotty · Beitrag von **Scotty** » Di 5. Mai 2009, 11:31

Vermutlich hast Du recht - ich brauche wohl doch etwas mehr Theorie. Ein paar Schritte habe ich mittlerweile schon gemacht. Vorerst finde ich aber keine Lösung für mein Problem, eine unter Windows erstellte Datei (wahrscheinlich ASCII und nicht ANSI) richtig zu lesen. Es sei denn, ich prüfe jedes Zeichen einzeln. Also formuliere ich meine Frage mal neu:

Wie kann ich Dateien plattformübergreifend lesbar machen?

Und ich spüre schon, dass an der Frage wieder was nicht stimmt

. So schwierig hatte ich mir den Umstieg von Delphi nicht vorgestellt...

Christian · Beitrag von **Christian** » Di 5. Mai 2009, 12:32

Das hat nichts mit dem Umstieg von Delphi zu tun sondern eher mit dem Umstieg von ANSI auf Unicode und die Matherie ist nunmal um einiges schwieriger. Sprich du musst schon ein wenig lernwilliger sein als bei ANSI.

Beitrag von **af0815** » Mi 6. Mai 2009, 12:26

Scotty hat geschrieben:Wie kann ich Dateien plattformübergreifend lesbar machen?

theo hat darüber schon einiges im Forum hier von sich gegeben und auch Komponenten/Units/Code dazu. Es lohnt sich hier im Forum zu suchen.

Siehe auch Link

Scotty · Beitrag von **Scotty** » Mi 6. Mai 2009, 17:02

Den Thread kenne ich und habe mir auch den Code angesehen. Beim genaueren Nachdenken hat mein Problem aber weniger mit Unicode als mit dem OS zu tun. Die Textdatei wird vom Benutzer unter Windows erstellt und lässt sich halt unter Linux nicht so einfach lesen (Stichwort: Codepage). Ich habe testweise die Datei mit Wordpad unter XP als Unicode gespeichert, aber dabei kommt was anderes raus als mit gedit unter Linux. Jetzt habe ich eher ein prinzipielles Problem: weise ich den Benutzer an, ein bestimmtes Format zu nutzen (was ich eigentlich nicht mag, da ein normaler Mensch nicht über UTF nachdenken will, was aber letzten Endes zwingend notwendig ist) oder beschäftige ich mit mit der Frage, warum gedit die Datei richtig einließt und ich das nicht hinbekomme

. Da ich aber auch an vielen anderen Stellen nicht so recht weiter komme, denke ich gerade darüber nach, ob ich nicht wieder zu Delphi zurück gehe.
Dieser Thread hat sich jedenfalls für mich erledigt. Die Quintessenz für mich ist:

Wenn die Daten UTF8 kodiert sind, ist bleiben sie auch UTF8 kodiert.

. Falls jemand anderes ähnliche Schwierigkeiten haben sollte, empfehle ich einen Test mit unter Linux erstellten Dateien.

Beitrag von **monta** » Mi 6. Mai 2009, 17:52

Ich versteh das Problem nicht ganz.

Ich hab es gerade getestet...du schreibst, du hast große Dateien und musst die Zeilenweise einlesen, damit du Wartebalken usw. anzeigen lassen kannst.

Aber warum? Eine 20MB große Datei ist auf einem Singlecore in deutlich unter 5 Sekunden eingelesen.

Und für alles andere kannst du ja sehr wohl dann die StringList durchgehen, bearbeiten, in Ansi und sonstwas konvertieren und Zeilenweise ins Memo schreiben.

(Ein direktes Memo.LoadFromFiles dauert ca. 25 Sekunden)

Wenn du also schreibst, du hast gerade mal 10 MB große Dateien sollten doch ca. 2 Sekunden zum einlesen drin sein, ohne auf die absoluten LowLevel-Befehle zugreifen zu müssen, die natürlich aus Zeiten jenseits von UTF und Unicode stammen.

mschnell · Beitrag von **mschnell** » Mi 6. Mai 2009, 21:35

Scotty hat geschrieben:(Stichwort: Codepage).

Dann ist es eben nicht Unicode.

Scotty hat geschrieben:Ich habe testweise die Datei mit Wordpad unter XP als Unicode gespeichert, aber dabei kommt was anderes raus als mit gedit unter Linux.

Dann verwendet andere Programm nicht Unicoode. Unicode ist nicht OS-Abhängig. In der Datei steht aber nicht unbedingt d'rin, dass sie Unicode-kodiert ist und in welcher Weise. Und es gibt jede Menge nicht-Unicode-Programme.

Scotty hat geschrieben:weise ich den Benutzer an, ein bestimmtes Format zu nutzen

Wenn Dein Programm die Datei liest und schreibt (Wenn auch im anderen OS), ist bei voller Unicode-Verarbeitung alles sauber.

-Michael

Deutsches Lazarusforum

[erledigt] Dateioperationen (readln, readstrings) und UTF8

[erledigt] Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8

Re: [erledigt] Dateioperationen (readln, readstrings) und UTF8

Re: Dateioperationen (readln, readstrings) und UTF8