Erkennen ob das Zeichen ein UTF8 Zeichen ist

Für Fragen zur Programmiersprache auf welcher Lazarus aufbaut
Antworten
Benutzeravatar
theo
Beiträge: 10869
Registriert: Mo 11. Sep 2006, 19:01

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von theo »

marcov hat geschrieben:Zuerst der normale Fall über OS Routines.
OK, macht Sinn.
Weisst du grad zufällig wo man die unter Linux findet?

marcov
Beiträge: 1102
Registriert: Di 5. Aug 2008, 09:37
OS, Lazarus, FPC: Windows ,Linux,FreeBSD,Dos (L trunk FPC trunk)
CPU-Target: 32/64,PPC(+64), ARM
Wohnort: Eindhoven (Niederlande)

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von marcov »

theo hat geschrieben:
marcov hat geschrieben:Zuerst der normale Fall über OS Routines.
OK, macht Sinn.
Weisst du grad zufällig wo man die unter Linux findet?
libc onder iconv

Fuer iconv, siehe iconvenc (2.2.3+). Fur libc, da gibt es kein unifizierte Interface gibt die wir unterstutzen, und die wird es auch nicht geben. (subtile Inkompabilitäten, die unit libc story)

Benutzeravatar
theo
Beiträge: 10869
Registriert: Mo 11. Sep 2006, 19:01

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von theo »

marcov hat geschrieben: libc onder iconv
Hmm, stehe auf dem Schlauch. ;-)
Die libiconv ist doch zur Umwandlung von Encodings und die libc ist "tabu".
Wie ich mit libiconv an z.B. die Informationen einzelner Unicode Codepoints rankomme, habe ich nicht gefunden.

marcov
Beiträge: 1102
Registriert: Di 5. Aug 2008, 09:37
OS, Lazarus, FPC: Windows ,Linux,FreeBSD,Dos (L trunk FPC trunk)
CPU-Target: 32/64,PPC(+64), ARM
Wohnort: Eindhoven (Niederlande)

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von marcov »

theo hat geschrieben:
marcov hat geschrieben: libc onder iconv
Hmm, stehe auf dem Schlauch. ;-)
Die libiconv ist doch zur Umwandlung von Encodings und die libc ist "tabu".
Wie ich mit libiconv an z.B. die Informationen einzelner Unicode Codepoints rankomme, habe ich nicht gefunden.
Welche informationen exact ?

Benutzeravatar
theo
Beiträge: 10869
Registriert: Mo 11. Sep 2006, 19:01

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von theo »

marcov hat geschrieben: Welche informationen exact ?
Naja, das was halt die UTF8Proc leistet und auch z.B. TCharacter bei Delphi teilweise implementiert.
Also Buchstabenkategorien etc. Eine Unicode Datenbank quasi.
Im Anhang siehst du den Screenshot des Beispielprogramms, welches ich dem Zip beigelegt habe.

Aus Marco Cantu:

The TCharacter sealed class has over 40 methods that either work on a stand-alone
character or one within a string for:
Getting the numeric representation of the character (GetNumericValue).
Asking for the category (GetUnicodeCategory) or checking it against one of the various
categories (IsLetterOrDigit, IsLetter, IsDigit, IsNumber, IsControl,
IsWhiteSpace, IsPunctuation, IsSymbol, and IsSeparator)
Checking if it is lowercase or uppercase (IsLower and IsUpper) or converting it (ToLower
and ToUpper)
Dateianhänge
utf8procchartable.png

marcov
Beiträge: 1102
Registriert: Di 5. Aug 2008, 09:37
OS, Lazarus, FPC: Windows ,Linux,FreeBSD,Dos (L trunk FPC trunk)
CPU-Target: 32/64,PPC(+64), ARM
Wohnort: Eindhoven (Niederlande)

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von marcov »

theo hat geschrieben:
marcov hat geschrieben: Welche informationen exact ?
Naja, das was halt die UTF8Proc leistet und auch z.B. TCharacter bei Delphi teilweise implementiert.
Also Buchstabenkategorien etc. Eine Unicode Datenbank quasi.
Solche Funktionen gibts in libc. (is*) Aber BSD/OS X/Linux underschieden sich ein bischen von einander. Da ist nog ein lange Weg zu gehen.

Benutzeravatar
theo
Beiträge: 10869
Registriert: Mo 11. Sep 2006, 19:01

Re: Erkennen ob das Zeichen ein UTF8 Zeichen ist

Beitrag von theo »

marcov hat geschrieben: Solche Funktionen gibts in libc. (is*) Aber BSD/OS X/Linux underschieden sich ein bischen von einander. Da ist nog ein lange Weg zu gehen.
OK, Danke. Dann verwende ich in der Zwischenzeit noch den utf8proc Port.

Antworten