Unicode Standard
 
StartSeite | Neues | TestSeite | ForumSeite | Teilnehmer | Kategorien | Index | Hilfe | Einstellungen | Ändern

Unicode und ISO/IEC 10646 sind zwei eng miteinander verwandte Standards, die vom sogenannten Unicode Consortium und einer Arbeitsgruppe der International Organization for Standardization (ISO) erstellt und weiterentwickelt werden. Die Unterschiede zwischen den Standards erstrecken sich mittlerweile nur noch auf Details der Terminologie und Fragen der technischen Implementierung, wobei Unicode strengere Anforderungen an eine Implementierung stellt als ISO/IEC 10646, etwa bei der Datenübertragung. Der Einfachheit halber wird im folgenden nur von Unicode die Rede sein, selbst wenn das Gesagte stets auch für ISO/IEC 10646 gilt; es sei denn, ein Unterschied wäre ausdrücklich erwähnt.

Unicodes Character Encoding Scheme ist dafür ausgerichtet, daß einem Zeichen ein sogenannter Unicode scalar value aus dem Intervall von 0 bis $x10FFFF zugeordnet wird. Dies erlaubt im Prinzip die Definition von über einer Million Zeichen, wovon momentan allerdings erst ca. 50.000 im Bereich unterhalb von $xFFFF tatsächlich schon spezifiziert sind.

Literatur, Websites:

utf-8

Die gängigste Codierung für Unicode-Zeichen ist utf-8. Dabei bleiben 7-Bit-ASCII-Zeichen (und alle Steuerzeichen) unverändert durch 1 Byte codiert. Alle weiteren Unicode-Zeichen werden durch 2-4 Byte codiert. Das Startbyte liegt im Bereich 0xC0..0xFD und bestimmt u.a. die Länge des Codes, Folge-Bytes befinden sich im Bereich 0x80-0xBF.

LängeStartbyteFolgebytesBitsCodebereich
2110xxxxx10xxxxxx11bis 0x7ff
31110xxxx10xxxxxx 10xxxxxx16bis 0xffff
411110xxx10xxxxxx 10xxxxxx 10xxxxxx21 

History of UTF-8


Frage

Wie ist das eigentlich im Wiki? Ich gebe Texte ja über den Browser ein. Der erlaubt eine Umstellung der Codierung. Nicht alle Formular-Interfaces kommen jedoch mit einer Umstellung des Encodings klar. In den Google-Newsgroups tummeln sich neben Leuten, die Newsreader verwenden auch solche, die über einen Google-Account posten. Mache News sind ganz offensichtlich UTF-8 codiert, kommen aber in der Html-Darstellung in Latin-1, also zerstümmelt, daher. Ich selbst habe bereits Wiki-Seiten mit Anführungsstrichen unten kaputtgemacht, was ich natürlich zukünftig vermeiden möchte. -- SDö

Es sollte kein großes Problem sein, UseMod-basiertes Wiki im UTF-8 zu betreiben. Allerdings müssten die bestehenden Beiträge konvertiert werden. --GregorRayman

Die Konvertierung selbst ist sicher ein Routine-Job, Folgerisken für mich aber derzeit schlecht abschätzbar. Ich stelle sicher irgendwann um, wenn genug der folgenden Faktoren zusammentreffen: Benutzer melden ihr Interesse an, konkrete Vorteile in der Verwendung für das DseWiki, positive Umstellungserfahrungen bei anderen Wiki-Clones, ... es ist alles nur eine Frage des Timings, den bestmöglichen Zeitpunkt zu treffen. -- HelmutLeitner


KategorieCodierung
StartSeite | Neues | TestSeite | ForumSeite | Teilnehmer | Kategorien | Index | Hilfe | Einstellungen | Ändern
Text dieser Seite ändern (zuletzt geändert: 27. September 2006 20:32 (diff))
Suchbegriff: gesucht wird
im Titel
im Text