DseWiki: UnicodeStandard

Unicode und ISO/IEC 10646 sind zwei eng miteinander verwandte Standards, die vom sogenannten Unicode Consortium und einer Arbeitsgruppe der International Organization for Standardization (ISO) erstellt und weiterentwickelt werden. Die Unterschiede zwischen den Standards erstrecken sich mittlerweile nur noch auf Details der Terminologie und Fragen der technischen Implementierung, wobei Unicode strengere Anforderungen an eine Implementierung stellt als ISO/IEC 10646, etwa bei der Datenübertragung. Der Einfachheit halber wird im folgenden nur von Unicode die Rede sein, selbst wenn das Gesagte stets auch für ISO/IEC 10646 gilt; es sei denn, ein Unterschied wäre ausdrücklich erwähnt.

Unicodes Character Encoding Scheme ist dafür ausgerichtet, daß einem Zeichen ein sogenannter Unicode scalar value aus dem Intervall von 0 bis $x10FFFF zugeordnet wird. Dies erlaubt im Prinzip die Definition von über einer Million Zeichen, wovon momentan allerdings erst ca. 50.000 im Bereich unterhalb von $xFFFF tatsächlich schon spezifiziert sind.

Literatur, Websites:

The Unicode Standard - Version 4.0, ISBN 0321185781
Czyborra, Roman: Unicode Transformation Formats: UTF-8 & Co., " http://czyborra.com/utf/".
ISO (International Organization for Standardization) (Hrsg.): ISO/IEC 10646-1993 (E). Information technology ? Universal Multiple-Octet Coded Character Set (UCS) ? Part 1: Architecture and Basic Multilingual Plane, [Geneva]: International Organization for Standardization, 1993 (+ amendments AM 1?7).
The Unicode Consortium (Hrsg.): The Unicode Standard Version 3.0, Reading (Mass.): Addison-Wesley, 2000. -- weitere Information unter: " http://unicode.org".
"Unicode for Programmers", A short course, Jason Orendorff, http://www.jorendorff.com/articles/unicode/intro.html
"Unicode Symbols" (im Gegensatz zu alphanumerischen Zeichen) http://www.unicode.org/versions/Unicode4.0.0/ch14.pdf
"The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets" http://www.joelonsoftware.com/articles/Unicode.html
UTF und BOM FAQ, http://www.unicode.org/unicode/faq/utf_bom.html
WikiPedia:Unicode
Unicode Font Guide

utf-8

Die gängigste Codierung für Unicode-Zeichen ist utf-8. Dabei bleiben 7-Bit-ASCII-Zeichen (und alle Steuerzeichen) unverändert durch 1 Byte codiert. Alle weiteren Unicode-Zeichen werden durch 2-4 Byte codiert. Das Startbyte liegt im Bereich 0xC0..0xFD und bestimmt u.a. die Länge des Codes, Folge-Bytes befinden sich im Bereich 0x80-0xBF.

Länge Startbyte Folgebytes Bits Codebereich

2 110xxxxx 10xxxxxx 11 bis 0x7ff

3 1110xxxx 10xxxxxx 10xxxxxx 16 bis 0xffff

4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 21

History of UTF-8

Frage

Wie ist das eigentlich im Wiki? Ich gebe Texte ja über den Browser ein. Der erlaubt eine Umstellung der Codierung. Nicht alle Formular-Interfaces kommen jedoch mit einer Umstellung des Encodings klar. In den Google-Newsgroups tummeln sich neben Leuten, die Newsreader verwenden auch solche, die über einen Google-Account posten. Mache News sind ganz offensichtlich UTF-8 codiert, kommen aber in der Html-Darstellung in Latin-1, also zerstümmelt, daher. Ich selbst habe bereits Wiki-Seiten mit Anführungsstrichen unten kaputtgemacht, was ich natürlich zukünftig vermeiden möchte. -- SDö

: Es sollte kein großes Problem sein, UseMod-basiertes Wiki im UTF-8 zu betreiben. Allerdings müssten die bestehenden Beiträge konvertiert werden. --GregorRayman
: Die Konvertierung selbst ist sicher ein Routine-Job, Folgerisken für mich aber derzeit schlecht abschätzbar. Ich stelle sicher irgendwann um, wenn genug der folgenden Faktoren zusammentreffen: Benutzer melden ihr Interesse an, konkrete Vorteile in der Verwendung für das DseWiki, positive Umstellungserfahrungen bei anderen Wiki-Clones, ... es ist alles nur eine Frage des Timings, den bestmöglichen Zeitpunkt zu treffen. -- HelmutLeitner

KategorieCodierung