Der weltweite Austausch von Daten gewinnt zunehmend an Bedeutung. Unterschiedliche Computer-Plattformen, Programmiersprachen und Datenbanksysteme verlangen nach einem einheitlichen Kodierungsstandard zum Datenaustausch.
Die frühere Beschränkung auf eine Kodierung mit 8 Bit (siehe Teil 2 der Serie) kann diese Forderung nicht erfüllen, da die damit möglichen 256 Zeichen lediglich ausreichen, um einzelne Sprachsysteme abzubilden. Das Mischen beliebiger Sprachen ist damit nicht möglich. Es ist natürlich auch mit 8-Bit-Fonts und -kodierungen denkbar, einen Text zu erstellen, der zum Beispiel russische und griechische Textabschnitte enthält. Diese müssen dazu lediglich mit entsprechenden Fonts (zum Beispiel Helvetica Cyrillic und Helvetica Greek) formatiert werden. In den 1990er Jahren war dies mit den damaligen PostScript-Type1-Fonts gängige Praxis. Doch auch dies kann nur eine Notlösung sein. Denn im Dokument bedienen sich dann zwangsläufig beide Sprachen der gleichen Binärkodes – eine eindeutige Zuordnung eines Kodes zu einem Zeichen ist nicht gegeben. Schon das Öffnen des Dokuments in einer anderen Schriftart würde die Inhalte für den Empfänger unbrauchbar machen.
Eine eindeutige Zeichenkodierung, die unabhängig von Sprachräumen und Rechnerplattformen ist, scheint heute aber unabdingbar – sei es für die Kundendatenbank eines weltweit agierenden Unternehmens oder den Satz einer wissenschaftlichen Arbeit oder eines vielsprachigen Medikamenten-Beipackzettels. Die Lösung dieser Probleme ist so einfach wie nahe liegend. Statt verschiedene Sprachen durch identische Kodes abzubilden, muss ein Standard geschaffen werden, der jedem grafischen Zeichen oder Element aller bekannten Schriftkulturen und Zeichensysteme einen eindeutigen Kode zuordnet. Dieser Standard ist Unicode. Er gibt jedem Zeichen seine eigene Nummer – plattformunabhängig, programmunabhängig und sprachunabhängig.
Für die Entwicklung des Standards hat sich das Unicode-Konsortium gegründet, eine gemeinnützige Organisation, deren Mitglieder ein breites Spektrum von Firmen und Institutionen in der datenverarbeitenden Industrie und Informationstechnologie vertreten. Der Unicode-Standard wurde im Jahr 1991 erstmals veröffentlicht. Er wird von führenden Computer-Unternehmen wie Apple, Hewlett-Packard, IBM, Microsoft, Sun und so weiter unterstützt. Es bestehen kaum Zweifel daran, dass sich Unicode zum wichtigsten Kodierungsstandard entwickeln wird – zur Lingua Franca der digitalen Welt. Dennoch ist weder die umfassende Verbreitung noch die Entwicklung des Standards schon völlig abgeschlossen. Unicode wird fortlaufend um neue Zeichen ergänzt. Im Schnitt kommen pro Jahr 1000 neue Zeichen hinzu. In der aktuellen Version 6 sind circa 110.000 Zeichen erfasst. Allerdings bietet der Standard Platz für über eine Million Zeichen.
Theoretisch kümmert sich Unicode jedoch nur um so genannte »Sinn tragende Zeichen«. Kapitälchen, Schmuckligaturen und ähnliche typografische Besonderheiten, sind für das Unicode-Konsortium nicht interessant, da sie als Glyphenvarianten zu bestehenden Unicode-Zeichen angesehen werden. Diese Zeichen müssen also in der Regel ohne einen Unicode auskommen und sind dann ausschließlich über OpenType-Funktionen ansprechbar. Schriftanbieter haben jedoch die Möglichkeit, diesen Zeichen einen »privaten« Unicode zuzuweisen. Dazu bietet der Unicode-Standard einen besonderen Bereich zur freien Verfügung an: die so genannte Private Use Area (PUA). Werden in Fonts bestimmten Zeichen PUA-Kodes zugewiesen, kann man diese Zeichen also z.B. in der Zeichenpalette/Zeichentabelle des Betriebssystems finden und per Kopieren-und-Einfügen benutzen. Allerdings führt dann gegebenenfalls schon ein Wechsel der Schriftart zu völlig unterschiedlichen Zeichen, da dieser private Bereich eben nicht standardisiert ist.
Weiter Informationen zum Unicode und Übersichten aller kodierten Zeichen gibt es auf der offiziellen Homepage unter http://unicode.org
Text: Ralf Herrmann
Illustration: Kai Meinig









Typografie.info-Systemmitteilung