Jump to content
Postkarten-ABC zum Sammeln oder Verschenken …

Texte mit Unicode sauber kodieren

Ralf Herrmann

Der Zeichensatz Unicode erleichert die Arbeit mit Textdokumenten ungemein – er schafft aber auch neue Probleme. Wissen sie zum Beispiel was ein PUA-Kode ist? Nicht? Dann sollten Sie weiterlesen …


In den 1990er Jahren dominierten die 8-Bit-Zeichensätze wie Mac Roman oder Latin 1 die Branche. Mit ihnen konnte lediglich auf maximal 256 Zeichen eines Fonts zugegriffen werden. Für mehrsprachige Dokumente war dies natürlich zu wenig. Um etwa einen russischen und einen griechischen Text in einem Dokument zu kombinieren, musste man auf zwei verschiedene Schriftarten (z.B. Helvetica Cyrillic und Helvetica Greek) zurückgreifen. Dies ist natürlich eine fragliche Notlösung, denn es bedeutet, dass beide Schriftsysteme auf den gleichen Vorrat von Kodes zurückgreifen um unterschiedliche Dinge darzustellen. Öffnet ein anderer Anwender so ein Dokument und verfügt nicht über die ursprünglichen Schriftarten, sieht er nur kryptische Zeichenfolgen.
Unicode löst dieses Problem indem es jedem sinntragenden Zeichen oder Textelement einen eigenen, unverwechselbaren Kode zuweist. Konnte ein 8-Bit-Kode noch in eine Vielzahl von Zeichen aufgelöst werden, steht ein Unicode nun eindeutig für ein ganz bestimmtes Zeichen – unabhängig von der gerade verwendeten Software, Hardware oder Schriftart. Selbst gleich aussehende Zeichen (etwa ein russisches und ein deutsches »a«) sind im Unicode verschiedene Zeichen mit unterschiedlichen Kodes.

Soweit so gut. Wo ist nun das Problem?
Der Unicode umfasst ausschließlich sinntragenden Zeichen. Typografische Variationen wie Kapitälchen, Schwungbuchstaben, besondere Ligaturen oder Ornamente werden im Unicode nicht erfasst. Um diese Zeichen überhaupt in ein Dokument einfügen zu können gibt es grundsätzlich zwei Wege, die nachfolgend aufgezeigt werden. Die Unterschiede sollten jedem Anwender bewusst sein. Nur so lassen sich fehlerhafte Kodierungen im Voraus vermeiden.

1.) Unicode-Zeichen per OpenType-Feature ansprechen
In OpenType-fähigen Anwendunge wie Adobe InDesign können die erweiterten typografischen Funktionen eines OpenType-Fonts bequem über eine Menüführung angesprochen werden. Wird ein Buchstabe markiert und per Menüauswahl mit der Option Kapitälchen versehen, ersetzt InDesign das gewählte Zeichen mit dem entsprechenden Kapitälchen, merkt sich aber den zu Grunde liegenden Unicode des Ausgangszeichen. Beim Wechsel der Schriftart oder der Weitergabe des Dokumentes treten deshalb keine Probleme auf. Gleiches gilt übrigens, wenn man die Glyphen-Palette von InDesign nutzt und das Kapitälchen so direkt eingibt. Auch hier weiß InDesign, welches Original-Zeichen diesem Kapitälchen zu Grunde liegt und mit welchen Unicode kodiert werden muss.

ccs-1-1357467378,2851.jpg


2.) Unicode-Zeichen per Zeichentabelle eingeben
Leider verfügen längst nicht alle Programme über einen menügesteuerten Zugriff auf OpenType-Funktionen. Microsoft Word zum Beispiel arbeitet zwar längst mit Unicode, der direkte Zugriff auf erweiterte Funktionen (wie zum Beispiel Kapitälchen) bleibt aber nach wie vor verwehrt.
Bietet eine Anwendung keinen menügesteuerten Zugriff auf die erweiterten Funktionen eines OpenType-Fonts, müssen die Zeichen direkt durch ihren Unicode angesprochen werden. Wie aber zum Beispiel Kapitälchen ansprechen, wenn für sie nicht einmal ein fester Unicode-Wert existiert? Für diesen Fall hat das Unicode-Konsortium einen freien Bereich innerhalb des Unicodes definiert – die so genannte Private Use Area, kurz PUA genannt. In diesem Bereich können Schrifthersteller alle Zeichen unterbringen, die nicht im Unicode erfasst sind.

Über die Windows Zeichentabelle, die Zeichenpalette von Mac OS X oder Zusatz-Tools wie PopChar kann man den Zeichenvorrat eines Fonts bequem durchforsten und erhält auch Zugriff auf den Bereich der Private Use Area. So lassen sich die gewünschten Zeichen per Copy&Paste bequem in jede Unicode-fähige Anwendung einfügen. Doch Vorsicht! Auf diese Weise werden in das Dokument Unicode-Werte eingefügt, die nicht standardisiert sind. Rechtschreibkorrekturen und Silbentrennung werden so ausgehebelt und ein Wechsel der Schriftart führt mit hoher Wahrscheinlichkeit zur Anzeige von völlig anderen Zeichen. Wann immer möglich, sollte deshalb die oben genannte, erste Eingabemethode bevorzugt werden.

Auf Grund dieser Probleme diskutieren Schrifthersteller derzeit darüber, ob Zeichen wie Kapitälchen oder Schwungbuchstaben überhaupt mit einem Unicode versehen werden sollten. FSI FontShop International liefert seine OpenType-Fonts ohne PUA-Kodes aus. Auch Adobe kündigte bereits an, zukünftig ganz auf die Verwendung der der Private Use Area zu verzichten. Dies resultiert in sauber kodierten Dokumenten, bedeutet für den Anwender aber auch, dass Zeichen wie Ligaturen, Kapitälchen, Schwungbuchstaben und Alternativ-Zeichen ohne Programme wie Adobe InDesign gar nicht mehr zugänglich sind. Dies sollte man als Schriftkäufer daher im Voraus prüfen. Sonst ist die schönste OpenType-Pro-Schrift mit hunderten von Ligaturen und Alternativ-Zeichen nahezu unbenutzbar.



Graublau Sans Pro: eine vielseitige Schriftfamilie in 18 Schnitten
×
×
  • Neu erstellen...

🍪 Hinweis:

Wir benutzen funktionale Cookies.