Unicode bestmöglich nutzen…

21. Dezember 20232 J.

Guten Abend,

seit einiger Zeit beschäftige ich mich intensiv mit Unicode. Gibt es ein empfehlenswertes Lehrbuch, wie ich Unicode (im Internet) bestmöglich einsetzen kann?

--

LG,

Carsen

21. Dezember 20232 J.

Was ist denn der angedachte Einsatzzweck?

HTML5 ist per Standard Unicode UTF-8*, solange du nichts anderes im Dokument angibst, und deine Textdateien nicht anders speicherst. D.h. wenn du "nichts machst", setzt du Unicode schon optimal ein, und kannst jedes Unicode-Zeichen der Welt direkt in deine Datei schreiben und speichern (ohne eine früher übliche "HTML-Umschreibung" durch eine Zeichenkette).
* Das UTF-8 beschreibt dann, dass die Zeichennummern die in Unicode gelistet sind, binär 8-bit-codiert sind, solange das geht, d.h. solange du vor allem westliche Zeichen schreibst die früher in ASCII enthalten waren, sparst du einiges an Platz weil diese mit einem Byte auskommen, dafür brauchen Sonderzeichen dann 3*8-bit (bitte frag mich jetzt nicht warum 3* :-). Wenn du hingegen sehr viel mit nicht-ASCII-Zeichen arbeitest (Asien, Afrika, Emojiland, ...), könntest du die Textdatein selbst und das nominelle Encoding per Metatag (<meta encoding="UTF-16">) auf UTF-16 umstellen, da braucht jedes Zeichen "nur" 2*8 bit, die Daten die zu übertragen sind, werden also in Summe "kleiner".

Datenübertragungen vom/zum Server, Verarbeitung am Server oder in einer Datenbank sind in der Regel inzwischen auch UTF-8 wenn man nichts anderes definiert.

Für die Anzeige im Browser brauchst du noch Fonts, die deine Unicode-Zeichen auch enthalten. Da das eine beträchtliche Menge ist, gibt es glaube ich keinen Font im Produktiveinsatz, der ALLE Zeichen direkt enhält (ich gluabe aber es gibt eine Gesamt-Font aus Googles Noto-Projekt, der aber gute 100MB hatte als ich das letzte mal geschaut hatte). Im Web hilft man sich mit Fontstacks bzw. besser CSS-Einbindungen von Webfonts MIT Angabe des Unicode-Range, für den der jeweilige Font verwendet werden soll. So könnte man sich z.B. aus der westlichen Noto, der für die Mongolei, und der für Äthiopien eine Kombination unter einem gemeinsamen Namen zusammenstellen, der alle 3 Schriftsysteme abdeckt. Oder man verlässt sich auf die Betriebssysteme, die inzwischen alle irgend eine Font-Sammlung haben, die "alle" Unicode-Zeichen abdeckt (Android: Noto, Windows: Segoe, ...).

D.h. wahnsinnig viel musst du (in neuen Projekten) gar nicht machen, um optimal Unicode einzusetzen. Du müsstest schon absichtlich was anderes einstellen oder es mit alten Daten oder Betriebssystemen/Fonts zu tun haben, um in Schwierigkeiten zu kommen und spezielle Anpassungen machen zu müssen (ich hab da z.B. eine Podcastbeschreibungstexte-Datenbank von Anno 1999, da sind zu viele Texte zu seltsam abgelegt, als dass ich das einfach mal konvertieren möchte, stattdessen wandle ich diese Texte nach dem Auslesen aus der Datenbank und vor der Ausgabe an den Browser von der alten Codierung in Unicode um, damit der Browser und Dienste wie Spotify, itunes etc. dann ihre inzwischen gewohnten und manchmal vorausgesetzten Unicode-codierten Texte erhalten).

1

22. Dezember 20232 J.

vor 4 Stunden schrieb Acamat:

wie ich Unicode (im Internet) bestmöglich einsetzen kann?

Magst Du das etwas ausführen? Was meinst du mit "im Internet"? Unicode kannst Du beispielsweise nicht direkt im DNS einsetzen, da dort der Zeichenraum auf ASCII beschränkt ist. Um trotzdem unicodig zu werden, gibt es den Standard Punycode. Geht es um das übermitteln von Informationen? Da wird es im Prinzip einfacher, weil alle modernen Systeme unicode-fähig sind. Aber ist auch ein Font beim Empfänger vorhanden, um Deine unicodierte Information zu repräsentieren? Du kannst als Sender den entsprechenden Font übers embedding mitliefern, aber die schlussendliche Hoheit über die Darstellung deiner Information liegt beim Empfänger.
Und dann gibt es auch die Anwendungsvielfalt: kann das Informationsverarbeitungsprogramm des Empfängers utf-8?Was passiert, wenn Du utf-32 verwendest? Was ist mit Big oder Little Endian? Ich erinnere da gerne mal an die bekannten Unicodes of Death.

Unicode ist erstmal nur eine Vereinbarung vieler Menschen, bestimmten Codepunkten eine Information zuzuweisen. Es bleibt aber weiterhin nur ein Vorschlag. Wie die Information von, pffff, u+FOOO (foo ist hier ein Platzhalter) tatsächlich dem Empfänger präsentiert wird, ist nicht von Dir endgültig beeinflussbar, selbst wenn an der Stelle eine graphische Interpretation vom Unicode-Consortium vorgeschlagen wird.

Kurz gesagt: Deine Frage lässt Raum offen, ob es um die technische (Datenbank) Seite geht, die Frage der Vereinheitlichung, Kompatibilitäten, Glyphen, Sprachen, Repräsentationen, ...

22. Dezember 20232 J.

Ersteller

Guten Morgen,

ich danke Euch erst einmal für die Mühe, mir trotz meiner zu schwammig formulierten Frage wertvolle Hinweise zu formulieren. Und skizziere — ohne zu ausschweifig zu werden — das Problem, das mir diese Schwierigkeiten bereitet und im Kern nichts mit Unicode zu tun hat.

Ich befasse mich mit Themen, die hohe Anforderungen an die Typografie stellen. Sei es nun das Setzen von Musik oder Sanskrit mit Devanagari. Ich habe dabei eine genaue Vorstellung von dem „Was“ und suche nach einem — vom jeweiligen Kontext unabhängigen — „Wie“ für die konkrete Umsetzung. Der wesentliche Grund für meine Anfrage ist der, dass ich Mathematik setzen möchte, ohne dass ich einen mathematischen Aufsatz schreiben möchte; dazu arbeite ich mich gerade in MathMl ein. Aber ich möchte in einem Fließtext lediglich die Menge der positiven Zahlen nicht die Menge der natürlichen Zahlen ohne Null (U+2115: ℕ) mit einem hochstellten Asterix (U+002a: *), für das mir kein Zeichen bekannt ist, sondern bewusst (U+2124: ℤ) sowohl mit hochstellten Asterix als auch tiefgestellten Plus (U+208b: ₊) auf derselben vertikalen Position verwenden. Es geht mir also lediglich um Glyphen, also um Detailtypografie.

Ich hatte bereits eine für mich brauchbare und geeignete Lösung gefunden, deren Einsatz sich nicht einmal auf Fließtexte begrenzt, sondern sich auch für Zeichnungen eignet: Ich setze die Glyphe(n) in Svg. Leider kann ich seit geraumer Zeit diesen Weg für meine lokale Arbeitsumgebung nicht mehr gehen; und das gilt ebenso für MathMl. Ich kann Änderungen an Svg-Dateien (Setzen der Glyphen-Kombination), die selbst wieder Svg-Dateien (Definition der Glyphen) enthalten, auf meinem Rechner (FireFox 120.0 · Snap for Ubuntu Canonical-002 - 1.0 @ Ubuntu 22.04.3 Lts) erst dann prüfen, wenn ich sie auf meinen Web-Hoster hochlade. So kann ich nicht effektiv arbeiten!

Kennt jemand dafür eine Lösung und kann mir vielleicht einen Tipp geben? Unter den Einstellungen von FireFox habe ich mir jedenfalls einen Wolf gesucht. Aber eine Frage für Unicode verbleibt: Wie verwende ich diese Zeichen in richtiger Art und in vorgesehener Weise?

--

LG,

Carsten

Bearbeitet (22. Dezember 20232 J. von Acamat)

22. Dezember 20232 J.

vor 2 Stunden schrieb Acamat:

Wie verwende ich diese Zeichen in richtiger Art und in vorgesehener Weise?

Mit welchen Programmen arbeitest Du?

vor 2 Stunden schrieb Acamat:

So kann ich nicht effektiv arbeiten!

Das kann ich mir vorstellen. Kannst Du Programme auf Deinem Rechner installieren, falls es sich um einen Arbeits-/Institutsrechner handeln? SVG wird eigentlich unter Linux durch Ghostscript unterstützt, wenn ich mich recht entsinne. Ansonsten gibt es diverse SVG-Viewer wie https://manpages.ubuntu.com/manpages/jammy/man1/inkview.1.html

Ich habe eben versucht, das Zeichen in Babelpad zusammenzustümpern, denke aber, dass ich in einem Layout-Programm das nicht mit so etwas wie combining glyphs probieren würde, sondern mit dem Zeichen+superscript glyph und dann die subscript glyph mit heftig negativen Kerning unter die superscript glyph schubse.

Aber das ist nur eine höchst unprofessionelle Meinung, ich habe null Erfahrung mit dem Setzen von Mathematik oder komplexen Unicode-Konstrukten. Aber dieses Stapeln von Zusätzen via Unicode scheint mir recht fehleranfällig (Kann der Font das? Kann es das Programm? Kann es der Drucker? Kann es der Empfängen? Istdas combining vom Schriftkünstler berücksichtig worden?) zu sein, insbesondere im Datenaustausch. Deswegen nutzen auch alle, die ich kenne, weiterhin die precombined glyphs im polytonischen Griechisch und folgen nicht der Empfehlung des Unicode-Konsortiums, möglichst combining glyphs zu nutzen (precombined wird mitgeschleift aus Kompatibilitätsgründen, ist aber als Legacy gebrandmarkt).

22. Dezember 20232 J.

Prokrastination ist was feines 🙂

Ist dies Dein Ziel?

Unicode bestmöglich nutzen…

Hervorgehobene Antworten

Erstelle ein Konto, um zu kommentieren

Wichtige Informationen

Konto

Navigation

Browser-Push-Nachrichten konfigurieren

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)