Jump to content
Ständig interessante neue Typo-Inhalte auf Instagram. Abonniere @typography.guru.

Geschütztes Leerzeichen: Bewährte reguläre Ausdrücke für automatische Ersetzungen

Empfohlene Beiträge

Ibu

Moin.

 

Es gibt einige Situationen, wo man mit Hilfe von Regeln (typischerweise mit regulären Ausdrücken) automatisch ein normales durch ein geschütztes Leerzeichen ersetzen kann.

Beispiel:
[normales Leerzeichen]–
Das soll umgewandelt werden zu
[geschütztes Leerzeichen]–
[normales Leerzeichen]…
Das soll umgewandelt werden zu
[geschütztes Leerzeichen]…

Könnt ihr einen ganzen Satz von solchen etablierten automatisierbaren Typo-Ersetzungen empfehlen?

Über sowas würde ich mich freuen. Danke.

Link zu diesem Kommentar
Marion Kümmel

Automatischer Ersatz wäre vielleicht noch möglich:

– nach bestimmten Abkürzungen, denen eine Ziffer folgt: Abs.°3, S.°12

– vor f. bzw. ff., denen eine Ziffer vorangeht (Seite 7°f.)

– vor dem Et-Zeichen (Breitkopf°& Härtel)

  • Gefällt 3
Link zu diesem Kommentar
mariobreskic
vor 5 Stunden schrieb Marion Kümmel:

Automatischer Ersatz wäre vielleicht noch möglich:

– nach bestimmten Abkürzungen, denen eine Ziffer folgt: Abs.°3, S.°12

– vor f. bzw. ff., denen eine Ziffer vorangeht (Seite 7°f.)

– vor dem Et-Zeichen (Breitkopf°& Härtel)

Ich habe vor einigen Wochen mit dem Text Expander „Beeftext“ ein paar Textersetzungen für den Alltag zusammengetragen, und diese Antwort hat mich daran erinnert, dass ich eigentlich noch viel tiefer mit den Textersetzungen gehen möchte, als der momentane Stand unter https://github.com/mariobreskic/Beeftext-combo-settings-for-German-content-authors ist.beeftext-combos-leerzeichen.png.c52393a1df3092793767cefcd03783e5.png

  • Gefällt 1
Link zu diesem Kommentar
Ibu

Mir fällt noch ein:

Bevor in HTML normale durch geschützte Leerzeichen ersetzt werden können, muss sichergestellt sein, dass es keine mehrfachen normalen Leerzeichen in den Dokumenten gibt.

 

Mehrfache normale Leerzeichen würden im Dokument, welches im Browser angezeigt wird, nicht auffallen, weil sie vom Browser zu einem Leerzeichen "normalisiert" werden.
Aber eine Folge aus normalem und geschütztem Leerzeichen würde als doppelter "Weißraum" angezeigt.

Beispiel:
°=U+00A0 (geschütztes normalbreites Leerzeichen)
•=U+0020 (normales Leerzeichen)
<element>••–</element>

Dies würde durch die Ersetzung
•– nach °–
zu
<element>•°–</element>
Ein unerwünschtes Ergebnis.

Kurz:
Automatische Ersetzungen müssen wohlbedacht werden. Es braucht eine Abfolge von Regeln.
 

Link zu diesem Kommentar
Ibu

Hier mein aktueller Satz an regulären Ausdrücken:

 

\s(–|…|&amp;|·|×|∙)
&nbsp;$1

(S.)\s(\d)
$1&nbsp;$2

(\d)\s(f.|ff.)
$1&nbsp;$2


Falls hier jemand mitliest, der weiß ob/wie man

einen Satz von regEx  (also nicht nur einen einzelnen regEx)
auf alle Dateien eines Ordners
im OpenSource Quelltext-Editor Adobe Brackets

anwenden kann, das wäre toll.

Vielleicht gibt es ja eine Erweiterung dafür?

Link zu diesem Kommentar
Ibu
₀
<sub>0</sub>
… 
₉
<sub>9</sub>


⁰
<sup>0</sup>
… 
⁹
<sup>9</sup>

Nur so hat man eine gute Kontrolle über die Größe und die vertikale Position.

Link zu diesem Kommentar
  • 2 Wochen später...
Ibu
Am 15.5.2023 um 17:35 schrieb Ibu:

Falls hier jemand mitliest, der weiß ob/wie man

einen Satz von regEx  (also nicht nur einen einzelnen regEx)
auf alle Dateien eines Ordners
im OpenSource Quelltext-Editor Adobe Brackets

anwenden kann, das wäre toll.

Schade, dass da niemand was weiß. Diese Aufgabe, einen Satz an regulären Ausdrücken über alle Dateien eines Ordners abarbeiten zu lassen, dürfte doch so exotisch im Bereich Lektorat nicht sein, oder?



 

Link zu diesem Kommentar
JulieParadise
vor 36 Minuten schrieb Ibu:

Schade, dass da niemand was weiß. Diese Aufgabe, einen Satz an regulären Ausdrücken über alle Dateien eines Ordners abarbeiten zu lassen, dürfte doch so exotisch im Bereich Lektorat nicht sein, oder?

Hmm, ehrlich gesagt: Ich weiß gar nicht, worüber Du sprichst bzw. worum es in Deiner Frage geht, dabei lektoriere ich seit 2004 Texte im sprach-, rechts- und geisteswissenschaftlichen Bereich u.a. für Universitäten und öffentliche Einrichtungen.

 

Vielleicht geht es anderen ja auch so, die weniger den technischen Aspekt der Bearbeitung und mehr inhaltliche und und sprachliche Dinge im Blick haben und Dir deshalb gar nicht antworten können?

Link zu diesem Kommentar
Ibu

"Reguläre Ausdrücke" bezeichnet eine technische Methode zum Suchen & Ersetzen von Zeichen und Zeichenketten mit Hilfe von Software.
Selbstverständlich kann man typografische Aufgaben auch manuell erledigen, ganz ohne solche Hilfsmittel.

Die inhaltlichen und sprachlichen Aspekte spielen in diesem Thread in der Tat keine Rolle.

Ist ja auch nicht schlimm, wenn niemand zur Frage was weiß : )

 

Link zu diesem Kommentar
Phoibos

Sind die Indesign-Dokumente nicht ein Art Container und innen xml-basiert? Du bräuchtest also ein Tool, dass die Dateien quasi entpackt und dann in *.xml Deine Ersetzungen vornimmt. Viele Texteditoren können das von Haus aus, aber halt nicht in "gepackten" Dateien... Und ob das auf Dateisystem-Ebene, eine Möglichkeit, funktioniert und die Dateien heil lässt, bezweifle ich.

Link zu diesem Kommentar
JulieParadise
vor 2 Stunden schrieb Ibu:

"Reguläre Ausdrücke" bezeichnet eine technische Methode zum Suchen & Ersetzen von Zeichen und Zeichenketten mit Hilfe von Software. [...]

Schon klar, so grundsätzlich, aber das hat dann mit dem

vor 3 Stunden schrieb Ibu:

Bereich Lektorat

nicht viel zu tun. Ich schreibe dies deshalb, weil die einzelnen Arbeitsschritte und Aufgabenfelder mindestens bei den Kunden mitunter munter durcheinanderpurzeln und Korrektorat, Lektorat, Anpassung von Formalia (Literaturverweise) und "wieso sieht das nicht hübsch aus" so oft fröhlich durcheinandergebracht werden.

 

Mindestens in den Texten, die ich bearbeite, könnte ich höchstens so Klopper wie "et. al." (ja, sowas kommt häufiger vor, als man meinen möchte) oder Kleinkram wie "Hg." statt "Hrsg." automatisiert ersetzen, ohne die einzelnen Stellen nicht doch ansehen zu müssen. Ordnerübergreifend würde man da wohl mehr Schaden anrichten als Nutzen erzielen.

  • Gefällt 1
Link zu diesem Kommentar
Ibu

@JulieParadise
Du widersprichst also Marion, die ja weiter oben
Abs.°3, S.°12
zum automatischen Ersetzen vorschlug?

Wenn ich Dich richtig verstehe, verwendest Du in Deiner Arbeit bisher gar keine automatischen Ersetzungen, egal welcher Art, oder?

Zur Abgrenzung der Tätigkeiten Lektorat und Korrektorat:

Da interessiert mich Deine Sicht. Möchtest Du Deine Definition hier teilen?

Ich konnte in den aktuellen Wikipediaartikeln zu den beiden Begriffen keine klare Unterscheidbarkeit ermitteln.
 

Link zu diesem Kommentar
Norbert P

Das ist im Verlagsgewerbe nicht unbedingt scharf abgegrenzt. Mal ein Versuch:

Lektorat beinhaltet meist auch das Anmerken bzw. Berichtigen stilistischer »Schwächen«, beim Korrektorat geht es vorwiegend um Rechtschreibung und Grammatik. Redaktion nimmt dann noch etwas mehr Einfluss auf die inhaltliche Gestaltung. Wobei ein:e Verlagslektor:in in der Regel eher redigiert als lektoriert. Der Begriff Lektor scheint sich aber im Laufe der Zeit als Berufsbezeichnung für die Belletristik durchgesetzt zu haben, den/die Redakteur:in findet man hingegen eher im Sach-/Fachbuch bzw. im journalistischen Bereich.

Obwohl eigentlich alle mehr oder weniger das Gleiche machen. Und will man günstigere Gehälter zahlen, nennt man diese Fachkräfte Projektmanager (dann können die auch Aufgaben aus Werbung und Vertrieb aufgedrückt bekommen), am besten noch mit »Junior« oder so …

Link zu diesem Kommentar
JulieParadise
vor 5 Minuten schrieb Ibu:

@JulieParadise
Du widersprichst also Marion, die ja weiter oben
Abs.°3, S.°12 
zum automatischen Ersetzen vorschlug?

Wenn ich Dich richtig verstehe, verwendest Du in Deiner Arbeit bisher gar keine automatischen Ersetzungen, egal welcher Art, oder?

Definiere "automatisch". Manche Dinge kann man schon mit "Suchen & Ersetzen" erledigen, aber das hält sich eben in Grenzen und beschränkt sich mehr oder weniger auf solche Dinge, die bereits genannt wurden (insgesamt also mehrheitlich klassische Formalia und Abkürzungen).

 

"Halbmanuell" träfe es dann für mich eher, da ich lieber immer noch mal auf die Stellen schaue, bevor ich etwas ersetze. Außerdem geschieht es oft, dass statt "S. 123" "S.123", "S123" und "S,123", vielleicht auch "Jack´ s 12er Imbus" oder sonstwas im Text vorkommt. Das kann man alles gut suchen, aber eine Ersetzung automatisch über geschlossene Dateien hinwegfegen lassen wäre mir zu riskant.  Und nochmal und nochmal gucken muss man ohnehin, damit ist also nicht viel gewonnen.

vor 5 Minuten schrieb Ibu:

Zur Abgrenzung der Tätigkeiten Lektorat und Korrektorat:

Da interessiert mich Deine Sicht. Möchtest Du Deine Definition hier teilen?

Ich konnte in den aktuellen Wikipediaartikeln zu den beiden Begriffen keine klare Unterscheidbarkeit ermitteln.

Ein Korrektorat umfasst (zumindest meinem Verständnis nach und dem der anderen Lektoren, mit denen ich zusammenarbeite und mich austausche) eher die leicht zu ermittelnde orthographische und grammatikalische Richtigkeit von Texten. Ob da auch noch die faktische Korrektheit der gemachten Angaben reinfällt, könnte man diskutieren. 

 

Oft bekomme ich Texte mit dem Hinweis übermittelt, dass ja "die Hilfskraft die Rechtschreibung schon überprüft hat und eigentlich alles stimmen müsste".

 

Hmmm ... :-| Aber das ist ja nicht alles, was die Qualität einer Publikation ausmacht. Es ist zum Beispiel schön (ironisch), wenn vermeintlich orthographisch korrekt aus Carl Brockelmanns Geschichte der arabischen Litteratur das seltsame zweite T getilgt wird (ähnlich: Theodor Nöldeke Geschichte des Qorans zu "Koran") oder andere Eigennamen und termini technici verschlimmbessert werden, weil die fachspezifische Verwendung eben nicht der Rechtschreibprüfung von Word entspricht ("Örter" im Bergbau), aber viel weiter geht es dann ja mit der sprachlichen und argumentativen Ebene: Haben die Sätze einen guten Fluss, ist der Stil angemessen? Häufen sich parataktische oder hypotaktische Konstruktionen, gibt es bestimmte Macken, die die Schreibenden befallen haben?

 

Dazu zählen dann unverständliche Schachtelsätze, Redundanzen (bös gesagt: "Gesabbel", wo ich gern mal aus drei Sätzen einen mache), Zeitsprünge, nicht souverän beendete Ausführungen (Aufzählungen, die gehäuft mit "usw." enden, so als könne oder wolle man den ominösen Rest nicht auch aufführen), Wiederholungen und Lücken in der Argumentation, falsche bzw. missverständliche Bezüge in Neben- und Relativsätzen, Kategoriesprünge ("die Flasche ist alle", obwohl man sagen will, dass die Milch aufgebraucht und die Flasche leer ist), das Fehlen bzw. die Nichtbeachtung wichtiger Sekundärliteratur in einem bestimmten Wissenschaftsbereich und noch vieles mehr. Dafür muss man sich in dem Bereich auskennen und die Konventionen dieses Fachbereichs im Blick haben, was eine ganz andere Bearbeitungstiefe erfordert als das, was ich als "Korrektorat" bezeichnen würde.

  • Gefällt 1
Link zu diesem Kommentar
Diwarnai
vor 8 Minuten schrieb JulieParadise:

"Halbmanuell" träfe es dann für mich eher

So ist es auch bei uns. Eine vollautomatische Ersetzung generiert üblicherweise weitere Fehler, und um das zu vermeiden, werden die Ersetzungen einzeln angeschaut.

 

Das Korrektorat beinhaltet bei uns auch nur Orthografie und Grammatik.

Link zu diesem Kommentar
Ibu

[]@JulieParadise
"Automatisch" bedeutet für mich im wörtlichen Sinne:
das Ersetzen findet ohne mein Zutun und ohne meine Prüfung statt.
Der "Automat" erledigt das Ersetzen.

Solche Regeln müssen sorgfältig konstruiert sein, Test an verschiedenartigen Dokumenten sind nötig, bevor das produktiv verwendet werden kann.

Kennst Du denn eine konkrete Situation aus Deiner Praxis, wo Marions Vorschlag zu einem von Dir unerwünschten Ergebnis führt?
Mir fällt aus meiner Praxis keine solche Situation ein.

Damit wir kein Missverständnis haben, formuliere ich Marions Regel noch etwas genauer, wie es bei regulären Ausdrücken üblich ist:

[Wortgrenze]S[Großbuchstabe "S", case sensitive].[Punkt]␠[ein oder mehrere Leerzeichen]3[eine oder mehrere Ziffern][Wortgrenze]

als regulärer Ausdruck wäre das:
\b(S\.)\s+(\d+)\b

Es liegt mir fern, Dir etwas nahelegen zu wollen, was Dir zu riskant ist, weil Du es nicht vollständig kontrollieren kannst. So verhalte ich mich ja in anderen Lebensbereichen ebenso : )

Ich bin jedoch der Überzeugung, dass reguläre Ausdrücke einen sehr großen Nutzen in der Typografie entfalten können.
Sie entbinden von dem langweiligen Zeug.
So bleibt mehr Zeit und Konzentration für all die Situationen, die eine individuelle Entscheidung durch einen fachkundigen Menschen erfordern, der den Kontext versteht und ihn einbezieht.

Und ab gewissen Textmengen ist es eh utopisch, alles händisch und fehlerarm zu ersetzen. Ich selber mag auch den sportlichen Aspekt bei regulären Ausdrücken.
Der Geist ist gefordert Muster zu erkennen.

Mit dem genannten Ausdruck würde keines der von Dir genannten Beispiele

"S.123", "S123" und "S,123", vielleicht auch "Jack´ s 12er Imbus"

getroffen.

Danke zu Deinen Ausführungen zu Lektorat und Korrektorat. Kann ich alles gut nachvollziehen.

Link zu diesem Kommentar
Sebastian Nagel
Am 14.5.2023 um 13:36 schrieb Ibu:

Moin. Könnt ihr einen ganzen Satz von solchen etablierten automatisierbaren Typo-Ersetzungen empfehlen? Über sowas würde ich mich freuen. Danke.

Das hat sich hier bei mir im Laufe der Zeit so als Werkzeugkasten angesammelt (Indesign-GREP-Suchen/Ersetzen):

 

Einheiten nach Zahlen mit einem geschützten schmalen Leerzeichen versehen:

Suche:

(\d+)(?<!~<) *(((EUR|USD|RUB|µ|µm|mm|cm|dm|m|km|ft|mi|мкм|мм|см|дм|м|км|ha|ml|l|fl\.oz|gal|мл|л|µs|ms|s|sec|Sek|seg|min|Min|h|Std|мкc|c|сек|мин|ч|°C|°F|K|°С|К|µg|mg|g|kg|t|oz|lb|мкг|мг|г|кг|т|N|kN|Н|кН|mph|Ncm|Nm|ozf\.in|lbf\.ft|lbft|ftlb|Нсм|Нм|G|bar|Bar|mPa|Pa|kPa|mmHg|inHg|psi|Па|бар|arcsec|арксек|upm|Upm|rpm|tr/min|giri/min|ot/min|ford/perc|rot/min|omw/min|d/dk|dev/dak|об/мин|об./мин|obr/min|W|kW|mV|V|kV|mA|A|Wh|kWh|PS|hp|bhp|mAh|Ah|Вт|кВт|мВ|В|кВ|мА|А|Втч|кВтч|мАч|Ач|kB|MB|GB|TB|КБ|МБ|ГБ|ТБ)\d?\>)|(%|‰|€|T€|\$|£|¥|₽|₺))

Ersetzen:

$1~<$2

 

Einheiten/Operatoren vor Zahlen

(×|÷|=|\~|≈|≠|>|<|≤|≥|ø|Ø|⌀|%|‰|§|€|\$|£|¥|₽|₺|EUR|USD|RUB) *(\d)
$1~<$2

 

Operatoren zwischen Zahlen

(?<=\d) *([–\~\+−±×÷=≈≠\>\<≤≥]) *(?=\d)
~<$1~<

 

Ist aber eher von Technikredaktion und Finanzberichten geprägt, und zwar praxis-erprobt aber mit gesundem Misstrauen zu verwenden.

 

Weiters haben wir Muster für Schrägstriche, Abkürzungen (z.B.), diverse Suchen nach Zahlengruppierungen, Millionen- und Milliarden-Beträgen, Sachen wie "Abs. X, S. YY ff", ... aber das ist halt alles sehr spezifisch für Anwendungsfälle konzipiert und dann so weit wie nötig abstrahiert.

bearbeitet von Sebastian Nagel
Link zu diesem Kommentar
Sebastian Nagel

Das sind meine gespeicherten GREP-Suchen in Indesign ...

Bildschirmfoto2023-05-24um15_31_26.thumb.png.01a238cf78895e9abb3571d2a4995f96.png

 

Die gehe ich in einem frisch importierten Text oft von oben nach unten durch. Also eine Art Vorab-Bereinigung, noch bevor ich typografisch damit im Detail arbeite. Je nachdem, wer mir den Text schickt und wie das später kontrolliert wird, kann das teils tatsächlich mit "alle ersetzen" passieren und spart dann natürlich ungemein Zeit, oder Schritt für Schritt, wenn Misstrauen angebracht ist (unbekannter Lieferant, unbekannte Textsorte, unbekanntes Lektorat ...).

 

Oben beschrieben sind die Punkte 101, 102 und 103 (Spationierungen von Zahlen und Einheiten in verschiedenen Konstellationen), das sind halt die allgemeinsten bzw. die die in der Summe an Treffern am meisten Arbeit einsparen.  Die anderen sind teils sehr fallabhängig anwendbar.

  • Gefällt 5
Link zu diesem Kommentar
Diwarnai
vor 34 Minuten schrieb Ibu:

Mir fällt aus meiner Praxis keine solche Situation ein.

… in der Steuererklärung, Anlage S. 2022 war zu berücksichtigen, …

Bei so unglücklich fomulierten Sätzen kann das vorkommen.

  • Gefällt 1
Link zu diesem Kommentar
Michael Bundscherer
Am 24.5.2023 um 15:39 schrieb Sebastian Nagel:

Das sind meine gespeicherten GREP-Suchen in Indesign ...

Bildschirmfoto2023-05-24um15_31_26.thumb.png.01a238cf78895e9abb3571d2a4995f96.png

 

Die gehe ich in einem frisch importierten Text oft von oben nach unten durch. Also eine Art Vorab-Bereinigung, noch bevor ich typografisch damit im Detail arbeite. Je nachdem, wer mir den Text schickt und wie das später kontrolliert wird, kann das teils tatsächlich mit "alle ersetzen" passieren und spart dann natürlich ungemein Zeit, oder Schritt für Schritt, wenn Misstrauen angebracht ist (unbekannter Lieferant, unbekannte Textsorte, unbekanntes Lektorat ...).

 

Oben beschrieben sind die Punkte 101, 102 und 103 (Spationierungen von Zahlen und Einheiten in verschiedenen Konstellationen), das sind halt die allgemeinsten bzw. die die in der Summe an Treffern am meisten Arbeit einsparen.  Die anderen sind teils sehr fallabhängig anwendbar.

Hallo Sebastian, eine gute Übersicht, die sich in etwa deckt mit dem, was ich auch verwende. 

Grundsätzlich: In InDesign gibt es mit dem Script ChainGREP.jsx eine einfache Möglichkeit, mehrere GREP-Operationen hintereinander ablaufen zu lassen. In dem beschriebenen Fall ist das aber nicht sinnvoll, weil einem dann die Kontrolle über die Ersetzungen entgleitet (ist also nur sinnvoll bei einigen todsicheren Ersetzungen, wie doppelte Wortzwischenräume). Außerdem dokumentiere ich Textersetzungen in der Regel für den Auftraggeber (hierzu färbe ich den ersetzten Text magenta ein und lasse das in der BK1 freigeben). Deshalb mache ich das wie Sebastian: Ich habe in Suchen-und-Ersetzen verschiedene Routinen gespeichert, die ich je nach Text teilweise einzeln, teilweise dokumentübergreifend ablaufen lasse. 

Weitere Vorschläge (ebenfalls mit Schwerpunkt Finanzkommunikation): 

  • Gesellschaftsformen (AG, SE, GmbH) an Firmennamen anhängen: z. B. Müller AG
  • Gesetztexte (AktG, BGB, EGAkt, EnSiG, HGB, UmwG, WStBG) an Gesetzverweis anhängen: z. B. § 16, Abs. 3, Satz 1 AktG
  • Ebenso sollte innerhalb dieser Gesetzesverweise kein Umbruch erfolgen: z. B. nach para., Abs., Nr., No., no., nos., S., Satz, Sätze, sent., sentence, sentences, secs., sec., Section, section, Sections, item, number, Punkt, Art. (die Liste ist bei mir im Laufe der Jahre um einige weitere Punkte angewachsen …)
  • nach Apostroph einen optisch verringerten Wortzwischenraum setzen (vor allem in englischen Texten)
  • Datum: Hier habe ich verschiedene Routinen für deutsche und englische Texte, jeweils in Kurz- und Langform (mit abgekürzten oder ausgeschriebenen Monatsnamen). Zum einen sollte nicht innerhalb eines Datums getrennt werden, zum anderen kann ich so auch herausfinden, ob in einen Text unterschiedliche Schreibweisen existieren.
  • Anreden und Titel (Dr., Ing., Ms., Mr. …) mit Namen zusammenschweißen
  • Abkürzungen zusammenschweißen: u. a., z. B., s. u. …
  • kein Umbruch in URLs (Aufnahme: nach »/«)
  • Telefonnummern sollten einheitlich geschrieben werden.
bearbeitet von Michael Bundscherer
  • Gefällt 3
Link zu diesem Kommentar

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Einloggen

Du hast bereits ein Benutzerkonto? Melde dich hier an.

Jetzt anmelden

Unsere Partner

Entdecke hunderte Font-Sonderangebote.
FDI Type Foundry besuchen
Hier beginnt deine kreative Reise.
Mit über 130.000 Fonts der größte Schriften-Shop im Internet.
Das dekorative Upcycling-ABC aus Metall. Jetzt im Shop von Typografie.info.
×
×
  • Neu erstellen...

🍪 Hinweis:

Wir benutzen funktionale Cookies.