Zu Inhalt springen

[kyrillisch] Gesucht: Font für OCR-Training

Hervorgehobene Antworten

Werte Kenner!

Um Tesseract für einen größeren Einsatz zu trainieren, benötige ich eine dem Input möglichst ähnliche Vorlage. Im Anhang findet sich ein mit Markierungen versehener Auszug. Die Probleme sind, soweit bisher ersichtlich, sind:

  • Das idiosynkratische „д“, welches oben spitz zuläuft und mit einer verhältnismäßig langen Serife nach links versehen ist (rote Markierungen);
  • das sehr schmale „л“, das zum Teil bloß über das linke Tröpfchen erkennbar ist (grün);
  • das niedrige „ѣ“ (blau).

Zudem stammen die Texte aus der Zeit vor 1917 (das Beispiel ist von 1846), weshalb zumindest das Jat und „і“, wenn möglich auch „ѳ“ und „ѵ“ vorhanden sein sollten.

Ich habe bereits alle mir verfügbaren Kandidaten dagegengeworfen, mit geringem Erfolg. Damit ich mich auf das Resultat verlassen kann, hätte ich angesichts der streckenweise äußerst unscharfen Vorlage aber gern eine möglichst passende Schriftart. (Am Original zu trainieren ist dann doch etwas zu haarig …)

Danke für alle Hinweise & Anregungen!

post-19215-1355407744,9556_thumb.png

Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:

Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.

  • Ersteller
Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:

Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.

Exakt.

  • Ersteller
Schau mal, ob hier was dabei ist: http://www.thessalonica.org.ru/en/fonts.html

Old Standard und Tempora? Hatte ich bereits getestet, sie erfüllen die Kriterien nicht oder nur teilweise.

Mein erster Trainingsdurchgang mit Paratype Serif war übrigens eine Niete: selbst die im Prinzip ungeeigneten Defaults für Ukrainisch liefern noch brauchbarere Ergebnisse … sieht so aus, als müßte ich doch Hand anlegen und am Original trainieren.

zumindest unter freien fonts wüsste ich nichts geeignetes. du könntest aber den font des originals digitalisieren ;) da könnten dann eventuell auch andere davon profitieren ;)

Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.

2pzkah0.gif

  • Ersteller
Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.

2pzkah0.gif

Danke für den Nachtrag. Ich bin mittlerweile beim zweiten Trainingsdurchlauf mit zusammengeklaubten Textschnipseln aus dem Zieltext. Etwas Aufwand wird mir vomCowboxer[1] abgenommen, insgesamt ist diese Art „Reverse Typographie“ aber recht mühselig.

Die Scotch ist in der Tat eine Überraschung, vor allem in Sachen Unicode-Abdeckung, wo sie fast mit CM-Unicode mithalten kann. Prächtige Schrift, wird beim nächsten Lottogewinn als erste gekauft werden … danke für den Link!

[1] http://code.google.com/p/cowboxer/

Erstelle ein Konto, um zu kommentieren

Wichtige Informationen

Wir setzen Cookies, um die Benutzung der Seite zu verbessern. Du kannst die zugehörigen Einstellungen jederzeit anpassen. Ansonsten akzeptiere bitte diese Nutzung.

Konto

Navigation

Browser-Push-Nachrichten konfigurieren

Chrome (Android)
  1. Klicke das Schloss-Symbol neben der Adressleiste.
  2. Klicke Berechtigungen → Benachrichtigungen.
  3. Passe die Einstellungen nach deinen Wünschen an.
Chrome (Desktop)
  1. Klicke das Schloss-Symbol in der Adresszeile.
  2. Klicke Seiteneinstellungen.
  3. Finde Benachrichtigungen und passe sie nach deinen Wünschen an.