Jump to content
Unsere freundliche Community freut sich auf deine Fragen …

[kyrillisch] Gesucht: Font für OCR-Training

Empfohlene Beiträge

Philipp Gesang

Werte Kenner!

Um Tesseract für einen größeren Einsatz zu trainieren, benötige ich eine dem Input möglichst ähnliche Vorlage. Im Anhang findet sich ein mit Markierungen versehener Auszug. Die Probleme sind, soweit bisher ersichtlich, sind:

  • Das idiosynkratische „д“, welches oben spitz zuläuft und mit einer verhältnismäßig langen Serife nach links versehen ist (rote Markierungen);
  • das sehr schmale „л“, das zum Teil bloß über das linke Tröpfchen erkennbar ist (grün);
  • das niedrige „ѣ“ (blau).

Zudem stammen die Texte aus der Zeit vor 1917 (das Beispiel ist von 1846), weshalb zumindest das Jat und „і“, wenn möglich auch „ѳ“ und „ѵ“ vorhanden sein sollten.

Ich habe bereits alle mir verfügbaren Kandidaten dagegengeworfen, mit geringem Erfolg. Damit ich mich auf das Resultat verlassen kann, hätte ich angesichts der streckenweise äußerst unscharfen Vorlage aber gern eine möglichst passende Schriftart. (Am Original zu trainieren ist dann doch etwas zu haarig …)

Danke für alle Hinweise & Anregungen!

post-19215-1355407744,9556_thumb.png

Link zu diesem Kommentar
Cajon

Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:

Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.

Link zu diesem Kommentar
Philipp Gesang
Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:

Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.

Exakt.

Link zu diesem Kommentar
Philipp Gesang
Schau mal, ob hier was dabei ist: http://www.thessalonica.org.ru/en/fonts.html

Old Standard und Tempora? Hatte ich bereits getestet, sie erfüllen die Kriterien nicht oder nur teilweise.

Mein erster Trainingsdurchgang mit Paratype Serif war übrigens eine Niete: selbst die im Prinzip ungeeigneten Defaults für Ukrainisch liefern noch brauchbarere Ergebnisse … sieht so aus, als müßte ich doch Hand anlegen und am Original trainieren.

Link zu diesem Kommentar
Georg Duffner

zumindest unter freien fonts wüsste ich nichts geeignetes. du könntest aber den font des originals digitalisieren ;) da könnten dann eventuell auch andere davon profitieren ;)

Link zu diesem Kommentar
Joshua K.

Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.

2pzkah0.gif

Link zu diesem Kommentar
Philipp Gesang
Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.

2pzkah0.gif

Danke für den Nachtrag. Ich bin mittlerweile beim zweiten Trainingsdurchlauf mit zusammengeklaubten Textschnipseln aus dem Zieltext. Etwas Aufwand wird mir vomCowboxer[1] abgenommen, insgesamt ist diese Art „Reverse Typographie“ aber recht mühselig.

Die Scotch ist in der Tat eine Überraschung, vor allem in Sachen Unicode-Abdeckung, wo sie fast mit CM-Unicode mithalten kann. Prächtige Schrift, wird beim nächsten Lottogewinn als erste gekauft werden … danke für den Link!

[1] http://code.google.com/p/cowboxer/

Link zu diesem Kommentar

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Einloggen

Du hast bereits ein Benutzerkonto? Melde dich hier an.

Jetzt anmelden

Unsere Partner

Mit über 130.000 Fonts der größte Schriften-Shop im Internet.
FDI Type Foundry besuchen
Hier beginnt deine kreative Reise.
Entdecke hunderte Font-Sonderangebote.
Adobe Stock kostenlos testen und 10 Gratis-Medien sichern …
×
×
  • Neu erstellen...

🍪 Hinweis:

Wir benutzen funktionale Cookies.