Jump to content
Postkarten-ABC zum Sammeln oder Verschenken …

Encoding Excel-Daten, PostScript, ...

Empfohlene Beiträge

Mueck

Moin

Habe mal 1-2 Fragen zum Encoding ...

Für eine Drei-Vereine-Zeitschrift müssen Adressdaten aus 4 Quellen zusammengeführt werden, derzeit alles in Excel-Tabellen (aber mind. eine war anfangs mal dbase ...).

Der erste, der sich das angetan hat, hat vor gut 10 Jahren was in access geschrieben, was natürloch nur in MS Office geht. Irgendwann habe ich das mal übernommen und so gelassen und alles auf dem Vereinsrechner gemacht. Irgendwann hat sich dann ein anderer damit rumgeschlagen und nun hat der keine Lust mehr und der schwarze Peter ist wieder bei mir gelandet *seufz* ;-) und ich habe beschlossen, das ganze neu aufzuziehen in einer Umgebung, die mir behagt, nämlich mit einem Tcl-Script auf meiner Kiste daheim, die hat eh kein MS Office, sondern nur Open und Libre Office unter Windows 7 (cygwin ist auch auf der Kiste drauf).

Das mit dem direkten Zugriff aus Tcl auf Excel-Dateien ist erst mal auf eine spätere Version vertagt, weil irgendwie nix funktioniert von den potentiellen Lösungsansätzen dafür. Vorerst tun es händisch exportierte csv-Dateien ... Der nachfolgende Kern aus Quick&Dirty-Tcl funktioniert schon recht gut und sortiert fast alle Doubletten wegen Doppelt- und Dreifachmitgliedschaften aus. Im Moment bastel ich daran, auch gleich eine fertige Druckausgabe für Etiketten bzw. Druckumschläge zu basteln über den Umweg PostScript, das beherrsche ich auch halbwegs, das dann mit ps2pdf konvertiert wird.

Soweit mal die Vorgeschichte und die Rahmenbedingungen ...

Was mich aber irgendwie wundert ist der Umstand, dass in so einer inhomogenen mit den Sonderzeichen bisher alles relativ problemlos lief ... Ok, offenbar ist aktuell kein þorsten oder Kollege in den Daten drin, das exotischte scheint offenbar jemand mit einem é im Namen zu sein ... Aber irgendwann wird der Tag kommen, wo wir über einen exotischen lateinischen Buchstaben/Akzent/... stolpern werden ... Darauf sollte man vorbereitet sein ...

Das scheitert aber schon daran, dass ich bisher nirgends in OpenOffice eine Info gefunden habe, mit welchem Encoding die vier beteiligten Excel-Dateien original arbeiten. Ich scheine Glück zu haben, dass alle dasselbe zu haben scheinen und mit der Default-Einstellung (?) beim Export nach csv zurecht kamen.

Da Excel aber mWn älter als Unicode in der Windoof-Welt ist, glaube ich irgendwie nicht daran, dass da Excel von sich aus seit Anfangstagen weltweit einheitlich in einem unkomplizierten Encoding speichert...

Wie kriegt man also mit OOo das Encoding einer Excel-Datei raus? Oder gibt es eine solche Info nicht in der Excel-Datei?

Tipps dazu willkommen. Vermutlich gibt es hier genug Leute, die sich damit schon rumschlagen mussten ... ;-)

Wenn ich das Encoding dann wüsste, könnte ich das in Tcl dann entsprechend berücksichtigen und die Daten ggfs. konvertieren ...

Beim Basteln an der PostScript-Ausgabe gestern ist mir das Sonderzeichenproblem wieder bewusst geworden. Das letzte mal, dass ich eine PostScript-Ausgabe gebastelt habe, liegt schon etwas länger zurück und ich hatte vergessen, dass PostScript da noch etwas prähistorisch aufgebaut zu sein scheint ... Nach einem üblichen Encoding-Klimmzug mit Definition von latin1 waren die Umlaute dann zwar da, aber exotenzeichensicher ist das sicher auch nicht ... Da werde ich also auch noch mal einen genaueren Blick drauf werfen müssen, sobald ich weiß, wie meine Daten wirklich codiert sind ...

Link zu diesem Kommentar

Puh, ganz schön viel Text. ;-)

 

Bist du unter Windows unterwegs? Dann könnte dir das helfen:

http://encodingchecker.codeplex.com

 

Ansonsten gibt es wahrscheinlich keine universelle Antwort, die sämtliche XLS/CSV-Dateien gleichermaßen beschreibt. Früher kam für Textdateien aller Art standardmäßig die lokale 8-Bit-Kodierung des Systems zum Zuge. Daher ja immer die Probleme, wenn man die Datei an jemanden anderen (einen Mac-Nutzer, einen Tschechen etc.) schickte.

Die neueren Excel-Versionen speichern stattdessen nun ein XLSX, was nur ein ZIP-Archiv mit XML-Daten ist, die dann wiederum standardmäßig UTF8 sind. Du kannst das ZIP-Archiv auch entpacken und in die XML-Dateien reinschauen. Da steht die Kodierung jeweils in der ersten Zeile drin. 

Link zu diesem Kommentar
Mueck

Bist du unter Windows unterwegs?

Ja, stand ja auch im vielen Text ... *d&r* ;-)

Dann könnte dir das helfen:

http://encodingchecker.codeplex.com

Klingt interessant, gehört nun zu den Schätzen auf meinem Rechner, sagt auch was über diverse Dateien, aber leider nix über die .xls ...

Neben Windoof habe ich ja auch das Möchtegernlinux cygwin drauf und da kann "file" immerhin für 2 Excel-Dateien ein Encoding angeben (zu den anderen 2 meint es corrupt: Can't read SSAT, was auch immer das ist ...)

Interessant wäre, ob die beiden Progs ihre Infos erraten (das Gefühl habe ich beim EncodingChecker?) oder irgendwo auslesen ... Deine weiteren Infos klingen nicht gerade danach, als wäre letzteres möglich ...

Ansonsten gibt es wahrscheinlich keine universelle Antwort, die sämtliche XLS/CSV-Dateien gleichermaßen beschreibt. Früher kam für Textdateien aller Art standardmäßig die lokale 8-Bit-Kodierung des Systems zum Zuge.

Die interessante Frage wäre, ob dies irgendwo im .xls nachzulesen ist "ich bin ein unter cp1252 erzeugtes Dokument"

Die neueren Excel-Versionen speichern stattdessen nun ein XLSX, ...

Scheinen alles ältere .xls zu sein, kein .xlsx dabei

Derweil schlage ich mich mit umgekehrter polnischer Gedönslogik rum, um in PostScript den in mm längsten string von vier zu finden ... ;-)

Link zu diesem Kommentar
Vitrioloel

Sehr auskunftsfreudig ist das Kommandozeilenprogramm ExifTool welches, entgegen seines Namens, auch Informationen aus anderen Dateitypen als Bildern auslesen kann. Das Programm gibt es übrigens nicht nur für Windows sondern auch für Apfelrechner.

Da ich trotz „Console“ den Komfort eine Benutzeroberfläche zu schätzen weiß, nutze ich ExifTool-GUI, dies stürzt bei mir zwar bei großen Dateien gerne mal ab, trotzdem ist es sehr nützlich. Bei „Metadata“ sollte man „ALL“ wählen, außer vielleicht bei Bildern.

 

Nachtrag: Eben hatte ich auch zwei Excel-Dateien, welche ich vor geraumer Zeit aus dem Netz geladen hatte, bei denen die Informationen unter „FlashPix“ fehlen – so auch die Code Page.

 

Hier mal die Informationen welche das Programm aus einer Excel-Datei ausließt. Warum „Code Page“ zweimal ausgelesen wird weiß ich aber nicht.

---- ExifTool ----
ExifTool-Version                : 9.69
---- File ----
Dateiname                       : allmidi1.xls
Verzeichnis                     : .
Dateigröße                      : 168 kB
Datum/Uhrzeit der Dateiänderung : 2002:10:05 17:58:42+02:00
Datum/Uhrzeit des letzten Dateizugriffs: 2014:06:28 12:53:30+02:00
Datum/Uhrzeit der Dateierstellung: 2010:09:24 13:40:54+02:00
Dateiberechtigungen             : rw-rw-rw-
Dateityp                        : XLS
MIME-Typ                        : application/vnd.ms-excel
---- FlashPix ----
Code Page                       : Windows Latin 1 (Western European)
Autor                           : cl
Last Modified By                : Das Rätsel
Software                        : Microsoft Excel
Digitalisierungsdatum/-uhrzeit  : 2002:07:18 11:06:00
Änderungsdatum                  : 2002:10:05 14:58:42
Sicherheit                      : Keine
Code Page                       : Windows Latin 1 (Western European)
Company                         : IDG
App Version                     : 10.2625
Scale Crop                      : No
Links Up To Date                : No
Shared Doc                      : No
Hyperlinks Changed              : No
Title Of Parts                  : Tabelle1*Tabelle1!Suchkriterien
Heading Pairs                   : Arbeitsblätter*1*Benannte Bereiche*1
Comp Obj User Type Len          : 29
Comp Obj User Type              : Microsoft Excel-Arbeitsblatt
  • Gefällt 1
Link zu diesem Kommentar
Mueck

Ahja, die Kommandozeile gibt über alle 4 Auskunft, Lastin1 meint es ... Danke!

Das GUI hängt beim Aufruf eines mittelgroßen Verzeichnisses ...

Link zu diesem Kommentar

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Einloggen

Du hast bereits ein Benutzerkonto? Melde dich hier an.

Jetzt anmelden

Unsere Partner

Entdecke hunderte Font-Sonderangebote.
Hier beginnt deine kreative Reise.
FDI Type Foundry besuchen
Mit über 130.000 Fonts der größte Schriften-Shop im Internet.
FDI Farbmeister: Mit Bitmap-Schriften Buchdruck simulieren …
×
×
  • Neu erstellen...

🍪 Hinweis:

Wir benutzen funktionale Cookies.