Schlagwort-Archive: UTF-8

Der Ursprung der Metadaten-​Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­tisch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-​Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, genau der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­lich ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel widmen.

Achtung, es wird tech­nisch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift danach sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-​Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert werden:

  • dem IIM-​Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-​PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8‑Bit-​Codes (ISO 8859-… ).
  • dem XMP-​Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-​Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-​Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF‑8, ver­wen­det.

Hinweis: Die Namen IPTC-​Core und IPTC-​Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-​Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-​Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-​Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-​Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/​Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­lich sind.

Auf der IPTC-​Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umgehen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-​Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wurde.

Bei den Beispielen auf Ihrer Blog-​Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-​Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-​Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-​Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF‑8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) obendrauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­lich kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurückdrehen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-​Forum, an das sich jeder bei Problemen mit IPTC-​Foto-​Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erahnen.

Probleme mit Sonderzeichen in IPTC-​Feldern beim Bildagentur-Import

Mit jeder neu­en Version von Adobe Photoshop gibt es nicht nur neue Funktionen, son­dern auch neue Bugs und neu­en Ärger. Manchmal ent­steht der Ärger nicht mal durch die Bugs, son­dern die kor­rekt arbei­ten­den Funktionen.

Was ist das Problem?

Mit Photoshop CS5 hat Adobe die Behandlung von IPTC-​Daten geän­dert. Das betrifft auch Adobe Bridge CS5 und viel­leicht Adobe Lightroom 3)

Diese IPTC-​Informationen (IPTC CORE, IPTC-​IIM, Legacy) wer­den bei CS5 jetzt im UTF‑8 Zeichensatz statt als 8Bit-​ISO-Zeichensatz gespei­chert. Im Grunde kein Problem. Schwierig wird es nur, wenn Sonderzeichen wie im Deutschen vor allem Umlaute wie ä,ö, ü oder das ß hin­zu­kom­men. Das Problem ist, dass Sonderzeichen in jedem Zeichensatz an einer ande­ren Stelle abge­spei­chert werden.

Wenn ein Programm oder eine Datenbank die Titel, Bildbeschreibungen oder Suchbegriffe aus den IPTC-​Feldern aus­liest, aber den benutz­ten Zeichensatz nicht abfragt, erkennt oder nut­zen kann, führt das zu krpy­ti­schen Zeichen. In der Praxis sieht das dann zum Beispiel so aus:

Häßlich, nicht wahr? Außerdem führt das dazu, dass Bildkäufer die eige­nen Fotos nicht fin­den, weil die­se nie die kryp­ti­schen Zeichen ein­ge­ben werden.

Wer hat Schuld?

Wer hat Schuld am Problem? Adobe, weil es frü­her funk­tio­niert hat­te? Oder die Bildagenturen, weil sie die Daten nicht rich­tig importieren?

Technisch gese­hen hat Adobe kei­ne Schuld. Laut IPTC-​Standard dürf­ten für den alten Legacy IPTC-​IIM-​Standard nur ASCII-​Zeichen ver­wen­det wer­den, da sind nun mal kei­ne Sonderzeichen dabei. Laut dem neu­en XMP-​Standard, in dem Adobe die Metadaten spei­chert, dür­fen Sonderzeichen aus­drück­lich benutzt wer­den und bei den meis­ten Bildagenturen klappt der Import auch.

Probleme machen vor allem eini­ge deut­sche Bildagenturen. Bei mir tritt das Problem bei die­sen Agenturen auf:

  • Bildmaschine
  • Bildunion
  • ImagePoint
  • Digitalstock

Das bedeu­tet oft, dass deren Agentursoftware nicht die neu­en XMP-​Metadaten aus­liest, son­dern die eben­falls immer auto­ma­tisch mit­ge­lie­fer­ten alten IPTC-​Core-​Metadaten.

Ich habe bei jeder Agentur nach­ge­fragt und fol­gen­de Antworten bekommen:

  • Bildmaschine kennt das Problem und ver­sucht, mit der Einführung des neu­en Fotografen-​Backends auch den Metadaten-​Import zu aktua­li­sie­ren. Die Umstellung auf den neu­en Fotografen-​Bereich ist aktu­ell für Mai 2011 geplant.
  • Bildunion ant­wor­te­te kurz: „Wir ken­nen das Problem und wer­den das schnellst­mög­lich korrigieren.“
  • Bei ImagePoint scheint zwar der Import die fal­schen Sonderzeichen anzu­zei­gen (sie­he Screenshot oben), aber beim Durchlaufen des inter­nen Prüfsystems wer­den die Daten neu berech­net und die Umlaute danach wie­der kor­rekt ange­zeigt. Wir haben das mit eini­gen mei­ner Fotos getes­tet und es funktioniert.
  • Digitalstock hat das Problem zur Kenntnis genom­men, ist aber mehr damit beschäf­tigt rei­hen­wei­se Bilder abzu­leh­nen als sich um das Problem zu küm­mern. Scherz bei­sei­te: Digitalstock ist infor­miert und will sich dar­um küm­mern. Viel Hoffnung habe ich jedoch nicht, dass es schnell gesche­hen wird.

Was ist die Lösung?

Naheliegend wäre, die Verschlagwortung ein­fach mit einem ande­ren Programm zu machen. Das ist aber kei­ne Lösung, weil Photoshop bei einer nach­träg­li­chen Bearbeitung einer Datei wie­der alle Metadaten im UTF8-​Zeichenformat spei­chern wür­de. Im Idealfall wür­den alle betrof­fe­nen Bildagenturen den neu­en XMP-​Standard benut­zen. Der kann übri­gens theo­re­tisch sogar die Model- und Property-​Releases auto­ma­tisch zuord­nen. Den obi­gen Antworten nach soll­te das bald gesche­hen sein. Bis dahin hilft nur ein Umweg.

Was ist die Notlösung?

Das klei­ne kos­ten­lo­se Freeware-​Programm ExifTool erlaubt zahl­rei­che Eingriffe in IPTC-​Daten. Zum Beispiel kann damit vor­ge­gau­kelt wer­den, ein Foto wäre mit einer Hasselblad gemacht wor­den, obwohl es nur eine Canon war und ähn­li­ches. In unse­rem Fall brau­chen wir aber das Feature, was uns erlaubt, Zeichensätze umzu­wan­deln, genau­er beschrie­ben in FAQ 10.

Bei mir sieht das kon­kret so aus: Ich habe mir das Programm exiftool.exe run­ter­ge­la­den. Da es ein Kommandozeilen-Programm ist, kann ich eine Batch-​Datei anlegen.Wie das geht? Ihr erstellt eine .txt-​Datei, die genau­so wie das Hauptprogramm heißt (also exiftool.txt) und schreibt darin:

exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*
pause

Danach spei­chert ihr die Textdatei und benennt sie in „exiftool.bat“ um. Die bat-​Datei und exe-​Datei müs­sen im glei­chen Ordner lie­gen. Wenn ihr jetzt eure JPG-​Dateien im glei­chen Ordner habt, müsst ihr sie nur auf die bat-​Datei zie­hen und das Programm wan­delt den Zeichensatz zurück in das alte ISO-​Format, mit dem alle Agenturen klar­kom­men. Wer etwas fit­ter mit Kommandozeilen ist, kann sich das Ganze auch anders oder beque­mer pro­gram­mie­ren. Den obi­gen „Pause“-Befahl habe ich nur ein­ge­fügt, damit ihr eine Bestätigung seht, dass alles kor­rekt kon­ver­tiert wur­de. Wer Ahnung hat, kann das weg­las­sen. Exiftool erstellt übri­gens eine Sicherheitskopie von jeder umge­wan­del­ten Datei, ihr braucht also kei­ne Angst zu haben, etwas unwi­der­ruf­lich falsch zu machen.

Wie sieht es bei euch aus? Welche Erfahrungen habt ihr mit Umlauten gemacht? Welche Agenturen berei­ten Probleme? Welche Lösungen habt ihr für euch gefunden?

(Danke an ManfredG für sei­ne Hinweis in die­sem Thread)