Schlagwort-Archive: UTF-8

Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­ti­sch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, gen­au der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­li­ch ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel wid­men.

Achtung, es wird tech­ni­sch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift dana­ch sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert wer­den:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF-8, ver­wen­det.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­li­ch sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umge­hen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wur­de.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) oben­drauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­li­ch kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurück­dre­hen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erah­nen.

Probleme mit Sonderzeichen in IPTC-Feldern beim Bildagentur-Import

Mit jeder neu­en Version von Adobe Photoshop gibt es nicht nur neue Funktionen, son­dern auch neue Bugs und neu­en Ärger. Manchmal ent­steht der Ärger nicht mal durch die Bugs, son­dern die kor­rekt arbei­ten­den Funktionen.

Was ist das Problem?

Mit Photoshop CS5 hat Adobe die Behandlung von IPTC-Daten geän­dert. Das betrifft auch Adobe Bridge CS5 und viel­leicht Adobe Lightroom 3)

Diese IPTC-Informationen (IPTC CORE, IPTC-IIM, Legacy) wer­den bei CS5 jetzt im UTF-8 Zeichensatz statt als 8Bit-ISO–Zeichensatz gespei­chert. Im Grunde kein Problem. Schwierig wird es nur, wenn Sonderzeichen wie im Deutschen vor allem Umlaute wie ä,ö, ü oder das ß hin­zu­kom­men. Das Problem ist, dass Sonderzeichen in jedem Zeichensatz an einer ande­ren Stelle abge­spei­chert wer­den.

Wenn ein Programm oder eine Datenbank die Titel, Bildbeschreibungen oder Suchbegriffe aus den IPTC-Feldern aus­liest, aber den benutz­ten Zeichensatz nicht abfragt, erkennt oder nut­zen kann, führt das zu krpy­ti­schen Zeichen. In der Praxis sieht das dann zum Beispiel so aus:

Häßlich, nicht wahr? Außerdem führt das dazu, dass Bildkäufer die eige­nen Fotos nicht fin­den, weil die­se nie die kryp­ti­schen Zeichen ein­ge­ben wer­den.

Wer hat Schuld?

Wer hat Schuld am Problem? Adobe, weil es frü­her funk­tio­niert hat­te? Oder die Bildagenturen, weil sie die Daten nicht rich­tig impor­tie­ren?

Technisch gese­hen hat Adobe kei­ne Schuld. Laut IPTC-Standard dürf­ten für den alten Legacy IPTC-IIM-Standard nur ASCII-Zeichen ver­wen­det wer­den, da sind nun mal kei­ne Sonderzeichen dabei. Laut dem neu­en XMP-Standard, in dem Adobe die Metadaten spei­chert, dür­fen Sonderzeichen aus­drück­li­ch benutzt wer­den und bei den meis­ten Bildagenturen klappt der Import auch.

Probleme machen vor allem eini­ge deut­sche Bildagenturen. Bei mir tritt das Problem bei die­sen Agenturen auf:

  • Bildmaschine
  • Bildunion
  • ImagePoint
  • Digitalstock

Das bedeu­tet oft, dass deren Agentursoftware nicht die neu­en XMP-Metadaten aus­liest, son­dern die eben­falls immer auto­ma­ti­sch mit­ge­lie­fer­ten alten IPTC-Core-Metadaten.

Ich habe bei jeder Agentur nach­ge­fragt und fol­gen­de Antworten bekom­men:

  • Bildmaschine kennt das Problem und ver­sucht, mit der Einführung des neu­en Fotografen-Backends auch den Metadaten-Import zu aktua­li­sie­ren. Die Umstellung auf den neu­en Fotografen-Bereich ist aktu­ell für Mai 2011 geplant.
  • Bildunion ant­wor­te­te kurz: „Wir ken­nen das Problem und wer­den das schnellst­mög­li­ch kor­ri­gie­ren.“
  • Bei ImagePoint scheint zwar der Import die fal­schen Sonderzeichen anzu­zei­gen (sie­he Screenshot oben), aber beim Durchlaufen des inter­nen Prüfsystems wer­den die Daten neu berech­net und die Umlaute dana­ch wie­der kor­rekt ange­zeigt. Wir haben das mit eini­gen mei­ner Fotos getes­tet und es funk­tio­niert.
  • Digitalstock hat das Problem zur Kenntnis genom­men, ist aber mehr damit beschäf­tigt rei­hen­wei­se Bilder abzu­leh­nen als sich um das Problem zu küm­mern. Scherz bei­sei­te: Digitalstock ist infor­miert und will sich dar­um küm­mern. Viel Hoffnung habe ich jedoch nicht, dass es schnell gesche­hen wird.

Was ist die Lösung?

Naheliegend wäre, die Verschlagwortung ein­fach mit einem ande­ren Programm zu machen. Das ist aber kei­ne Lösung, weil Photoshop bei einer nach­träg­li­chen Bearbeitung einer Datei wie­der alle Metadaten im UTF8-Zeichenformat spei­chern wür­de. Im Idealfall wür­den alle betrof­fe­nen Bildagenturen den neu­en XMP-Standard benut­zen. Der kann übri­gens theo­re­ti­sch sogar die Model- und Property-Releases auto­ma­ti­sch zuord­nen. Den obi­gen Antworten nach soll­te das bald gesche­hen sein. Bis dahin hilft nur ein Umweg.

Was ist die Notlösung?

Das klei­ne kos­ten­lo­se Freeware-Programm ExifTool erlaubt zahl­rei­che Eingriffe in IPTC-Daten. Zum Beispiel kann damit vor­ge­gau­kelt wer­den, ein Foto wäre mit einer Hasselblad gemacht wor­den, obwohl es nur eine Canon war und ähn­li­ches. In unse­rem Fall brau­chen wir aber das Feature, was uns erlaubt, Zeichensätze umzu­wan­deln, genau­er beschrie­ben in FAQ 10.

Bei mir sieht das kon­kret so aus: Ich habe mir das Programm exiftool.exe run­ter­ge­la­den. Da es ein Kommandozeilen-Programm ist, kann ich eine Batch-Datei anlegen.Wie das geht? Ihr erstellt eine .txt-Datei, die genauso wie das Hauptprogramm heißt (also exiftool.txt) und schreibt dar­in:

exif­tool -tags­from­file @ -iptc:all -coded­cha­rac­ter­set= %*
pau­se

Danach spei­chert ihr die Textdatei und benennt sie in „exiftool.bat“ um. Die bat-Datei und exe-Datei müs­sen im glei­chen Ordner lie­gen. Wenn ihr jetzt eure JPG-Dateien im glei­chen Ordner habt, müsst ihr sie nur auf die bat-Datei zie­hen und das Programm wan­delt den Zeichensatz zurück in das alte ISO-Format, mit dem alle Agenturen klar­kom­men. Wer etwas fit­ter mit Kommandozeilen ist, kann sich das Ganze auch anders oder beque­mer pro­gram­mie­ren. Den obi­gen „Pause“-Befahl habe ich nur ein­ge­fügt, damit ihr eine Bestätigung seht, dass alles kor­rekt kon­ver­tiert wur­de. Wer Ahnung hat, kann das weg­las­sen. Exiftool erstellt übri­gens eine Sicherheitskopie von jeder umge­wan­del­ten Datei, ihr braucht also kei­ne Angst zu haben, etwas unwi­der­ruf­li­ch fal­sch zu machen.

Wie sieht es bei euch aus? Welche Erfahrungen habt ihr mit Umlauten gemacht? Welche Agenturen berei­ten Probleme? Welche Lösungen habt ihr für euch gefun­den?

(Danke an ManfredG für sei­ne Hinweis in die­sem Thread)