Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­ti­sch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, gen­au der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­li­ch ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel wid­men.

Achtung, es wird tech­ni­sch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift dana­ch sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert wer­den:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF-8, ver­wen­det.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­li­ch sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umge­hen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wur­de.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) oben­drauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­li­ch kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurück­dre­hen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erah­nen.

5 Gedanken zu „Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC“

  1. Vielen Dank für das noch­ma­li­ge Sensibilisierung zu die­ser Problematik. Leider sind wir schon ein gebrann­tes Kind und muss­ten zur Kenntnis neh­men, dass unser Redaktionssystem Woodwing IPTC-Metadaten sehr eigen inter­pre­tiert obwohl XMP unter­stützt wird. Deshalb wäre eine aktua­li­sier­te Version der Software Liste sehr hilf­reich, evtl. eben auch mit der Ergänzung um Datenbanksoftware und Redaktionssysteme.
    Von eini­gen Fotografen habe ich gehört, dass deren Bildagenturen zum Teil for­dern die IPTC Metadaten ohne Umlaute/Sonderzeichen aus­zu­fül­len, weil die Endabnehmer der Bilder (z.B. Verlagshäuser über Push-FTP) in ihrem Bild-Workflow auf Software set­zen, die bei Umlauten/Sonderzeichen Schrott pro­du­ziert. Bei der Flut der Bilder die Bildredakteure gera­de bei Push-FTP/Bildfunk aus­ge­setzt sind, wird sich kein Bildredakteur die Mühe machen und den Buchstaben-Schrott in den IPTC Daten zu ent­schlüs­seln, son­dern eben ein Bild in die Produktion neh­men bei der sofort der Bildinhalt anhand der IPTC-Daten ver­stan­den wer­den kann. Und hier ist natür­li­ch der Lieferant der Bilder der Schuldige, dem dann eben evtl. ein Geschäft ent­geht.
    Insgesamt ist das alles sicher ein äußer­st kom­ple­xes Problem, bei dem Anwender dem Gutdünken von Software-Programmierern aus­ge­setzt sind, die für die­se Problematik anschei­nend noch nicht aus­rei­chend sen­si­bi­li­siert sind.

  2. IPTC ist schrott. ein uralt „stan­dard“, der es nie geschafft hat sich durch­zu­set­zen. und dann noch das über­kom­pli­zier­te XMP mit XML(!!) drin. fotografen+verlage hät­ten den mist längst kip­pen kön­nen… aber denen fehlt die weit­sicht – lei­der. 5 kern­tags UTF8 kodiert, die JEDER ver­steht: datum, titel, autor-email, autor-name, lizenz alles ande­re ist alles ande­re…

  3. @Robbie: ist doch Quatsch. Standards wie IPTC sind ele­men­tar wich­tig, auf XML-Basis umso mehr. Nur so ist wirk­li­ch Austauschbarkeit garan­tiert. Nur XML-basierte Standards bie­ten die Weitsichtigkeit, die du for­der­st. Die Zeichencodierung hat ja pri­mär nichts mit dem Standard zu tun. Außerdem wür­den 5 Kerntags nicht aus­rei­chen. Die Erweiterung IPTC Extension ist ja gera­de von Bildagenturen gefor­dert wor­den, da mehr Felder benö­tigt wer­den. Im pro­fes­sio­nel­len Bildbereich wür­den 5 Tags nie und nim­mer aus­rei­chen.
    All die Synchronisierungsprobleme, die oben beschrie­ben wer­den, las­sen sich ein­fach behe­ben, wenn nicht mehr auf den alten IIM-Standard gesetzt wird. Also alte Programme, die XMP nicht mehr unter­stütz­ten, ein­fach raus­ki­cken – zumin­dest wenn man in irgend­ei­ner Form an Verkauf von Bildern oder Datenaustausch denkt.

  4. @andrea. das wich­tigs­te an einem stan­dard ist, dass sich alle dran hal­ten. in zei­ten von inter­net muss man für akzep­tanz sor­gen. d.h. mach es den leu­ten so ein­fach wie mög­li­ch. rech­te maus­tas­te, bild­in­fo, aha das ist von dem­und­dem. 99% der user brau­chen nicht mehr infos. zei­chen­co­die­rung hat nichts mit dem stan­dard zu tun? hal­lo? sau­wich­ti­ge infor­ma­ti­on wie man an dem im text beschrie­be­nen kaos sehen kann. und xml ein­satz (inner­halb eines binä­ren hea­ders!!!) ist immer ein warn­zei­chen dass hier ganz gros­se (cor­po­ra­te) löcher gebohrt wer­den. kann man ja alles machen, aber wun­dert euch nicht, wenn das dann nicht kor­rekt genutzt wird und vie­le bild­pro­gram­me vie­le ver­schie­de­ne inter­pre­ta­tio­nen kur­sie­ren und bei „spei­chern unter“ ist dann eh alles wie­der weg.

  5. @ rob­bie / „IPTC ist schrott. ein uralt “stan­dard”, der es nie geschafft hat sich durch­zu­set­zen.“

    Du kenn­st die Wirklichkeit in den Verlagen und Agenturen nicht, mein Lieber. IPTC hat sich stark durch­ge­setzt und vie­le Millionen (oder Milliarden?) Bilder sind damit beschrif­tet und ver­schlag­wor­tet wor­den. War das umson­st?

    Tom

Kommentare sind geschlossen.