Der Ursprung der Metadaten-​Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­tisch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-​Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, genau der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­lich ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel widmen.

Achtung, es wird tech­nisch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift danach sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-​Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert werden:

  • dem IIM-​Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-​PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8‑Bit-​Codes (ISO 8859-… ).
  • dem XMP-​Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-​Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-​Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF‑8, ver­wen­det.

Hinweis: Die Namen IPTC-​Core und IPTC-​Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-​Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-​Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-​Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-​Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/​Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­lich sind.

Auf der IPTC-​Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umgehen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-​Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wurde.

Bei den Beispielen auf Ihrer Blog-​Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-​Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-​Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-​Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF‑8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) obendrauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­lich kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurückdrehen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-​Forum, an das sich jeder bei Problemen mit IPTC-​Foto-​Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erahnen.

5 Gedanken zu „Der Ursprung der Metadaten-​Probleme bei Photoshop, XML und IPTC“

  1. Vielen Dank für das noch­ma­li­ge Sensibilisierung zu die­ser Problematik. Leider sind wir schon ein gebrann­tes Kind und muss­ten zur Kenntnis neh­men, dass unser Redaktionssystem Woodwing IPTC-​Metadaten sehr eigen inter­pre­tiert obwohl XMP unter­stützt wird. Deshalb wäre eine aktua­li­sier­te Version der Software Liste sehr hilf­reich, evtl. eben auch mit der Ergänzung um Datenbanksoftware und Redaktionssysteme.
    Von eini­gen Fotografen habe ich gehört, dass deren Bildagenturen zum Teil for­dern die IPTC Metadaten ohne Umlaute/​Sonderzeichen aus­zu­fül­len, weil die Endabnehmer der Bilder (z.B. Verlagshäuser über Push-​FTP) in ihrem Bild-​Workflow auf Software set­zen, die bei Umlauten/​Sonderzeichen Schrott pro­du­ziert. Bei der Flut der Bilder die Bildredakteure gera­de bei Push-​FTP/​Bildfunk aus­ge­setzt sind, wird sich kein Bildredakteur die Mühe machen und den Buchstaben-​Schrott in den IPTC Daten zu ent­schlüs­seln, son­dern eben ein Bild in die Produktion neh­men bei der sofort der Bildinhalt anhand der IPTC-​Daten ver­stan­den wer­den kann. Und hier ist natür­lich der Lieferant der Bilder der Schuldige, dem dann eben evtl. ein Geschäft entgeht.
    Insgesamt ist das alles sicher ein äußerst kom­ple­xes Problem, bei dem Anwender dem Gutdünken von Software-​Programmierern aus­ge­setzt sind, die für die­se Problematik anschei­nend noch nicht aus­rei­chend sen­si­bi­li­siert sind.

  2. IPTC ist schrott. ein uralt „stan­dard“, der es nie geschafft hat sich durch­zu­set­zen. und dann noch das über­kom­pli­zier­te XMP mit XML(!!) drin. fotografen+verlage hät­ten den mist längst kip­pen kön­nen… aber denen fehlt die weit­sicht – lei­der. 5 kern­tags UTF8 kodiert, die JEDER ver­steht: datum, titel, autor-​email, autor-​name, lizenz alles ande­re ist alles andere…

  3. @Robbie: ist doch Quatsch. Standards wie IPTC sind ele­men­tar wich­tig, auf XML-​Basis umso mehr. Nur so ist wirk­lich Austauschbarkeit garan­tiert. Nur XML-​basierte Standards bie­ten die Weitsichtigkeit, die du for­derst. Die Zeichencodierung hat ja pri­mär nichts mit dem Standard zu tun. Außerdem wür­den 5 Kerntags nicht aus­rei­chen. Die Erweiterung IPTC Extension ist ja gera­de von Bildagenturen gefor­dert wor­den, da mehr Felder benö­tigt wer­den. Im pro­fes­sio­nel­len Bildbereich wür­den 5 Tags nie und nim­mer ausreichen.
    All die Synchronisierungsprobleme, die oben beschrie­ben wer­den, las­sen sich ein­fach behe­ben, wenn nicht mehr auf den alten IIM-​Standard gesetzt wird. Also alte Programme, die XMP nicht mehr unter­stütz­ten, ein­fach raus­ki­cken – zumin­dest wenn man in irgend­ei­ner Form an Verkauf von Bildern oder Datenaustausch denkt.

  4. @andrea. das wich­tigs­te an einem stan­dard ist, dass sich alle dran hal­ten. in zei­ten von inter­net muss man für akzep­tanz sor­gen. d.h. mach es den leu­ten so ein­fach wie mög­lich. rech­te maus­tas­te, bild­in­fo, aha das ist von dem­und­dem. 99% der user brau­chen nicht mehr infos. zei­chen­co­die­rung hat nichts mit dem stan­dard zu tun? hal­lo? sau­wich­ti­ge infor­ma­ti­on wie man an dem im text beschrie­be­nen kaos sehen kann. und xml ein­satz (inner­halb eines binä­ren hea­ders!!!) ist immer ein warn­zei­chen dass hier ganz gros­se (cor­po­ra­te) löcher gebohrt wer­den. kann man ja alles machen, aber wun­dert euch nicht, wenn das dann nicht kor­rekt genutzt wird und vie­le bild­pro­gram­me vie­le ver­schie­de­ne inter­pre­ta­tio­nen kur­sie­ren und bei „spei­chern unter“ ist dann eh alles wie­der weg.

  5. @ rob­bie /​ „IPTC ist schrott. ein uralt “stan­dard”, der es nie geschafft hat sich durchzusetzen.“

    Du kennst die Wirklichkeit in den Verlagen und Agenturen nicht, mein Lieber. IPTC hat sich stark durch­ge­setzt und vie­le Millionen (oder Milliarden?) Bilder sind damit beschrif­tet und ver­schlag­wor­tet wor­den. War das umsonst?

    Tom

Kommentare sind geschlossen.