Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr praktisch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müssen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hinzufügen. Am einfachsten geht das über IPTC-Daten, welches ein standarisiertes Datenprotokoll ist. Oder besser gesagt, sein sollte, denn in der Praxis gibt es beim Austausch dieser Informationen zwischen verschiedenen Programmen immer wieder Fallstricke. Das habe ich beispielsweise hier beschrieben. Dort in den Kommentaren versteckt hat Michael Steidl, seines Zeichens Managing Director beim IPTC (ja, genau der Verein, der für die gleichnamigen Metadaten verantwortlich ist) eine aufschlussreiche Erklärung für das Problem geliefert. Da sie dort etwas versteckt ist, möchte ich seinen Ausführungen noch mal einen eigenen Artikel widmen.

Achtung, es wird technisch. Aber wer sich ständig mit Metadaten herumschlagen muss, begreift danach sicher , warum es so viele Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder können in zwei technischen Varianten abgespeichert werden:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard definiert, dass Zeichen in unterschiedlichen Zeichensätzen verwendet werden können, dazu allerdings eine Kennung im Feld 1:90 (siehe Seite 20 hier) zu setzen ist. Praktisches Problem: Keine einzige Fotosoftware setzt hier die Kennung. Daher werden die Zahlencodes für Zeichen immer im Zeichensatz des jeweiligen Computers gedeutet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwischen Windows-PCs und den Apple Macs und geht weiter über verschiedene Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwischen ISO-Standard, für das rein technische Abspeichern von Metadaten. Die IPTC-Felder aus IIM können auch mit dieser Technik verwendet werden. Da diese auf XML aufbaut, wird auch der Standardzeichensatz für XML, UTF-8, verwendet.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem technischen Format zu tun. Das Spezifikationsdokument für den IPTC-Core enthält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwischen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freute sich über den Erfolg“, dann wird von vielen Programmen dieser Wert in das entsprechende XMP-Feld kopiert – das geht gut, wenn es auf der gleichen Computerart (Windows/Mac) und im gleichen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansonsten kommt beim Wort „über“ Schrott heraus, weil die Codes für das „ü“ unterschiedlich sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie diese mit der Synchronisierung von Metadaten zwischen IIM und XMP umgehen.

Langer Rede kurzer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 keine Kennungen für den Zeichensatz gesetzt wurden, daher kann eine die Metadaten lesende (und allenfalls von IIM in XMP kopierende) Software nur vermuten, welcher Zeichensatz beim Schreiben verwendet wurde.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein anderes Problem: Offenbar wissen einige Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wissen sie auch nicht, aus welchem Zeichensatz die Zeichencodes stammen. Weiters ist es ein bekanntes Problem, dass für deutschsprachige Webseiten gerne noch der ISO-8859-1 Zeichensatz im HTML-Header für die ganze Seite angegeben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen ausgegeben werden, dann kann nur der Schrott erscheinen, den Sie zeigen – beginnt immer mit A mit einer Tilde (~) obendrauf.

Ich hoffe, das hilft beim Verstehen dieses sicherlich komplexen Problems. Wir bei IPTC arbeiten vor allem mit Adobe aber auch anderen Softwareherstellern zusammen, um solche missliebigen Erscheinungen zu unterbinden. Allerdings können auch wir – siehe „Urfehler“ oben – das Rad der Geschichte leider nicht mehr zurückdrehen.

Übrigens: Wir haben eine öffentliches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wenden kann: Hier bitte anmelden.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teilte mit, dass seit Adobe Photoshop CS5 das ominöse Feld 1:90 richtig gesetzt. Aber nur mit CS5 und CS 5.5 bearbeitete Fotos haben diesen Vorteil, alte Fotos mit CS 5 geöffnet können auch nicht den richtigen Zeichensatz erahnen.

5 Gedanken zu „Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC“

  1. Vielen Dank für das nochmalige Sensibilisierung zu dieser Problematik. Leider sind wir schon ein gebranntes Kind und mussten zur Kenntnis nehmen, dass unser Redaktionssystem Woodwing IPTC-Metadaten sehr eigen interpretiert obwohl XMP unterstützt wird. Deshalb wäre eine aktualisierte Version der Software Liste sehr hilfreich, evtl. eben auch mit der Ergänzung um Datenbanksoftware und Redaktionssysteme.
    Von einigen Fotografen habe ich gehört, dass deren Bildagenturen zum Teil fordern die IPTC Metadaten ohne Umlaute/Sonderzeichen auszufüllen, weil die Endabnehmer der Bilder (z.B. Verlagshäuser über Push-FTP) in ihrem Bild-Workflow auf Software setzen, die bei Umlauten/Sonderzeichen Schrott produziert. Bei der Flut der Bilder die Bildredakteure gerade bei Push-FTP/Bildfunk ausgesetzt sind, wird sich kein Bildredakteur die Mühe machen und den Buchstaben-Schrott in den IPTC Daten zu entschlüsseln, sondern eben ein Bild in die Produktion nehmen bei der sofort der Bildinhalt anhand der IPTC-Daten verstanden werden kann. Und hier ist natürlich der Lieferant der Bilder der Schuldige, dem dann eben evtl. ein Geschäft entgeht.
    Insgesamt ist das alles sicher ein äußerst komplexes Problem, bei dem Anwender dem Gutdünken von Software-Programmierern ausgesetzt sind, die für diese Problematik anscheinend noch nicht ausreichend sensibilisiert sind.

  2. IPTC ist schrott. ein uralt „standard“, der es nie geschafft hat sich durchzusetzen. und dann noch das überkomplizierte XMP mit XML(!!) drin. fotografen+verlage hätten den mist längst kippen können… aber denen fehlt die weitsicht — leider. 5 kerntags UTF8 kodiert, die JEDER versteht: datum, titel, autor-email, autor-name, lizenz alles andere ist alles andere…

  3. @Robbie: ist doch Quatsch. Standards wie IPTC sind elementar wichtig, auf XML-Basis umso mehr. Nur so ist wirklich Austauschbarkeit garantiert. Nur XML-basierte Standards bieten die Weitsichtigkeit, die du forderst. Die Zeichencodierung hat ja primär nichts mit dem Standard zu tun. Außerdem würden 5 Kerntags nicht ausreichen. Die Erweiterung IPTC Extension ist ja gerade von Bildagenturen gefordert worden, da mehr Felder benötigt werden. Im professionellen Bildbereich würden 5 Tags nie und nimmer ausreichen.
    All die Synchronisierungsprobleme, die oben beschrieben werden, lassen sich einfach beheben, wenn nicht mehr auf den alten IIM-Standard gesetzt wird. Also alte Programme, die XMP nicht mehr unterstützten, einfach rauskicken – zumindest wenn man in irgendeiner Form an Verkauf von Bildern oder Datenaustausch denkt.

  4. @andrea. das wichtigste an einem standard ist, dass sich alle dran halten. in zeiten von internet muss man für akzeptanz sorgen. d.h. mach es den leuten so einfach wie möglich. rechte maustaste, bildinfo, aha das ist von demunddem. 99% der user brauchen nicht mehr infos. zeichencodierung hat nichts mit dem standard zu tun? hallo? sauwichtige information wie man an dem im text beschriebenen kaos sehen kann. und xml einsatz (innerhalb eines binären headers!!!) ist immer ein warnzeichen dass hier ganz grosse (corporate) löcher gebohrt werden. kann man ja alles machen, aber wundert euch nicht, wenn das dann nicht korrekt genutzt wird und viele bildprogramme viele verschiedene interpretationen kursieren und bei „speichern unter“ ist dann eh alles wieder weg.

  5. @ robbie / „IPTC ist schrott. ein uralt “standard”, der es nie geschafft hat sich durchzusetzen.“

    Du kennst die Wirklichkeit in den Verlagen und Agenturen nicht, mein Lieber. IPTC hat sich stark durchgesetzt und viele Millionen (oder Milliarden?) Bilder sind damit beschriftet und verschlagwortet worden. War das umsonst?

    Tom

Kommentare sind geschlossen.