Schlagwort-Archive: XML

Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr praktisch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müssen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hinzufügen. Am einfachsten geht das über IPTC-Daten, welches ein standarisiertes Datenprotokoll ist. Oder besser gesagt, sein sollte, denn in der Praxis gibt es beim Austausch dieser Informationen zwischen verschiedenen Programmen immer wieder Fallstricke. Das habe ich beispielsweise hier beschrieben. Dort in den Kommentaren versteckt hat Michael Steidl, seines Zeichens Managing Director beim IPTC (ja, genau der Verein, der für die gleichnamigen Metadaten verantwortlich ist) eine aufschlussreiche Erklärung für das Problem geliefert. Da sie dort etwas versteckt ist, möchte ich seinen Ausführungen noch mal einen eigenen Artikel widmen.

Achtung, es wird technisch. Aber wer sich ständig mit Metadaten herumschlagen muss, begreift danach sicher , warum es so viele Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder können in zwei technischen Varianten abgespeichert werden:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard definiert, dass Zeichen in unterschiedlichen Zeichensätzen verwendet werden können, dazu allerdings eine Kennung im Feld 1:90 (siehe Seite 20 hier) zu setzen ist. Praktisches Problem: Keine einzige Fotosoftware setzt hier die Kennung. Daher werden die Zahlencodes für Zeichen immer im Zeichensatz des jeweiligen Computers gedeutet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwischen Windows-PCs und den Apple Macs und geht weiter über verschiedene Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwischen ISO-Standard, für das rein technische Abspeichern von Metadaten. Die IPTC-Felder aus IIM können auch mit dieser Technik verwendet werden. Da diese auf XML aufbaut, wird auch der Standardzeichensatz für XML, UTF-8, verwendet.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem technischen Format zu tun. Das Spezifikationsdokument für den IPTC-Core enthält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwischen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freute sich über den Erfolg“, dann wird von vielen Programmen dieser Wert in das entsprechende XMP-Feld kopiert – das geht gut, wenn es auf der gleichen Computerart (Windows/Mac) und im gleichen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansonsten kommt beim Wort „über“ Schrott heraus, weil die Codes für das „ü“ unterschiedlich sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie diese mit der Synchronisierung von Metadaten zwischen IIM und XMP umgehen.

Langer Rede kurzer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 keine Kennungen für den Zeichensatz gesetzt wurden, daher kann eine die Metadaten lesende (und allenfalls von IIM in XMP kopierende) Software nur vermuten, welcher Zeichensatz beim Schreiben verwendet wurde.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein anderes Problem: Offenbar wissen einige Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wissen sie auch nicht, aus welchem Zeichensatz die Zeichencodes stammen. Weiters ist es ein bekanntes Problem, dass für deutschsprachige Webseiten gerne noch der ISO-8859-1 Zeichensatz im HTML-Header für die ganze Seite angegeben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen ausgegeben werden, dann kann nur der Schrott erscheinen, den Sie zeigen – beginnt immer mit A mit einer Tilde (~) obendrauf.

Ich hoffe, das hilft beim Verstehen dieses sicherlich komplexen Problems. Wir bei IPTC arbeiten vor allem mit Adobe aber auch anderen Softwareherstellern zusammen, um solche missliebigen Erscheinungen zu unterbinden. Allerdings können auch wir – siehe „Urfehler“ oben – das Rad der Geschichte leider nicht mehr zurückdrehen.

Übrigens: Wir haben eine öffentliches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wenden kann: Hier bitte anmelden.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teilte mit, dass seit Adobe Photoshop CS5 das ominöse Feld 1:90 richtig gesetzt. Aber nur mit CS5 und CS 5.5 bearbeitete Fotos haben diesen Vorteil, alte Fotos mit CS 5 geöffnet können auch nicht den richtigen Zeichensatz erahnen.

Rätsel um verschwundene IPTC-Daten in Photoshop und Bridge gelöst?

Im Juli hatte ich einen Artikel veröffentlicht, in dem ich nach den Ursachen für fehlende IPTC-Daten in Fotos gesucht habe, wenn diese auf eine bestimmte Art in Adobe Photoshop oder Bridge bearbeitet werden. Die Metadaten können mit Photoshop selbst meist ausgelesen werden und ich merke diesen Fehler erst, wenn ich meine Fotos zu Bildagenturen hochlade und dort keine oder nicht alle IPTC-Daten angezeigt werden. Auf meinem Rechner kann ich es überprüfen, indem ich schaue, ob IrfanView die IPTC-Daten auslesen kann.

Mittlerweile weiß ich, wie das Problem gelöst werden kann. Der Leser Peter hat in einem Kommentar unter dem Artikel eine mögliche Ursache genannt und in der STOCKPHOTO-Yahoo Group bin ich auf eine weitere gestoßen. Deswegen hier vier Gründe, die unter Umständen zu fehlenden IPTC-Daten führen.

  1. Die simple Variante: Wer seine Bilder mit der Funktion „Für Web und Geräte speichern“ sichert, verliert die Metadaten. Das lässt sich leicht beheben, indem auch Bilder für das Internet mit der Funktion „Speichern unter…“ gesichert werden, nur in geringerer JPG-Qualität.
  2. Einige ältere Versionen von Adobe Bridge können unter Umständen die Metadaten nur als XMP abspeichern statt als „legacy“ IPTC. Wenn andere Software dann nur IPTC, aber nicht XML-Metadaten auslesen kann, sieht es schlecht aus. Das ist ein Ansatz aus dem genannten Forum und er klingt verwandt mit dem dort ebenfalls als nächstes beschriebenen.
  3. Jetzt kommt der Punkt, der mein Problem am wahrscheinlichsten beschreibt: Es scheint, dass manche Software die Metadaten nur auslesen kann, wenn sie „an einem Stück“ geschrieben wurden oder nur, wenn sie zusammen beim Speichern geschrieben wurden. Wer ein gespeichertes Bild z.B. in Bridge bearbeitet, muss es ja nicht zwangsweise neu speichern, nachdem er neue Metadaten eingetragen hat. Das wäre dann etwas, was einige Programme nicht richtig interpretieren können. Die Lösung hier heißt: Ein weiterer Speicherschritt muss her, am besten nach der Verschlagwortung eines Ordners als gespeicherte Aktion. Beim neuen Speichern werden auch die Metadaten „synchronisiert“ und die Bildagenturen können die Daten auslesen. So mache ich das jetzt und seitdem habe ich keine Probleme.
  4. Peter hat vermutlich das Gleiche Problem auf eine ähnliche Weise beschrieben: „Es gibt wohl zwei IPTC-Standards und die meisten Programme arbeiten mit dem Standard-1. Photoshop (hier: CS3 für Mac, aber auch Elements 6.0 für Windows) übernimmt vorhandene IPTC-Daten nach Standard-1 meist problemlos auch in den Standard-2. Damit kommen die Agenturen meist auch klar. Problematisch wird es, wenn man zwischen den Standards wechselt, also mit einem Programm nach Standard-1 nachbessern will, aber schon Standard-2 im Bild steht. Manche Agenturen lesen dann trotzdem Standard-2 aus, andere wieder nach Standard-1. Und wenn man – wie Du – gerade die andere Variante zum Verschlagworten hatte, kommt bei der Agentur womöglich nichts mehr an oder es sind veraltete Daten, wenn im falschen Standard nachgebessert wurde. Ich hab das Problem gerade bei Veer.“

Etwas frustrierend war, dass auch ein wochenlanger Mail-Wechsel mit dem Adobe-Kundendienstnichts nicht zu diesen Ergebnissen geführt hat, da der Support-Mitarbeiter das Problem weder nachvollziehen konnte, weil er keine Fremdprogramme benutzen wollte. Ich zitiere:

„Guten Tag,

anbei eine Beispieldatei, bei der ich die Metadaten mit Bridge und Photoshop auslesen kann, aber alle anderen Programme (z.B. IrfanView) und auch Bildagenturen die IPTC-Daten nicht lesen können.

Sehr geehrter Herr Kneschke, vielen Dank für Ihre Anfrage.

Leider kann ich das Problem nicht nachstellen da mir die von Ihnen genannten Programme dazu fehlen. So wie bei Ihnen werden mir in den Adobe Programmen die IPTC-Daten vollständig angezeigt. Das heisst, ein Bildfehler kann nicht vorliegen.“

Leider scheint der Mitarbeiter insofern recht zu haben, dass das Problem nicht auf der Seite von Adobe liegt, denn die definierten Standards für Metadaten lassen ein nachträgliches Schreiben von Metadaten zu. Hier eine Übersicht über die festgelegten Definitionen für ITPC- und XML-Metadaten. Trotzdem wäre es doch für Adobe ein Leichtes, in den Voreinstellungen eine Funktion anzubieten, die automatisch ein Bild komplett in identischer Qualität speichert, wenn ein Teil der Metadaten geändert wird. Die Funktion wäre mächtig, da beim Speichern als JPG Verluste auftreten, aber wer wie ich in der beste Qualitätsstufe speichert, kann freiwillig 1-2 zusätzliche Speicherungen verkraften.

Kurz zusammengefasst: Wer Probleme mit verschwundenen IPTC-Daten hat, die sich nicht auf Punkt 1 zurückführen lassen, sollte die betreffenden Bilder noch mal neu abspeichern.

Hat Euch das geholfen? Oder ist jetzt mehr unklar als vorher?