Schlagwort-Archive: IIM

Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr praktisch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müssen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hinzufügen. Am einfachsten geht das über IPTC-Daten, welches ein standarisiertes Datenprotokoll ist. Oder besser gesagt, sein sollte, denn in der Praxis gibt es beim Austausch dieser Informationen zwischen verschiedenen Programmen immer wieder Fallstricke. Das habe ich beispielsweise hier beschrieben. Dort in den Kommentaren versteckt hat Michael Steidl, seines Zeichens Managing Director beim IPTC (ja, genau der Verein, der für die gleichnamigen Metadaten verantwortlich ist) eine aufschlussreiche Erklärung für das Problem geliefert. Da sie dort etwas versteckt ist, möchte ich seinen Ausführungen noch mal einen eigenen Artikel widmen.

Achtung, es wird technisch. Aber wer sich ständig mit Metadaten herumschlagen muss, begreift danach sicher , warum es so viele Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder können in zwei technischen Varianten abgespeichert werden:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard definiert, dass Zeichen in unterschiedlichen Zeichensätzen verwendet werden können, dazu allerdings eine Kennung im Feld 1:90 (siehe Seite 20 hier) zu setzen ist. Praktisches Problem: Keine einzige Fotosoftware setzt hier die Kennung. Daher werden die Zahlencodes für Zeichen immer im Zeichensatz des jeweiligen Computers gedeutet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwischen Windows-PCs und den Apple Macs und geht weiter über verschiedene Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwischen ISO-Standard, für das rein technische Abspeichern von Metadaten. Die IPTC-Felder aus IIM können auch mit dieser Technik verwendet werden. Da diese auf XML aufbaut, wird auch der Standardzeichensatz für XML, UTF-8, verwendet.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem technischen Format zu tun. Das Spezifikationsdokument für den IPTC-Core enthält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwischen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freute sich über den Erfolg“, dann wird von vielen Programmen dieser Wert in das entsprechende XMP-Feld kopiert – das geht gut, wenn es auf der gleichen Computerart (Windows/Mac) und im gleichen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansonsten kommt beim Wort „über“ Schrott heraus, weil die Codes für das „ü“ unterschiedlich sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie diese mit der Synchronisierung von Metadaten zwischen IIM und XMP umgehen.

Langer Rede kurzer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 keine Kennungen für den Zeichensatz gesetzt wurden, daher kann eine die Metadaten lesende (und allenfalls von IIM in XMP kopierende) Software nur vermuten, welcher Zeichensatz beim Schreiben verwendet wurde.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein anderes Problem: Offenbar wissen einige Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wissen sie auch nicht, aus welchem Zeichensatz die Zeichencodes stammen. Weiters ist es ein bekanntes Problem, dass für deutschsprachige Webseiten gerne noch der ISO-8859-1 Zeichensatz im HTML-Header für die ganze Seite angegeben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen ausgegeben werden, dann kann nur der Schrott erscheinen, den Sie zeigen – beginnt immer mit A mit einer Tilde (~) obendrauf.

Ich hoffe, das hilft beim Verstehen dieses sicherlich komplexen Problems. Wir bei IPTC arbeiten vor allem mit Adobe aber auch anderen Softwareherstellern zusammen, um solche missliebigen Erscheinungen zu unterbinden. Allerdings können auch wir – siehe „Urfehler“ oben – das Rad der Geschichte leider nicht mehr zurückdrehen.

Übrigens: Wir haben eine öffentliches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wenden kann: Hier bitte anmelden.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teilte mit, dass seit Adobe Photoshop CS5 das ominöse Feld 1:90 richtig gesetzt. Aber nur mit CS5 und CS 5.5 bearbeitete Fotos haben diesen Vorteil, alte Fotos mit CS 5 geöffnet können auch nicht den richtigen Zeichensatz erahnen.