Schlagwort-Archive: XMP

Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­ti­sch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, gen­au der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­li­ch ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel wid­men.

Achtung, es wird tech­ni­sch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift dana­ch sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert wer­den:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF-8, ver­wen­det.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­li­ch sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umge­hen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wur­de.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) oben­drauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­li­ch kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurück­dre­hen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erah­nen.