Schlagwort-Archive: XMP

Der Ursprung der Metadaten-​Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­tisch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-​Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, genau der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­lich ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel widmen.

Achtung, es wird tech­nisch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift danach sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-​Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert werden:

  • dem IIM-​Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-​PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8‑Bit-​Codes (ISO 8859-… ).
  • dem XMP-​Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-​Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-​Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF‑8, ver­wen­det.

Hinweis: Die Namen IPTC-​Core und IPTC-​Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-​Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-​Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-​Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-​Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/​Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­lich sind.

Auf der IPTC-​Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umgehen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-​Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wurde.

Bei den Beispielen auf Ihrer Blog-​Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-​Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-​Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-​Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF‑8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) obendrauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­lich kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurückdrehen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-​Forum, an das sich jeder bei Problemen mit IPTC-​Foto-​Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erahnen.