Schlagwort-Archive: XML

Der Ursprung der Metadaten-Probleme bei Photoshop, XML und IPTC

Metadaten sind sehr prak­ti­sch, aber der Umgang mit ihnen ist nicht immer leicht.

Ständig müs­sen Fotografen Bildtitel, Suchbegriffe und ihre Urheberrechtsinformationen zu ihren Bildern hin­zu­fü­gen. Am ein­fachs­ten geht das über IPTC-Daten, wel­ches ein stan­da­ri­sier­tes Datenprotokoll ist. Oder bes­ser gesagt, sein soll­te, denn in der Praxis gibt es beim Austausch die­ser Informationen zwi­schen ver­schie­de­nen Programmen immer wie­der Fallstricke. Das habe ich bei­spiels­wei­se hier beschrie­ben. Dort in den Kommentaren ver­steckt hat Michael Steidl, sei­nes Zeichens Managing Director beim IPTC (ja, gen­au der Verein, der für die gleich­na­mi­gen Metadaten ver­ant­wort­li­ch ist) eine auf­schluss­rei­che Erklärung für das Problem gelie­fert. Da sie dort etwas ver­steckt ist, möch­te ich sei­nen Ausführungen noch mal einen eige­nen Artikel wid­men.

Achtung, es wird tech­ni­sch. Aber wer sich stän­dig mit Metadaten her­um­schla­gen muss, begreift dana­ch sicher , war­um es so vie­le Probleme geben kann.

Herr Steidl schrieb:

IPTC Metadaten-Felder kön­nen in zwei tech­ni­schen Varianten abge­spei­chert wer­den:

  • dem IIM-Header: Das ist ein IPTC Standard aus dem Jahr 1991, von Adobe mit Photoshop ca. 1994 auf den Markt gebracht. Dieser Standard defi­niert, dass Zeichen in unter­schied­li­chen Zeichensätzen ver­wen­det wer­den kön­nen, dazu aller­dings eine Kennung im Feld 1:90 (sie­he Seite 20 hier) zu set­zen ist. Praktisches Problem: Keine ein­zi­ge Fotosoftware setzt hier die Kennung. Daher wer­den die Zahlencodes für Zeichen immer im Zeichensatz des jewei­li­gen Computers gedeu­tet. Das beginnt beim Unterschied der Codes für Sonderzeichen zwi­schen Windows-PCs und den Apple Macs und geht wei­ter über ver­schie­de­ne Sprachvarianten der 8-Bit-Codes (ISO 8859-… ).
  • dem XMP-Header: Das ist eine Adobe Entwicklung, inzwi­schen ISO-Standard, für das rein tech­ni­sche Abspeichern von Metadaten. Die IPTC-Felder aus IIM kön­nen auch mit die­ser Technik ver­wen­det wer­den. Da die­se auf XML auf­baut, wird auch der Standardzeichensatz für XML, UTF-8, ver­wen­det.

Hinweis: Die Namen IPTC-Core und IPTC-Extension haben nichts mit dem tech­ni­schen Format zu tun. Das Spezifikationsdokument für den IPTC-Core ent­hält für jedes Feld die Norm der Speicherung in IIM und in XMP!

Ein Problem ist nun die Synchronisierung der Metadaten-Werte zwi­schen IIM und XMP: Wenn in einer Caption im IIM-Header steht „Kanzlerin Merkel freu­te sich über den Erfolg“, dann wird von vie­len Programmen die­ser Wert in das ent­spre­chen­de XMP-Feld kopiert – das geht gut, wenn es auf der glei­chen Computerart (Windows/Mac) und im glei­chen Zeichensatz erfolgt, wie es bei der Eingabe des Wertes war, ansons­ten kommt beim Wort „über“ Schrott her­aus, weil die Codes für das „ü“ unter­schied­li­ch sind.

Auf der IPTC-Website haben wir eine Liste von Bildbearbeitungsprogrammen und wie die­se mit der Synchronisierung von Metadaten zwi­schen IIM und XMP umge­hen.

Langer Rede kur­zer Sinn: Der Urfehler seit dem Jahr 1994 war und ist, dass im IIM-Header im Feld 1:90 kei­ne Kennungen für den Zeichensatz gesetzt wur­den, daher kann eine die Metadaten lesen­de (und allen­falls von IIM in XMP kopie­ren­de) Software nur ver­mu­ten, wel­cher Zeichensatz beim Schreiben ver­wen­det wur­de.

Bei den Beispielen auf Ihrer Blog-Seite geht es aber auch um ein ande­res Problem: Offenbar wis­sen eini­ge Foto-Datenbanken nicht, woher sie die Werte lesen (aus dem IIM- oder dem XMP-Header) und daher wis­sen sie auch nicht, aus wel­chem Zeichensatz die Zeichencodes stam­men. Weiters ist es ein bekann­tes Problem, dass für deutsch­spra­chi­ge Webseiten ger­ne noch der ISO-8859–1 Zeichensatz im HTML-Header für die gan­ze Seite ange­ge­ben wird. Wenn nun auf so einer Seite die Metadatenwerte in UTF-8 Zeichen aus­ge­ge­ben wer­den, dann kann nur der Schrott erschei­nen, den Sie zei­gen – beginnt immer mit A mit einer Tilde (~) oben­drauf.

Ich hof­fe, das hilft beim Verstehen die­ses sicher­li­ch kom­ple­xen Problems. Wir bei IPTC arbei­ten vor allem mit Adobe aber auch ande­ren Softwareherstellern zusam­men, um sol­che miss­lie­bi­gen Erscheinungen zu unter­bin­den. Allerdings kön­nen auch wir – sie­he „Urfehler“ oben – das Rad der Geschichte lei­der nicht mehr zurück­dre­hen.

Übrigens: Wir haben eine öffent­li­ches Yahoo-Forum, an das sich jeder bei Problemen mit IPTC-Foto-Metadaten wen­den kann: Hier bit­te anmel­den.

Viele Grüße,
Michael Steidl

Update 10.04.2012: Adobe teil­te mit, dass seit Adobe Photoshop CS5 das omi­nö­se Feld 1:90 rich­tig gesetzt. Aber nur mit CS5 und CS 5.5 bear­bei­te­te Fotos haben die­sen Vorteil, alte Fotos mit CS 5 geöff­net kön­nen auch nicht den rich­ti­gen Zeichensatz erah­nen.

Rätsel um verschwundene IPTC-Daten in Photoshop und Bridge gelöst?

Im Juli hat­te ich einen Artikel ver­öf­fent­licht, in dem ich nach den Ursachen für feh­len­de IPTC-Daten in Fotos gesucht habe, wenn die­se auf eine bestimm­te Art in Adobe Photoshop oder Bridge bear­bei­tet wer­den. Die Metadaten kön­nen mit Photoshop selbst meist aus­ge­le­sen wer­den und ich mer­ke die­sen Fehler erst, wenn ich mei­ne Fotos zu Bildagenturen hoch­la­de und dort kei­ne oder nicht alle IPTC-Daten ange­zeigt wer­den. Auf mei­nem Rechner kann ich es über­prü­fen, indem ich schaue, ob IrfanView die IPTC-Daten aus­le­sen kann.

Mittlerweile weiß ich, wie das Problem gelöst wer­den kann. Der Leser Peter hat in einem Kommentar unter dem Artikel eine mög­li­che Ursache genannt und in der STOCKPHOTO-Yahoo Group bin ich auf eine wei­te­re gesto­ßen. Deswegen hier vier Gründe, die unter Umständen zu feh­len­den IPTC-Daten füh­ren.

  1. Die sim­ple Variante: Wer sei­ne Bilder mit der Funktion „Für Web und Geräte spei­chern“ sichert, ver­liert die Metadaten. Das lässt sich leicht behe­ben, indem auch Bilder für das Internet mit der Funktion „Speichern unter…“ gesi­chert wer­den, nur in gerin­ge­rer JPG-Qualität.
  2. Einige älte­re Versionen von Adobe Bridge kön­nen unter Umständen die Metadaten nur als XMP abspei­chern statt als „lega­cy“ IPTC. Wenn ande­re Software dann nur IPTC, aber nicht XML-Metadaten aus­le­sen kann, sieht es schlecht aus. Das ist ein Ansatz aus dem genann­ten Forum und er klingt ver­wandt mit dem dort eben­falls als nächs­tes beschrie­be­nen.
  3. Jetzt kommt der Punkt, der mein Problem am wahr­schein­lichs­ten beschreibt: Es scheint, dass man­che Software die Metadaten nur aus­le­sen kann, wenn sie „an einem Stück“ geschrie­ben wur­den oder nur, wenn sie zusam­men beim Speichern geschrie­ben wur­den. Wer ein gespei­cher­tes Bild z.B. in Bridge bear­bei­tet, muss es ja nicht zwangs­wei­se neu spei­chern, nach­dem er neue Metadaten ein­ge­tra­gen hat. Das wäre dann etwas, was eini­ge Programme nicht rich­tig inter­pre­tie­ren kön­nen. Die Lösung hier heißt: Ein wei­te­rer Speicherschritt muss her, am bes­ten nach der Verschlagwortung eines Ordners als gespei­cher­te Aktion. Beim neu­en Speichern wer­den auch die Metadaten „syn­chro­ni­siert“ und die Bildagenturen kön­nen die Daten aus­le­sen. So mache ich das jetzt und seit­dem habe ich kei­ne Probleme.
  4. Peter hat ver­mut­li­ch das Gleiche Problem auf eine ähn­li­che Weise beschrie­ben: „Es gibt wohl zwei IPTC-Standards und die meis­ten Programme arbei­ten mit dem Standard-1. Photoshop (hier: CS3 für Mac, aber auch Elements 6.0 für Windows) über­nimmt vor­han­de­ne IPTC-Daten nach Standard-1 meist pro­blem­los auch in den Standard-2. Damit kom­men die Agenturen meist auch klar. Problematisch wird es, wenn man zwi­schen den Standards wech­selt, also mit einem Programm nach Standard-1 nach­bes­sern will, aber schon Standard-2 im Bild steht. Manche Agenturen lesen dann trotz­dem Standard-2 aus, ande­re wie­der nach Standard-1. Und wenn man – wie Du – gera­de die ande­re Variante zum Verschlagworten hat­te, kommt bei der Agentur womög­li­ch nichts mehr an oder es sind ver­al­te­te Daten, wenn im fal­schen Standard nach­ge­bes­sert wur­de. Ich hab das Problem gera­de bei Veer.“

Etwas frus­trie­rend war, dass auch ein wochen­lan­ger Mail-Wechsel mit dem Adobe-Kundendienstnichts nicht zu die­sen Ergebnissen geführt hat, da der Support-Mitarbeiter das Problem weder nach­voll­zie­hen konn­te, weil er kei­ne Fremdprogramme benut­zen woll­te. Ich zitie­re:

Guten Tag,

anbei eine Beispieldatei, bei der ich die Metadaten mit Bridge und Photoshop aus­le­sen kann, aber alle ande­ren Programme (z.B. IrfanView) und auch Bildagenturen die IPTC-Daten nicht lesen kön­nen.

Sehr geehr­ter Herr Kneschke, vie­len Dank für Ihre Anfrage.

Leider kann ich das Problem nicht nach­stel­len da mir die von Ihnen genann­ten Programme dazu feh­len. So wie bei Ihnen wer­den mir in den Adobe Programmen die IPTC-Daten voll­stän­dig ange­zeigt. Das heisst, ein Bildfehler kann nicht vor­lie­gen.“

Leider scheint der Mitarbeiter inso­fern recht zu haben, dass das Problem nicht auf der Seite von Adobe liegt, denn die defi­nier­ten Standards für Metadaten las­sen ein nach­träg­li­ches Schreiben von Metadaten zu. Hier eine Übersicht über die fest­ge­leg­ten Definitionen für ITPC- und XML-Metadaten. Trotzdem wäre es doch für Adobe ein Leichtes, in den Voreinstellungen eine Funktion anzu­bie­ten, die auto­ma­ti­sch ein Bild kom­plett in iden­ti­scher Qualität spei­chert, wenn ein Teil der Metadaten geän­dert wird. Die Funktion wäre mäch­tig, da beim Speichern als JPG Verluste auf­tre­ten, aber wer wie ich in der bes­te Qualitätsstufe spei­chert, kann frei­wil­lig 1–2 zusätz­li­che Speicherungen ver­kraf­ten.

Kurz zusam­men­ge­fasst: Wer Probleme mit ver­schwun­de­nen IPTC-Daten hat, die sich nicht auf Punkt 1 zurück­füh­ren las­sen, soll­te die betref­fen­den Bilder noch mal neu abspei­chern.

Hat Euch das gehol­fen? Oder ist jetzt mehr unklar als vor­her?