Probleme mit Sonderzeichen in IPTC-​Feldern beim Bildagentur-Import

Mit jeder neu­en Version von Adobe Photoshop gibt es nicht nur neue Funktionen, son­dern auch neue Bugs und neu­en Ärger. Manchmal ent­steht der Ärger nicht mal durch die Bugs, son­dern die kor­rekt arbei­ten­den Funktionen.

Was ist das Problem?

Mit Photoshop CS5 hat Adobe die Behandlung von IPTC-​Daten geän­dert. Das betrifft auch Adobe Bridge CS5 und viel­leicht Adobe Lightroom 3)

Diese IPTC-​Informationen (IPTC CORE, IPTC-​IIM, Legacy) wer­den bei CS5 jetzt im UTF‑8 Zeichensatz statt als 8Bit-​ISO-Zeichensatz gespei­chert. Im Grunde kein Problem. Schwierig wird es nur, wenn Sonderzeichen wie im Deutschen vor allem Umlaute wie ä,ö, ü oder das ß hin­zu­kom­men. Das Problem ist, dass Sonderzeichen in jedem Zeichensatz an einer ande­ren Stelle abge­spei­chert werden.

Wenn ein Programm oder eine Datenbank die Titel, Bildbeschreibungen oder Suchbegriffe aus den IPTC-​Feldern aus­liest, aber den benutz­ten Zeichensatz nicht abfragt, erkennt oder nut­zen kann, führt das zu krpy­ti­schen Zeichen. In der Praxis sieht das dann zum Beispiel so aus:

Häßlich, nicht wahr? Außerdem führt das dazu, dass Bildkäufer die eige­nen Fotos nicht fin­den, weil die­se nie die kryp­ti­schen Zeichen ein­ge­ben werden.

Wer hat Schuld?

Wer hat Schuld am Problem? Adobe, weil es frü­her funk­tio­niert hat­te? Oder die Bildagenturen, weil sie die Daten nicht rich­tig importieren?

Technisch gese­hen hat Adobe kei­ne Schuld. Laut IPTC-​Standard dürf­ten für den alten Legacy IPTC-​IIM-​Standard nur ASCII-​Zeichen ver­wen­det wer­den, da sind nun mal kei­ne Sonderzeichen dabei. Laut dem neu­en XMP-​Standard, in dem Adobe die Metadaten spei­chert, dür­fen Sonderzeichen aus­drück­lich benutzt wer­den und bei den meis­ten Bildagenturen klappt der Import auch.

Probleme machen vor allem eini­ge deut­sche Bildagenturen. Bei mir tritt das Problem bei die­sen Agenturen auf:

  • Bildmaschine
  • Bildunion
  • ImagePoint
  • Digitalstock

Das bedeu­tet oft, dass deren Agentursoftware nicht die neu­en XMP-​Metadaten aus­liest, son­dern die eben­falls immer auto­ma­tisch mit­ge­lie­fer­ten alten IPTC-​Core-​Metadaten.

Ich habe bei jeder Agentur nach­ge­fragt und fol­gen­de Antworten bekommen:

  • Bildmaschine kennt das Problem und ver­sucht, mit der Einführung des neu­en Fotografen-​Backends auch den Metadaten-​Import zu aktua­li­sie­ren. Die Umstellung auf den neu­en Fotografen-​Bereich ist aktu­ell für Mai 2011 geplant.
  • Bildunion ant­wor­te­te kurz: „Wir ken­nen das Problem und wer­den das schnellst­mög­lich korrigieren.“
  • Bei ImagePoint scheint zwar der Import die fal­schen Sonderzeichen anzu­zei­gen (sie­he Screenshot oben), aber beim Durchlaufen des inter­nen Prüfsystems wer­den die Daten neu berech­net und die Umlaute danach wie­der kor­rekt ange­zeigt. Wir haben das mit eini­gen mei­ner Fotos getes­tet und es funktioniert.
  • Digitalstock hat das Problem zur Kenntnis genom­men, ist aber mehr damit beschäf­tigt rei­hen­wei­se Bilder abzu­leh­nen als sich um das Problem zu küm­mern. Scherz bei­sei­te: Digitalstock ist infor­miert und will sich dar­um küm­mern. Viel Hoffnung habe ich jedoch nicht, dass es schnell gesche­hen wird.

Was ist die Lösung?

Naheliegend wäre, die Verschlagwortung ein­fach mit einem ande­ren Programm zu machen. Das ist aber kei­ne Lösung, weil Photoshop bei einer nach­träg­li­chen Bearbeitung einer Datei wie­der alle Metadaten im UTF8-​Zeichenformat spei­chern wür­de. Im Idealfall wür­den alle betrof­fe­nen Bildagenturen den neu­en XMP-​Standard benut­zen. Der kann übri­gens theo­re­tisch sogar die Model- und Property-​Releases auto­ma­tisch zuord­nen. Den obi­gen Antworten nach soll­te das bald gesche­hen sein. Bis dahin hilft nur ein Umweg.

Was ist die Notlösung?

Das klei­ne kos­ten­lo­se Freeware-​Programm ExifTool erlaubt zahl­rei­che Eingriffe in IPTC-​Daten. Zum Beispiel kann damit vor­ge­gau­kelt wer­den, ein Foto wäre mit einer Hasselblad gemacht wor­den, obwohl es nur eine Canon war und ähn­li­ches. In unse­rem Fall brau­chen wir aber das Feature, was uns erlaubt, Zeichensätze umzu­wan­deln, genau­er beschrie­ben in FAQ 10.

Bei mir sieht das kon­kret so aus: Ich habe mir das Programm exiftool.exe run­ter­ge­la­den. Da es ein Kommandozeilen-Programm ist, kann ich eine Batch-​Datei anlegen.Wie das geht? Ihr erstellt eine .txt-​Datei, die genau­so wie das Hauptprogramm heißt (also exiftool.txt) und schreibt darin:

exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*
pause

Danach spei­chert ihr die Textdatei und benennt sie in „exiftool.bat“ um. Die bat-​Datei und exe-​Datei müs­sen im glei­chen Ordner lie­gen. Wenn ihr jetzt eure JPG-​Dateien im glei­chen Ordner habt, müsst ihr sie nur auf die bat-​Datei zie­hen und das Programm wan­delt den Zeichensatz zurück in das alte ISO-​Format, mit dem alle Agenturen klar­kom­men. Wer etwas fit­ter mit Kommandozeilen ist, kann sich das Ganze auch anders oder beque­mer pro­gram­mie­ren. Den obi­gen „Pause“-Befahl habe ich nur ein­ge­fügt, damit ihr eine Bestätigung seht, dass alles kor­rekt kon­ver­tiert wur­de. Wer Ahnung hat, kann das weg­las­sen. Exiftool erstellt übri­gens eine Sicherheitskopie von jeder umge­wan­del­ten Datei, ihr braucht also kei­ne Angst zu haben, etwas unwi­der­ruf­lich falsch zu machen.

Wie sieht es bei euch aus? Welche Erfahrungen habt ihr mit Umlauten gemacht? Welche Agenturen berei­ten Probleme? Welche Lösungen habt ihr für euch gefunden?

(Danke an ManfredG für sei­ne Hinweis in die­sem Thread)

21 Gedanken zu „Probleme mit Sonderzeichen in IPTC-​Feldern beim Bildagentur-Import“

  1. @Stefan: Früher ja, heu­te laut XMP-​Standard eben nicht mehr. Und es gibt genug Bildagenturen, die „ue“ nicht in „ü“ umwan­deln etc und die meis­ten deut­schen Bildkäufer suchen nun mal mit Umlauten.

  2. Hallo Robert!

    Ja das ken­ne ich. Bei Fotocent habe ich auch die­se Probleme seit­dem ich CS5 ver­wen­de. Danke für den Tipp. Ich habe bis­her die­se Zeichen umständ­lich aus­bes­sern müssen.

    Schöne Grüße
    Daniel

  3. Hallo,
    stimmt… wir hat­ten eini­ge Probleme mit der kor­rek­ten Übernahme der Daten. Inzwischen soll­te es aber funk­tio­nie­ren. Sollten den­noch Probleme auf­tau­chen, wäre eine kur­ze Info an uns hilf­reich. Ausserdem wer­den von uns die Begriffe kon­trol­liert, also auch feh­ler­haft Zeichen von uns korrigiert.
    Aber dan­ke an Daniel, dass Du Dir die Mühe gemacht hast und Deine Begriffe schon vor­her kor­ri­giert hast, lei­der machen das die wenigs­ten Fotografen … übri­gens auch was Rechtschreibfehler angeht.
    Viele Grüße,
    Olaf (von fotocent.de)

  4. Wie sieht es bei euch aus? Welche Erfahrungen habt ihr mit Umlauten gemacht?“

    Umlaute und ande­re Sonderzeichen kom­men mir nicht in IPTC-​Header. (Übrigens auch nicht in Betreff-​Zeilen von E‑Mails, Dateinamen usw.)

    Einfacher ASCII-​Zeichensatz – das ver­steht jede Software und jede Datenbank richtig.

    Dazu Beschlagwortung und Bildbeschriftung deutsch und englisch.

  5. Da habe ich gleich eine Frage zu den Exiftools. Ich woll­te schon ein­mal mit Hilfe eines Scripts die Stichwörter durch­su­chen und Wortteile aus­tau­schen. Daran bin ich kläg­lich geschei­tert. Jetzt möch­te ich gleich fra­gen: Hat jemand eine Idee wie ich das ange­hen könnte?

    Ich habe eine Serie ver­schlag­wor­tet zB. d:Tisch, e:Desk, d:Schreibtisch usw.

    Ich wür­de ger­ne per Script die Sprachkennungen d: und e: durch nichts ersetzten.

    Geht das?

  6. Sind eure Fotos bei der Bildmaschine seit dem Relaunch auch alle auf redak­tio­nell gesetzt !?

    Wenn ja, dann müsst ihr jedes ein­zel­ne Foto neu bearbeiten !

    Die Massenbearbeitung geht nicht !

    Oder habt ihr da schon Lösungen gefun­den dafür ?

  7. @Chris: Das hat­te ich schon beim Beta-​Test bemän­gelt, aber anschei­nend wur­de noch kei­ne Batch-​Funktion o.ä. implementiert.

  8. Inzwischen wur­de die­ses Problem in der neu­en Bildmaschine beho­ben. Generell gilt für Suchen in der Bildmaschine, dass Umlaute, egal ob als „ü“ oder „ue“ geschrie­ben, glei­cher­ma­ßen gefun­den wer­den. Wir wün­schen wei­ter­hin erfolg­rei­ches hoch­la­den und verkaufen!

    Das Bildmaschine-​Team

  9. Hallo Robert,

    das Problem mit den Umlauten und der Recodierung mit­tels exif­tool ist lei­der sehr kom­plex. Laut Aussagen von Phil Harvey, dem Autor von exif­tool wird der coded­cha­rac­ter­set nur von weni­gen Programmen beim Speichern kor­rekt gesetzt und so weit ich her­aus­ge­fun­den habe, auch nur der codedcharacterset=UTF8 bei eini­gen Adobe-​Programmen und bei PhotoMechanic.

    Dein Code in der Batch-​Datei greift daher nur, wenn in dem Bild der codedcharacterset=UTF8 auch tat­säch­lich gefun­den wird.

    exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*

    exif­tool ist aber so per Default ein­ge­stellt, das ohne die­ses Flag von LATIN1 aus­ge­gan­gen wird. D.h., dass Bilder mit UTF8-​Kodierung ohne die­ses Flag NICHT kon­ver­tiert wer­den, da exif­tool davon aus­geht, das es kei­nen Sinn macht, von LATIN1 nach LATIN1 zu rekodieren.

    Da seit Lightroom 3.4 Adobe auf das Setzen die­ses Flags ver­zich­tet (lehnt sich dabei an die Empfehlungen der MWG (Metadata Working Group)) klappt die Konvertierung mit die­sen Bildern nicht mehr. Vorher ging es. Bei CameraRAW (ab Vers. 6.4 ??) hal­ten sie es eben­so. Bei PS CS4 + 5 klappt es noch. Wahrscheinlich wer­den die ande­ren Adobe Produkte aber eben­falls bald angepaßt.

    Der Trick mit exif­tool bet­seht nun dar­in, erst­mal den coded­cha­rac­ter­set kor­rekt zu setzen.
    1. Schritt
    exif­tool ‑tags­from­file @ ‑iptc:all ‑char­set iptc=utf8 ‑codedcharacterset=utf8 %*
    2. Schritt
    exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*

    Im 2. Schritt kommt dann Dein Code zum Tragen und UTF8 wird kor­rekt nach LATIN1 recoded.

    ABER ACHTUNG!!! Man muß ganz sicher sein, das wirk­lich schon UTF8 im Bild ist, sonst gibt es Zeichensalat. DAHER AM ANFANG IMMER mit Kopien arbeiten

    Der glei­che Trick gilt für Lightroom-​Versionen vor der 3er Serie. Hier wur­de auf dem MAC der Zeichensatz MAC ROMAN benutzt. Hier sehen mei­ne ver­kürz­ten Batchdateien so aus

    1. Schritt recoded MAC ROMAN nach UTF8
    exif­tool ‑tags­from­file @ ‑iptc:all ‑char­set iptc=Mac ‑codedcharacterset=utf8 %*

    2. Schritt recoded UTF8 nach LATIN1
    exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*

    Meine gene­rel­le Lösung zur Zeit ist, das ich alle Bilder in UTF8, unab­hän­gig ob der coded­cha­rac­ter­set kor­rekt gesetzt ist oder nicht, den coded­cha­rac­ter­set mit exif­tool auf UTF8 setz­te und danach nach LATIN1 recode. Ich muß vor der Recodierung dann nur noch her­aus­fin­den, ob UTF8 oder MAC ROMAN entha­len ist.

    Leider habe ich noch nicht her­aus­ge­fun­den (exif­tool ist ziem­lich schwer zu erler­nen), wie man mit exif­tool die 2 Schritte zu einem ver­ei­ni­gen kann. Da ich mit Hunderten von Bildern meh­re­rer Hundert Fotografen zu tun habe und die Probleme bei dem Versions-​Wirrwarr von Adobe zuneh­men, wäre dies für mich eine enor­me Zeitersparniss. Vielleicht hat jemand eine Tipp.

    Viele Grüße
    Jörn

  10. Danke für die rasche Antwort.

    Ich habe das Forum von Phil und auch das Forum auf CPAN inten­siv abge­grast, ohne ent­spre­chen­de Lösungsansätze gefun­den zu haben. So wie ich Phil bzgl. sei­nes Programms in einem Beitrag ver­stan­den habe, gibt es kei­ne direk­te Umwandlung von z. Bspl. MAC ROMAN nach LATIN1, son­dern nur den 2‑stufigen Weg, da auch Phil nicht erra­ten kann, wel­cher Zeichensatz vor­liegt, wenn er nicht in coded­cha­rac­ter­set defi­niert ist. So wie ich ihn ver­ste­he, ist er über die IPTC-​Implementierung und die Verarbeitung in diver­sen Bild-​Management-​Programmen not amused. 

    Allein die Wechsel von Adobe in Lightroom: Bis Version 2 CharSet = MAC ROMAN, ab Vers. 3 dann UTF8 mit geset­zem Flag im coded­cha­rac­ter­set, ab Vers. 3.4 dann UTF8 ohne gesetz­tem Flag im coded­cha­rac­ter­set. Dito CamerRAW.

    Bei den Bildern, die ich von Photographen bekom­me, ist alles dabei. Photoshop in allen Versionen, Lightroom, Bridge, RAW-​Converter, MAC-​OS, WINDOWS-​OS. Das Gemeine ist, das Bilder oft mit ver­schie­de­nen Programmen ange­faßt wur­den und kaum noch nach­voll­zieh­bar ist, wel­cher Zeichenmatsch aus wel­chem Programm kommt. Was für ein Chaos.

    Mein jet­zi­ger Kenntnisstand ist, das das Ganze wohl nur über (unsi­che­re) heu­ris­ti­sche Textanalysen der Captions geht, deren Ergebnisse dann in einem PERL-​Script unter Verwendung von exif­tool ein­ge­baut wer­den müß­te. Aber die Erörterung wür­de hier zu weit gehen.

    Noch bes­ser wäre natür­lich, wenn alle Prgramme end­lich in UNICODE/​UTF8 arbei­ten wür­den. Das gibt es nun schon über 20 Jahre.

    Viele Grüße
    Jörn

  11. @Jörn, ach so, das Problem soll­te doch leicht zu lösen sein.

    Du erstellst eine Batch-​Datei namens – mei­net­we­gen – konvertierung.bat, dar­in ste­hen dann drei Zeilen (ohne die Anführungszeichen):
    „exif­tool ‑tags­from­file @ ‑iptc:all ‑char­set iptc=utf8 ‑codedcharacterset=utf8 %*
    pause
    exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*“

    Die zu bear­bei­ten­den Dateien sowie EXIFTOOL und die Batch-​Datei müs­sen alle im GLEICHEN Verzeichnis liegen.

    Wenn Du dann die Batch-​Datei star­test, soll­te das Programm erst den einen Befehl aus­füh­ren und danach nach dem Drücken einer belie­bi­gen Taste auto­ma­tisch die zwei­te Umwandlung vornehmen.

  12. Dank Dir für den Vorschlag, Robert.

    Aber lei­der ent­spricht er genau mei­nem bis­he­ri­gen Ablauf wie oben in mei­nem Posting mit den 2 Schritten beschrie­ben. Bei Tausenden Bildern dau­ert es halt sehr lan­ge, wenn der Job 2mal lau­fen muß. Ich suche etwas in Form einer Pipe, wo die bei­den Recodierungen qua­si in einem Rutsch durch­ge­führt wer­den kön­nen und die Bilder nicht 2mal auf­ge­ru­fen wer­den müs­sen. Ich habe auf Dein Anraten die­se Frage aber heu­te auch an Phil gepos­ted. Mal sehen ob einen Rat weiß. Falls ja, pos­te ich ihn hier.

    Besten Dank
    Jörn

  13. Update:

    Und hier die Antwort von Phil Harvey:

    Zitat:
    And each of the­se steps invol­ves 2 stages, rea­ding and wri­ting, sin­ce you are using ‑tags­from­file. You can avo­id one read stage in the 1st step by doing this:

    exif­tool ‑codedcharacterset=utf8 a.jpg
    Zitatende

    Das heißt, aus mei­nem obi­gen Posting der
    1. Schritt
    exif­tool ‑tags­from­file @ ‑iptc:all ‑char­set iptc=utf8 ‑codedcharacterset=utf8 %*

    wird jetzt zu
    exif­tool ‑codedcharacterset=utf8 %*

    Der 2. Schritt läßt sich nicht vermeiden
    exif­tool ‑tags­from­file @ ‑iptc:all ‑coded­cha­rac­ter­set= %*

    Zitat:
    But I can see no way to avo­id the 2nd stage sin­ce you can’t cur­rent spe­ci­fy a dif­fe­rent default „-char­set IPTC=“ for rea­ding and wri­ting, and neither the ori­gi­nal nor the final files spe­ci­fy a CodedCharacterSet to over­ri­de this.
    Zitatende

    Damit wird die Perfomance der Recodierung zumin­dest gestei­gert, da ein READ-​stage der Bilder ver­mie­den wird.

    Viele Grüße
    Jörn

  14. Ein hof­fent­lich hilf­rei­cher, wenn auch nicht erfreu­li­cher Hinweis von der IPTC:
    Wie in der Diskussion ver­mu­tet wird, liegt das Übel beim „code­s­cha­rac­ter­set“. Im IPTC IIM Format gibt es ein Feld (inter­ne Kennung 1:90) in dem ange­ge­ben wer­den soll­te, wel­cher Zeichensatz ver­wen­det wird. Leider bleibt die­ses Feld seit der Markteinführung von IIM im Jahr 1994 prak­tisch bei allen Bildbearbeitungsprogrammen leer, erst die Adobe CS 5 Programme set­zen hier den rich­ti­gen Wert.
    Das Ergebnis: Das die Metadaten lesen­de Programm kann nicht wis­sen, wel­cher Zeichensatz beim Schreiben ver­wen­det wur­de und nimmt an, das es der glei­che wie der aktu­el­le auf dem lesen­den Computer ist. Probleme tre­ten auf, wenn zwi­schen Windows und MacOS oder dem regio­na­le Zeichensatz (z.B. West-/Osteuropa)beim Schreiben und dann Lesen gewech­selt wird.
    Viele Grüße
    Michael
    (IPTC GF und Leiter der Foto-​Metadaten Aktivitäten)

  15. Ich arbei­te im Bereich Pressfotografie für ver­schied­ne Agenturen und nut­ze Photo Mechanic zum Eintragen der IPTC Daten. Bei eng­lisch­spra­chi­gen Agenturen hat sich das Problem mit den Umlauten logi­scher­wei­se noch nicht erge­ben. Allerdings wur­de jetzt auch alle Fotografen einer deut­schen Agentur pau­schal dazu auf­ge­for­dert kei­ne Umlaute zu ver­wen­den, da die­ses in den Redaktionssystemen von Zeitungen zu dem beschrie­ben Problem mit den kryp­ti­schen Zeichen führt. Im Endeffekt haben die Zeitungen kei­ne Lust sich damit rum­zu­schla­gen was zu weni­ger Verkäufen führt. Eigentlich dach­te ich, dass Photo Mechanic mit der Einstellung Unicode und Latin1 in die­ser Hinsicht unpro­ble­ma­tisch wäre. Bei ande­ren deut­schen Agenturen gab es das Problem bis­her nicht oder wur­de zumin­dest nicht als sol­ches erkannt oder ange­spor­chen. Es ist schon ziem­lich umständ­lich sich ver­schie­de­ne Workflows für die ein­zel­ne Agenturen zu ver­in­ner­li­chen bzw. tech­nisch umzu­set­zen, beson­ders wenn man zeit­gleich Bilder an zwei oder meh­re­re Agenturen lie­fern muss. Eigentlich bin ich kein Freund der „ae, ue, oe“ Schreibweise und will sie ver­mei­den. Weiß hier jemand etwas genaue­res wie Photo Mechanic in die­ser Hinsicht arbei­tet und ob auch hier kryp­ti­sche Zeichen gene­riert werden?

  16. Ich sto­ße nach Jahren auf die­sen Thread und habe im Prinzip das glei­che Problem, aller­dings mit Photoshop Elements Organizer Version 12. Das Coded Char Set ist, wie von Michael Steidl am 27.10.2011 geschrie­ben, schon seit 20 Jahren defi­niert, wird weder gesetzt noch aus­ge­wer­tet. Das ist sehr häß­lich und soll­te m.E. auch drin­gend kor­ri­giert wer­den. Ich hab das bei Adobe repor­tet (http://feedback.photoshop.com/photoshop_family/topics/pse_organizer_destroyes_umlaut_in_iptc_coded_character_set_is_not_used) und bin anschei­nend der ein­zi­ge, der die­ses Problem hat. Das mag ich nicht glau­ben. Vielleicht sagen ja noch mehr Personen, dass sie die­ses Problem haben und schon bewegt sich der Riese – vielleicht.

Kommentare sind geschlossen.