PDF-Optimierung

16.12.2002 von STEFAN SCHMÖLLER 
Adobes Portable Document Format gilt als Garant für eine layoutgerechte Darstellung. Doch nur mit Hintergrundwissen lässt sich ein optimal zum Einsatzgebiet passendes PDF-Dokument erzeugen.

Die Wurzeln des Portable Document Format (PDF) finden sich in der Druckersprache Postscript, die ebenso wie PDF von Adobe entwickelt wurde. Auch heute befruchten sich beide Standards noch gegenseitig. Die nahe Verwandtschaft zeigt sich beispielsweise dadurch, dass jeder PDF-Konverter auf einen Postscript-Druckertreiber angewiesen ist. Beim kostenlosen Konverter Ghostscript muss dieser separat installiert werden, bei Adobes Stammprodukt Acrobat wird er mitgeliefert. Die Qualität des verwendeten Postscript-Treibers hat somit auch großen Einfluss auf die Umsetzung eines Dokuments in das PDF-Format.

Auch ist eine verlustfreie Umwandlung von Postscript zu PDF und zurück jederzeit möglich. Im Prepress-Bereich ist PDF daher dabei, sich durch die intuitivere Darstellung zu etablieren. Doch während im Druckereigewerbe das Problembewusstsein für eine genaue Spezifizierung und ausgereifte Software sorgt, herrscht im klassischen IT-Bereich ein PDF-Wildwuchs.

Durch die vielen unterschiedlichen Einsatzgebiete im Web, als E-Book oder im Prepress-Bereich wird es für den Ersteller immer schwieriger, ein optimales Dokument zu erzeugen. Insbesondere beim letzten Versionssprung von PDF auf 1.4 wurden zahlreiche Neuerungen speziell für die Webpräsentation und fürs E-Book integriert, die vermehrt Probleme bereiten.

Dateigröße

Trotz der neuen Gimmicks liegen die Hauptprobleme beim Umgang mit PDF nach wie vor bei der Dateigröße, den eingebetteten Schriftarten und der Sicherheit. Diese Punkte sollten erst einmal passend spezifiziert sein, bevor neue Möglichkeiten wie etwa die Interaktivität mit Hilfe von Javascript oder eingebetteter Ton und Video-Dokumente zum Einsatz kommen. Da die neuesten Funktionen zudem einen aktuellen Reader erfordern, eignen sie sich nur für eine kleine Zielgruppe, die diese Features versteht und akzeptiert.

Einen großen Einfluss auf die Dateigröße hat die verwendete Auflösung. Um die Dateigröße zu minimieren, genügt für eine zufrieden stellende Bildschirmpräsentation eine Auflösung von 72 dpi. Allerdings nutzen viele Anwender die Zoomfunktion im Reader. Wird auch bei einer Vergrößerung noch eine gewisse Qualität, etwa für das Firmenlogo, erwartet, ist eine höhere Auflösung nötig.

Für die im Dokument enthaltenen Bilder kann die Auflösung und Qualität je nach Software oft separat eingestellt werden. Eine Aufteilung in Farbbild, Graustufenbild oder Schwarzweiß-Abbild liefert eine generelle Unterscheidung. Neben den gängigen Kompressionsverfahren JPEG und ZIP gibt es für Schwarzweiß-Bilder auch das vom Fax bekannte CCITT.

Die Einstellung der Qualität lässt sich aber selbst bei Adobes Acrobat nur stufenweise angeben. Ärgerlich ist dies vor allem, wenn unterschiedliche Qualitätsanforderungen im selben Dokument, etwa bei Firmenlogos, Screenshots und Detailzeichnungen bestehen. Ein Ausweg ist, die Kompression bei Bildern ganz abzuschalten. Die passende Qualität legt man dann selbst bei der Aufbereitung des Bildes in der Bildbearbeitungs-Software fest.

Linearisierung

Werden im Web große Dokumente, wie Strategiepapiere mit mehreren hundert Seiten oder Webkataloge angeboten, ist eine lineare Speicherung ratsam. Fehlt diese Einstellung, muss erst das komplette Dokument übertragen werden, bevor der Anwender einen Zugriff erhält. Mit linearer Speicherung zeigt der Reader die ersten Seiten an, sobald die ersten Kilobytes übertragen sind. Dann kann der Leser etwa über das Inhaltsverzeichnis gezielt einzelne Seiten anspringen, ohne dass das ganze Dokument dazu geladen sein muss. Voraussetzung dafür ist jedoch, dass sowohl Server als auch Reader die Linearisierung unterstützen.

Eingebettete Schriftarten

Ein weiterer Punkt, um die Dateigröße zu verringern, sind die eingebetteten Schriftarten. Insbesondere beim Versand von kleinen Dokumenten, wie etwa einem Newsletter per Mail, fallen diese ins Gewicht. Alle Acrobat-Reader-Versionen kennen plattformunabhängig bereits 14 relevante Grundschriftarten. Diese müssen also nicht zusätzlich im Dokument mitgeliefert werden.

Da in PDF-Fonts auch der Stil beschrieben ist, funktioniert selbst die Auswahl eines nahen Verwandten aus den Grundschriftarten. Peinlich wird es hingegen beim Weglassen exotischer Fonts, die etwa ein Firmenlogo nutzt. Fehlen diese Fonts im PDF-Dokument, erscheint beim Endanwender nur ein Text im Standardfont. Auf dem System des Erstellers hingegen, der den passenden Font installiert hat, fällt dieser Makel nicht auf.

Eine weitere Möglichkeit zur Größenminimierung ist, lediglich die verwendeten Untergruppen der Fonts einzubetten. Nicht benötigte Glyphen können dann ausgespart werden. Allerdings leidet die Editierbarkeit des Textes darunter.

Liegen die entsprechenden Lizenzen vor und lässt es die Dateigröße zu, kann es sogar sinnvoll sein, die Grundschriftarten einzubetten. Damit beugt man etwa einem fehlenden Euro-Zeichen bei älteren Readern vor.

Sicherheit

Im Vergleich zu Word-Dokumenten als Mailanhang hat PDF klare Vorteile. Bei Microsoft-Office-Anhängen herrschen zurecht Sicherheitsbedenken auf Grund von möglichen Makroviren. Zudem ist die Dominanz aus Redmond noch nicht so ausgeprägt, dass jeder ein Word-Dokument auf seinem Rechner öffnen kann.

Zwar gibt es bereits erste PDF-Viren, doch spielen diese noch keine Rolle. Sie benötigen derzeit noch ein installiertes Acrobat und nicht nur den Reader, um in Aktion treten zu können. Da PDF-Dokumente zudem noch kleiner ausfallen und keine sensiblen Informationen über ihre Erstellung preisgeben, sind sie gegenüber Word klar im Vorteil.

PDF kann es verbieten, Dokumente zu verändern, zu drucken oder Text aus ihnen zu exportieren. Mit PDF 1.4 steht dabei auch eine sichere 128-Bit-Verschlüsselung bereit. Doch um die Kompatibilität zu älteren, oft Hardware-basierten Readern zu wahren, wird meist nur eine 56-Bit-Verschlüsselung verwendet. Diese stellt bei der heutigen Prozessorleistung auch bei gut gewählten Kennwörtern keinen verlässlichen Schutz dar.

Der Einsatz von Kennwörtern und die Deaktivierung der Druckfunktion sind für kostenpflichtige Angebote interessant. Durch den gemeinsamen Ursprung ähneln sich Postscript und PDF aber stark. Ist daher erst einmal die Umwandlung eines PDFs in eine Postscript-Datei geschafft, verliert das Dokument jegliche Sicherheitsinformationen und kann anschließend wieder verlustfrei in ein ungesichertes PDF-Dokument verwandelt werden.

Um bei Behörden und Unternehmen Fuß zu fassen, erweitert Adobe derzeit die Möglichkeiten der digitalen Unterschrift. Insbesondere im Zusammenhang mit Kommentaren, der Stempelfunktion und einer Änderungshistorie, ist dafür eine verbindliche Benutzerverwaltung notwendig. Mitgeliefert wird Adobes eigene Entwicklung Self-Sign. Über Module lassen sich auch einige andere Hersteller wie etwa Verisign einbinden, PGP wird jedoch nicht unterstützt. Da aber kaum ein Sicherheitsverantwortlicher mehrere Legitimationsmodelle parallel pflegen wird, ist der Einsatz der digitalen Signatur von PDF-Dokumenten in vielen Firmen nicht praktikabel.

Interaktivität

Als interaktives Dokument bietet PDF weitere Möglichkeiten, den Lesekomfort zu verbessern. Javascript und Formularfelder, die der Reader interpretiert, können Präsentationen automatisieren oder Bestellungen direkt aus dem Dokument über das Internet realisieren. In der Praxis nutzen die Anwender diese Möglichkeiten aber nur zögerlich. Die neuen Features haben nur eine Chance, wenn sie intuitiv und nachvollziehbar verwendet werden.

Da mit den speziellen E-Book-Readern auch sehr eingeschränkte Plattformen als potenzielle Zielgruppe in Betracht kommen, können gut gemeinte Add-ons fatale Folgen haben. Allgemein akzeptiert und sehr hilfreich sind jedoch die Strukturierung und Indexierung eines Dokuments. Lesezeichen und Sprungmarken ermöglichen dabei eine dem Web vergleichbare Navigation.

Für Word und Excel und auch Powerpoint gibt es entsprechende Makros, die die Struktur automatisch erstellen. Eine manuelle Nachbearbeitung kann schnell sehr frustrierend werden. Doch auch die automatische Umsetzung erfolgt nicht immer wie gewünscht.

Das durch Adobe unter dem Begriff "tagged PDF" zusammengefasste Thema dürfte in Zukunft jedoch noch einige Verbesserungen erfahren. Auch die Entwickler entsprechender Add-ons sind derzeit aktiv, um die bestehenden Lücken zu schließen.

Plattformunabhängigkeit

PDF gilt zu Recht als betriebssystemübergreifend. Doch auch Adobe kann sich nicht über unterschiedliche Interpretationen durch Hardware und Betriebssysteme hinwegsetzen. Der farbkalibrierte Monitor des Grafikers mit hoher Auflösung hat wenig gemein mit dem Westentaschen-Display eines Organisers. Und doch können beide dieselbe PDF-Datei wiedergeben.

Eine wirklich identische Umsetzung ist jedoch bereits innerhalb eines Betriebssystems nicht immer gegeben. Schon Windows stolpert gerne über unterschiedliche Schriftart-Versionen mit derselben Fontbezeichnung. Wer mit SelfSign digital signierte Dokumente an Linux-Rechner schickt, scheitert an einer fehlenden Infrastruktur, um die Unterschrift zu verifizieren.

Mac-OS X hat PDF ins Betriebssystem integriert, doch auch noch in der Version 10.2 fehlen viele Spezifikationen des aktuellen PDF-Standards 1.4. Da es unter Mac-OS X beim Erzeugen von PDF-Dokumenten zudem keinerlei Einstellungsmöglichkeiten gibt, können selbst einfache Textdokumente als PDF-Datei mehrere MByte beanspruchen. Andere Konverter belegen dafür bei gleicher Qualität lediglich einige KByte.

Bearbeiten und automatisches Erzeugen

Für nachträgliche Änderungen eines Dokuments ist nicht immer das Quelldokument erforderlich. Mit diesem Feature möchte Adobe auch die Arbeitswelt in Behörden und Unternehmen erobern. Für umfangreiche manuelle Layoutänderungen kann neben Adobes Acrobat auch Adobes Illustrator herangezogen werden. Er unterstützt PDF in der aktuellen Version als Standardformat.

PDF-eigene Erweiterungen, wie die Lesezeichen, Artikelfolgen oder Formularfelder, müssen jedoch immer wieder erneut erzeugt werden, sobald Veränderungen am Quelldokument erfolgen. Hier öffnet sich das weite Feld der automatischen PDF-Erzeugung. Open-Source-Projekte, wie etwa Ghostscript oder FOP, können PDF-Dokumente für jeden Nutzer mit individuellen Daten neu erzeugen. Durch den objektbasierten Aufbau sind die dafür nötigen Änderungen überschaubar.

Doch auch wer nur wenige PDF-Dateien manuell erzeugen möchte, etwa Bewerbungsschreiben, Newsletter oder Webkataloge, kann sich die Bearbeitung erleichtern. Über job.descriptions kann er die für jeden Einsatzzweck passenden Einstellungen einmalig speichern und jedes Mal wieder verwenden.

Ausblick

Durch zahlreiche Projekte wird der Anspruch von PDF als universelles Format für einen digitalen Ausdruck weiter untermauert. Nichtsdestotrotz bleibt PDF ein Herstellerstandard, dessen Weiterentwicklung nur Adobe steuert. Da Adobe derzeit gleichzeitig viele Baustellen im Prepress-Bereich, bei Behördenprozessen, im Web und im Content-Management für E-Books eröffnet hat, bleibt abzuwarten, in welche Richtung sich PDF entwickelt.

Durch die Erschließung neuer Märkte droht dem PDF-Standard aber eine bislang wenig beachtete Gefahr. Immer mehr Anwendungen unterstützen PDF - allerdings mit teilweise sehr schlechten Import- und Exportfiltern. Anders als in der Druckvorstufe fehlt deren Anwendern zudem die nötige Erfahrung, gute PDF-Dokumente zu erzeugen. Die Erschließung des Massenmarkts könnte dadurch dem guten Ruf des PDF-Standards mehr schaden als nutzen.

Einen Einblick in die weiteren Möglichkeiten von PDF bietet das Buch PDF-Workflow, das sich allerdings auf Adobe-Produkte beschränkt und aus dem Prepress-Bereich stammt. Ein aktueller Test von PDF-Konvertern folgt in Kürze. (ala)