PDF-Dateigröße schnell und einfach reduzieren

Da ich absolut kein Freund von Papier im Office bin und möglichst alles als PDF-Dokument auf der Platte und im Netz* aufbewahre, scanne ich fast alles, was hier an wichtigen Dingen in Papierform ankommt ein um es eben so zu archivieren. Allerdings ist die Dateigröße solcher gescannten Dokumente relativ groß und so habe ich mich auf die Suche nach Lösungen gemacht:

Lösung 1: Nach dem Scannen mit Preview.app im "Save-As"-Dialog einen Quarz-Filter auswählen um die Größe zu verringern.

  • Pro: Built-In-Lösung, keine weiteren Apps nötig, keine Anschaffungskosten
  • Contra: nur via Automatorscript automatisierbar, OSX-Only, in meinem Test absolut grottige Qualität, nicht auf Headless-System einsetzbar
Lösung 2: Adobe Acrobat hat eine integrierte Funktion um die Dateigröße zu verringern, die allerdings wie der Name schon sagt nur in der Bezahlversion vorhanden ist und nicht im Acrobat Reader.
  • Pro: sehr gute Verkleinerung der Dateien, sehr gute Qualität des Dokuments nach der Verkleinerung, unterstützt zusätzlich Texterkennung
  • Contra: sehr hohe Anschaffungskosten, nicht oder nur schlecht automatisierbar, hoher Resourcenverbrauch, nicht auf Headless-System einsetzbar, zusätzliche Software nötig, kein Linux-Einsatz
Lösung 3: Ein kleines Bash-Script, welches GhostScript aufruft um die Dateien zu verkleinern. Dabei werden einige Parameter an GhostScript übergeben und der Rest passiert in recht kurzer Zeit (abhängig von der Ursprungsgröße) von alleine.
  • Pro: freie Software, zu 100% automatisierbar, lauffähig auf Headless-Systemen, minimale bis keine Qualitätsunterschiede zum Original, hohe Effizienz was die Verkleinerung der Dateigröße angeht
  • Contra: benötigt auf einigen Systemen zusätzliche Software
Meine damit bevorzugte Lösung ist definitiv die Lösung 3, da ich sie Serverseitig ausführen kann, sie sowohl auf OSX als auch auf Linux nutzen kann und sie gute Resultate bringt. Die Kompression der Datei ist dabei nur minimal schlechter als beim Adobe Acrobat aber dafür spart diese Lösung sowohl Zeit durch die Automatisierung als auch Geld dadurch, dass es freie Software ist.

Wen das bei mir eingesetzte Script interessiert, welches ursprünglich aus dem Ubuntu-Forum stammt, der darf hier kopieren:

#!/bin/bash
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=${1%\.pdf}-small.pdf $1
Der einzige Punkt, der mir damit noch fehlt ist, dass leider keine OCR-Erkennung für das Dokument gemacht wird und es somit nicht durchsuchbar ist. Leider sind allerdings nach meinen bisherigen Tests die OpenSource-OCR-Tools entweder nicht in der Lage den erkannten Text in die PDF einzusetzen und diese damit durchsuchbar zu machen oder aber sie liefern inakzeptable Resultate für Dokumente in deutscher Sprache.

Wie handhabt Ihr das? Hebt Ihr alles an Papier auf oder bevorzugt Ihr auch die digitale Archivierung? Wenn ja, welche Software nutzt Ihr?

* Natürlich werden die Dokumente dabei so aufbewahrt, dass ein Zugriff fremder Personen ohne ausdrückliche Einwilligung nicht möglich ist.