Wie ein gescanntes Dokument mit Text im PDF Format durchsuchbar machen?

1 Antwort

Hallo brunner, wenn ich recht verstehe, hast Du vor allem einen Text als Bild eingescannt. Dass das Ausgabeformat PDF heißt, ist eher beiläufig, macht für Deine Aufgabenstellung aber Sinn.

Lösen wirst Du das Problem in solchen Fällen nur, wenn Dein Drucker / Scanner OCR beherrscht, das heißt eingescannten Text von pixelbasierten Bilddaten wieder in Text zurückverwandeln kann. Die meisten, etwas höherwertigen Drucker liefern bereits entsprechende Lösungen in ihren Programmpaketen mit.

Allerdings kann es bedeuten, dass Du den Scan noch einmal durchführen musst. Die Auflösung sollte entsprechend hoch, das Kontrastverhältnis hart und die Farbtiefe ziemlich gering sein, damit Du gute Ergebnisse erzielst.

Da es sich um einen recht aufwändigen Ablauf handelt, musst Du leider mit ziemlich langer Bearbeitungsdauer rechnen. Es kann auch sein, dass dieser Weg nur offen steht, wenn tatsächlich die Desktop Software genutzt wird, ich spreche also nicht von der "Ein-Knopf-Ein-PDF" Variante, die viele Drucker am Gerät selbst anbieten.

Schau am besten mal in der Doku Deines Druckers nach, genauer kann ich es nicht beantworten, weil ich Deine Hardware nicht kenne.

Evtl. hilft Dir auch die hier genannte Software weiter: http://de.wikipedia.org/wiki/Texterkennung#OCR-Software

Was möchtest Du wissen?